3分钟看完一篇论文,AI 文本生成模型把今年 NeurIPS

本篇文章给各位网友带来的资讯是:3 分钟看完一篇论文,AI 文本生成模型把今年 NeurIPS 2300+ 篇总结了个遍 详情请欣赏下文

今年 NeurIPS 大会论文已经放榜,终于可以学习一下大佬们的研究了。

不过,打开电脑,随便点开一篇,就是一大段密密麻麻的文字糊脸…… 只是摘要就有这么长,还有 2300 多篇,这工作量实在劝退。

3分钟看完一篇论文,AI 文本生成模型把今年 NeurIPS

能不能让论文们都做一道经典的语文题:“用一句话概括全文内容”?还真可以。

最近 Reddit 上的一位博主发布了一篇今年的 NeurIPS 大会论文汇总,其中的每篇论文下方(红框中)都有一句由 AI 生成的高度凝练的总结

3分钟看完一篇论文,AI 文本生成模型把今年 NeurIPS

而这款 AI 文本分析软件,其实就是东京工业大学团队开发的 Paper Digest

它号称能帮你把论文阅读时间减少到 3 分钟

3分钟看完一篇论文,AI 文本生成模型把今年 NeurIPS

除了总结论文内容以外,它还可以筛选出已经发布代码的论文

同样,这次 NeurIPS 大会上的 200 多篇已发布代码的文章也被汇总了出来(可能会有疏漏)。

点击“code”,就可以直接跳转到相应的 GitHub 页面。

3分钟看完一篇论文,AI 文本生成模型把今年 NeurIPS

AI 如何做好概括题

那这个 AI 文本分析神器应该怎么用呢?

很简单,先打开 Paper Digest 的官网。完成一些注册工作后,滑到一个搜索框的界面:

3分钟看完一篇论文,AI 文本生成模型把今年 NeurIPS

在这个搜索框里填上你要总结概括的论文的 DOI 号。

DOI 号就像论文的身份证号,是独一无二的。以随便打开的一篇论文为例,它长这样(红框中即为 DOI 号):

3分钟看完一篇论文,AI 文本生成模型把今年 NeurIPS

填完之后,点击“Digest”就开始总结了:

3分钟看完一篇论文,AI 文本生成模型把今年 NeurIPS

只需几秒钟,就会有一句话的总结输出,你也可以选择一个最合适反馈给 Paper Digest,帮他们丰富数据库。

3分钟看完一篇论文,AI 文本生成模型把今年 NeurIPS

除了输入 DOI 号,如果你有本地的论文 PDF 文件,也可以直接导入。

3分钟看完一篇论文,AI 文本生成模型把今年 NeurIPS

是不是很方便?其实这样方便好用的模型还不止一种。

比如,在一款免费学术搜索引擎 Semantic Scholar 里,也加入了一个类似的高度概括 AI:TLDR。

TLDR(Too Long,Don’t Read),其实就是太长不看的意思……

在 Semantic Scholar 上搜索论文时,带有 TLDR(红框)标志的就是 AI 生成的一句话总结。

3分钟看完一篇论文,AI 文本生成模型把今年 NeurIPS

具体到方法原理上,我们不妨以 TLDR 为例一起来看看。

举个例子,下图中上边的格子中是摘要,简介,结论中相对重要的段落和句子。TLDR 会标记出突出的部分,然后组合成一个新的句子。

3分钟看完一篇论文,AI 文本生成模型把今年 NeurIPS

它的训练逻辑也很容易理解。简单来说,就是先确定一个标准答案,然后把标准答案打乱,再让 TLDR 尝试复原。

这和人类提炼概括的过程也很像。概括本身也需要忽视一些干扰,然后提取出最重要的部分。

所以在训练之前要准备两个数据库,也就是标准答案:一个是 SciTLDR,它包含接近 2000 篇计算机科学相关论文,每篇论文都有一个最好的总结。

另一个是论文-标题对数据库。由于标题中一般有很多重要的语句,对生成 TLDR 来说很有帮助。

将这两个数据库分别加上控制码“<TITLE>”和“<TLDR>”之后进行混合,送入 BART 模型。

最后的 BART 模型是一个基于 Transformer 的预训练 sequence-to-sequence 去噪自编码器,它的训练步骤主要有两步:

首先用任意噪声破坏函数文本,相当于把标准答案打乱。然后让模型学习重建原来的文本。这整个学习策略就是 CATTS。

3分钟看完一篇论文,AI 文本生成模型把今年 NeurIPS

来看看效果如何。

下图中 TLDR-Auth 是论文作者本人写的总结,TLDR-PR 是本科学生读完论文写的总结。

BART 和 CATTS 分别是原有模型和 CATTS 模型给出的总结。

3分钟看完一篇论文,AI 文本生成模型把今年 NeurIPS

从重合度看起来效果还是不错的。

相关推荐还需下功夫

不过,不论是 TLDR 还是 Paper Digest,都有不完善的地方。

TLDR 只针对计算机科学的论文进行了总结。

而对于 Paper Digest,网友表示它虽然概括做得很好,但是相关推荐实在是不行,今后仍需改进。

3分钟看完一篇论文,AI 文本生成模型把今年 NeurIPS

而且 Paper Digest 并不适用于所有论文

目前,它只对来源于开放获取期刊的论文或者本地 PDF 文件导入的论文有效。

但是不论哪种文本分析 AI,都可以快速获取论文高度凝练的概括信息。

如果大家想快速了解今年 NeurIPS 大会的论文情况,可以从文末链接中找到这次的汇总。

参考链接

[1]https://www.reddit.com/r/MachineLearning/comments/r0gnej/r_one_sentence_highlight_for_every_neurips2021/

[2]https://aclanthology.org/2020.findings-emnlp.428.pdf

[3]https://www.paperdigest.org/2021/11/neurips-2021-highlights/

[4]https://www.paper-digest.com/

© 版权声明
好牛新坐标
版权声明:
1、IT大王遵守相关法律法规,由于本站资源全部来源于网络程序/投稿,故资源量太大无法一一准确核实资源侵权的真实性;
2、出于传递信息之目的,故IT大王可能会误刊发损害或影响您的合法权益,请您积极与我们联系处理(所有内容不代表本站观点与立场);
3、因时间、精力有限,我们无法一一核实每一条消息的真实性,但我们会在发布之前尽最大努力来核实这些信息;
4、无论出于何种目的要求本站删除内容,您均需要提供根据国家版权局发布的示范格式
《要求删除或断开链接侵权网络内容的通知》:https://itdw.cn/ziliao/sfgs.pdf,
国家知识产权局《要求删除或断开链接侵权网络内容的通知》填写说明: http://www.ncac.gov.cn/chinacopyright/contents/12227/342400.shtml
未按照国家知识产权局格式通知一律不予处理;请按照此通知格式填写发至本站的邮箱 wl6@163.com

相关文章