迈向科学论文评审自动化?
3个要点
✔️ 自动生成科学论文评论
✔️ 一个新的数据集,包含20000多篇各种科学论文的评论:ASAP-Review。
✔️ 一个自动生成研究论文评论的开源系统。
Can We Automate Scientific Reviewing?
written by Weizhe Yuan, Pengfei Liu, Graham Neubig
(Submitted on 30 Jan 2021)
Comments: TLDR: This paper proposes to use NLP models to generate first-pass peer reviews for scientific papers.
Subjects: Computation and Language (cs.CL)
code:![]()
介紹
如今,每天在科学界发表的科学论文不计其数,在人工智能界发表的论文更是不计其数。在如山的论文中,要找到一篇与自己兴趣相关的论文是非常困难的。这就耽误了同行评审,而同行评审对于验证任何论文中提出的观点都是至关重要的。给快速发展的科学界带来了真正的挑战。
在本文中,我们提出使用NLP模型来生成科学论文的评论。该模型在ASAP-Review数据集上进行训练,并在一组指标上进行评估,以评估生成的评论的质量。结果表明,该模型并不擅长总结论文,但可以生成比人类生成的更详细的评论,涵盖更多方面的论文。该论文还发现,人类和自动审核员都表现出不同程度的偏见和偏向,系统产生的偏见评论比人类审核员更多。
以上整整第二段是本论文系统生成的评论。你很惊讶吗?好吧,让我来给你解释一下这个系统吧!
什么是GOOD评测?
一个好的审查可能会表现出几个目标(如使用正确的事实信息)和主观品质(如不偏不倚的解释)。出于这个原因,一个优秀的。审查很难界定。在本文中,我们将重点讨论一个好的用四个主要标准对审查进行量化。果断性、全面性、合理性和准确性。这些是
该研究的目标是进行荟萃综述Rm并对论文D的审稿质量R(人工或自动生成)进行评价,用(实际论文的审查摘要)。为此定义了两个功能。DEC(D)∈{-1,1}。 这意味着元审查的最终结果,{'接受','拒绝'}。另一个功能REC(R)∈{-1,0,1}。 意为{'接受'、'中立'、'拒绝'}代表论文的接受程度。
让我们仔细看看这些标准中的每一项,以及它们是如何被评估的。
1) 决定性
好的审稿人立场明确,只表扬有价值的论文,拒绝其他论文。决定性程度是用推荐准确度(RAcc)计算的,其目的是衡量审稿人对一篇论文的批准(REC)是否与对该论文的决定(DEC)一致。
RAcc(D) = DEC(D) * REC(R)
2)全面性
一篇好的综述应该是条理清晰,对论文的不同方面进行简短的总结和评价。有两个指标用于衡量全面性:Aspect Recall(ARec)和Aspect Coverage(ACov)。与Review R相比,ACov衡量的是全面性覆盖了多少方面。Aspect定义为摘要(SUM)、动机/影响(MOT)、原创性(ORI)等,后面会讨论ACov统计有多少方面从meta-review中匹配到综述。
3)理由
对论文的评价必须具有建设性,并有适当的证据和理由。合法性用Info(R)度量,其中R的负面情绪的方面数量(n呐)和R中具有负面情绪的方面有证据支持的数量(n无),其计算方法为R中具有负面感受的方面数之比(证据的认定是通过人工和n呐=0,Info(R)设为1。
4) 准确性
所使用的信息必须是事实正确的:摘要准确度(SAcc)是衡量一篇综述对文章的总结程度,取值为{0,0.5,1}的{不正确、部分正确、正确}。这些数值都是人工计算出来的。这些数值是由人工分配的。另一个度量标准,即方面层面的建设性(ACon),是对评论负面情绪的衡量(n呐),用于评价所提供的反对证据。因此,要想获得高分的Info(R),仅仅提供证据是不够的。换句话说,证据一定要准确,要有针对性,才能获得较高的总分。
5)语义等同性
除了所有标准外,还引入了两个额外的标准来衡量文章和评论的语义等同性。语义等同性为高,说明文章的内容在评论中得到了准确的体现。词性)和BERTScore(词缀距离)进行计算,并取两个值的最大值。
数据集
ASAP-审查数据集
为了训练模型,我们基于2017-2020年的ICLR论文和2016-2019年的NeurIPS论文创建了一个新的数据集。元数据信息包括参考文献审查(由委员会成员进行)、元审查(由高级委员会成员进行)、接受/拒绝决定以及其他信息,如URL、作者、评论和主题。
正面和负面情绪的人类和自动方面标签。
数据集中的每篇综述都用预先定义的标签进行注释,如摘要(SUM)、动机/影响(MOT)、原创性(ORI)、合理性/正确性(SOU)、实质内容(SUB)、重现性(REP)、有意义的比较(CMP)和清晰度(CLA)。首先,我们对这1000条评论进行人工标注。接下来,我们用这1000条评论来调整BERT模型,对剩下的20000多条评论进行注释。最后,随机抽取300条评论,由人工检查其注释。 结果如下所示。
正面情绪的再现性低(50%),这可能是由于例子数量少。此外,其他数值也比较高。
学习促进科学评论的生成。
我们使用预先训练好的BART模型来生成科学评论,BART允许的最大长度为1024字,这对大多数科学论文来说太短了。因此,在测试了各种方法后,我们采用了两步法。在这个两步法中,我们首先用Oracle和交叉熵(CE)提取法从论文中提取重要信息。然后,将提取的信息通过模型。
我们还制定了一个分类问题,利用ASAP-Review数据集的注释来预测方面标签。那么,损失函数由以下公式给出。
Lnet =Lseq2seq +kLseqlab
其中,k(=0.1)是一个超参数,经过调整后,使生成的评测更符合方面的要求。Lseq2seq是预测下一个词的对数损失,而L座标实验室是预测下一个词的标签的logit损失。
评估
† 表示人类和模型性能之间的差异具有统计学意义。
上表比较了模型与人类的表现。模型产生的结果具有很强的综合性,甚至超过了人类。这些模型在编译论文方面也非常出色。
然而,正如预期的那样,这些模型并没有像人类审稿人那样对论文内容提出质疑,而是倾向于模仿训练集中经常发生的情况("这篇论文写得很好,很容易理解",90%的时间都在重复)。此外,一篇论文内的上下文不足以区分论文质量的好坏。
该文件(用于图像识别的深度残差学习)审查生成结果
结论:
即使本文提出的模型还不能用于专业用途,但肯定可以用于一些任务。例如,它们可能对刚刚学习科学审查过程的年轻或没有经验的研究人员有用。此外,ASAP-Review数据集只包含机器学习领域的评论,需要扩展以准确覆盖其他领域。虽然距离达到人类水平的性能还有很长的路要走,但本文已经成功地为未来的研究奠定了坚实的基础。关于模型和数据集的更多信息,请参考原论文。让您的论文自动进行同行评审。
与本文相关的类别