学術論文レビューの自動化に向けて!
3つの要点
✔️ 科学論文レビューを自動的に生成する
✔️ 様々な科学論文20000以上のレビューを集めた新しいデータセット:ASAP-Review
✔️ 研究論文レビューを自動的に生成するオープンソースシステム
Can We Automate Scientific Reviewing?
written by Weizhe Yuan, Pengfei Liu, Graham Neubig
(Submitted on 30 Jan 2021)
Comments: TLDR: This paper proposes to use NLP models to generate first-pass peer reviews for scientific papers.
Subjects: Computation and Language (cs.CL)
code:
Introduction
現在、科学コミュニティでは数え切れないほどの科学論文が日々発表されており、人工知能コミュニティではさらに多くの論文が発表されています。山のようにある論文の中から、自分の興味に関連する論文を見つけることは非常に困難です。これは、どのような論文でも発表されたアイデアを検証するために不可欠なピアレビューを遅らせるという急速に進歩する科学コミュニティに真の課題を突きつけています。
本論文では、科学論文のレビューを生成するためにNLPモデルを利用することを提案する。モデルはASAP-Reviewデータセット上で学習され、生成されたレビューの品質を評価するための指標のセットで評価される。その結果、モデルは論文を要約することはあまり得意ではありませんが、人間が作成したものよりも論文のより多くの側面をカバーするより詳細なレビューを生成できることがわかりました。また、この論文では、人間と自動レビュアーの両方が様々な程度のバイアスと偏りを示し、このシステムは人間のレビュアーよりも偏ったレビューを生成していることがわかりました。
上記2段落目全体が、この論文システムが生成したレビューでした。驚きましたか?それではシステムについての解説をしていきます!
GOODレビューとは?
優れたレビューとは、いくつかの目的(例:正しい事実情報を使用している)と主観的な質(例:偏りのない解釈)を示す場合があります。このため、優れたレビューを定義するのは難しいです。この論文では、優れたレビューを定量化するために4つの主要な基準を用いています。Decisiveness, Comprehensiveness, Justification, Accuracyです。
研究の目標は、メタレビューRmを用いて、論文DのレビューR(手動または自動で生成された)の質を評価することです。(実際の論文のレビュー要約)このために2つの関数が定義されています。DEC(D) ∈{-1,1} メタレビューの最終結果である{'accept', 'reject'}を意味します。もう一つの関数REC(R) ∈ {-1,0,1} 意味{'accept','neutral,'reject'}は論文のアクセプトを表します。
それぞれの基準とその評価方法を詳しく見ていきましょう。
1) Decisiveness(決定性・決断力)
優れた査読者は明確な立場をとり、価値のある論文のみを賞賛し、他の論文は却下する。決定性の度合いは、Recommendation Accuracy(RAcc)を用いて計算されます。RAccは、査読者の論文(REC)の承認が、その論文(DEC)に対してなされた決定と一致しているかどうかを測定することを目的としています。
RAcc(D) = DEC(D) * REC(R)
2) Comprehensiveness(包括性・網羅性)
優れたレビューは、論文のさまざまな側面の短い要約と評価でよく整理されていなければなりません。包括性を測定するために2つの指標が使用されます。Aspect Recall(ARec)とAspect Coverage(ACov)です。レビューRに対して、ACovは包括性の中でどれだけの側面をカバーしているかを測定します。アスペクトは、Summary (SUM)、Motivation/Impact (MOT)、Originality (ORI)などと定義されており、後述します。ACovは、メタレビューの中からどれだけの側面がレビューにマッチしているかをカウントします。
3) Justification(正当性)
論文の評価は建設的であり、適切な根拠と理由に裏打ちされていなければならない。正当性は、Info(R)メトリックを用いて、否定的な感情を持つRの側面の数(nna)と、証拠に裏付けられた否定的な感情を持つRの側面の数(nnae)の比として計算されます。エビデンスの判定は手動で行い,nna=0のときはInfo(R)を1とします。
4) Accuracy(精度)
使用する情報は事実上正しいものでなければなりません。Summary Accuracy(SAcc)は、レビューがどれだけ論文を要約しているかを示す指標で、{incorrect, partially correct, correct}に対して{0,0.5,1}の値をとります。これらの値は人間が手動で割り当てます。別のメトリックであるAspect-level Constructiveness (ACon)は、レビューの否定的な感情(nna)に対して提供された証拠を評価するために使用されます。そのため、単にエビデンスを提供して高いInfo(R)スコアを得るだけでは十分ではありません。すなわち、全体的に高いスコアを得るためには、エビデンスが正確で適切である必要があります。
5) Semantic Equivalence(意味論的同等性)
すべての基準に加えて、論文とレビューの意味論的同等性を測定するために、さらに2つの基準が導入されています。意味論的同等性が高いということは、論文の内容がレビューで正確に表現されていることを意味します。ROGUE(word-matching)とBERTScore(distance of word embeddings)が計算され、2つの値の最大値が取られます。
データセット
ASAP-Review Dataset
モデルを学習するために、2017-2020年のICLR論文と2016-2019年のNeurIPS論文を元に、新たなデータセットを作成しました。メタデータ情報には、リファレンスレビュー(委員会メンバーによる)、メタレビュー(上級委員会メンバーによる)、アクセプト/リジェクト判定、その他URL、著者、コメント、件名などの情報が含まれています。
ポジティブな感情とネガティブな感情のための人間と自動アスペクトラベル。
データセットの各レビューは、要約(SUM)、動機/影響(MOT)、独創性(ORI)、健全性/正しさ(SOU)、物質(SUB)、再現性(REP)、意味のある比較(CMP)、明瞭性(CLA)などの事前に定義されたラベルでアノテーションされています。最初に、1000件のレビューに手作業で注釈を付けました。次に、これら1000件のレビューを用いてBERTモデルを調整し、残りの20000件以上のレビューに注釈を付けます。最後に、ランダムな300のレビューをサンプリングし、そのアノテーションを人間がチェックします。 結果を以下に示します。
肯定的な感情からの再現性のrecallが低い(50%)のは、例の数が少ないことに起因すると考えられます。その上、他の値は高くなりました。
科学的レビュー生成のための学習
事前学習されたBARTモデルを使用して、科学的なレビューを生成しました。BARTは1024語の最大長さを許容しますが、これはほとんどの科学論文には短いものです。そこで、様々な手法を用いてテストを行った結果、2段階法を採用しています。この2段階法では、まず、OracleとCross-Entropy(CE)抽出法を用いて論文から重要な情報を抽出します。その後、抽出した情報をモデルに通します。
また、ASAP-Reviewデータセットのアノテーションを利用して、アスペクトラベルを予測する分類問題を定式化する。そこで、損失関数は次式で与えられる。
Lnet = Lseq2seq + kLseqlab
ここで、k(=0.1)は、生成されたレビューがよりアスペクトを意識したものになるように調整されたハイパーパラメータです。Lseq2seqは次の単語を予測する際のロジット損失、Lseqlabは次の単語のラベルを予測する際のロジット損失です。
評価
† は人間とモデルの性能の差が統計的に有意な場合を示す。
上の表は、モデルの性能と人間の性能を比較したものです。このモデルは人間をも凌駕する総合性の高い結果を生み出しています。これらのモデルは論文をまとめるのも非常に得意です。
しかし、予想されるように、これらのモデルは人間のレビュアーがするような論文の内容を疑問視することはなく、学習セットの中で頻繁に起こることを真似する傾向があります(「この論文はよく書かれていてわかりやすい」が90%の確率で繰り返されています)。また、1つの論文の中の文脈は不十分であるため、質の良い論文と悪い論文を区別することができませんでした。
論文(Deep Residual Learning for Image Recognition)のレビュー生成結果
結論
論文で紹介されているモデルは、専門的な使用にはまだ対応していなくても、いくつかの作業に使えることは間違いありません。例えば、科学的レビューのプロセスを学んだばかりの若い研究者や経験の浅い研究者に役立つかもしれません。また、ASAP-Reviewデータセットには機械学習領域のレビューのみが含まれており、他の分野を正確にカバーするために拡張する必要があります。人間レベルの性能に到達するまでにはまだ長い道のりがありますが、本論文は今後の研究のための強固な基盤を確立することに成功したと言えるでしょう。モデルやデータセットの詳細については、原著論文を参照してください。あなたの論文を自動的に査読してもらいましょう。
この記事に関するカテゴリー