BERTを超えた自然言語処理の最新モデル「XLNet」

BERTを超えた自然言語処理の最新モデル「XLNet」

3つの要点
✔️ 自然言語処理でBERTを超える新しい事前学習モデルであるXLNetが登場 
✔️ マスク間の依存関係を学べないというBERTの弱点を、単語の並べ替えによって解決 

✔️ 長文読解タスクであるRACEで人を超えるスコアを達成

XLNet: Generalized Autoregressive Pretraining for Language Understanding
written by Zhilin YangZihang DaiYiming YangJaime CarbonellRuslan SalakhutdinovQuoc V. Le
(Submitted on 19 Jun 2019 (v1), last revised 2 Jan 2020 (this version, v2))

Comments: Published by NIPS 2019. Pretrained models and code are available at this https URL
Subjects: Computation and Language (cs.CL); Machine Learning (cs.LG)

はじめに

AIの研究が最も活発な分野のひとつに、私たちが使う言葉をAIに理解させようとする「自然言語処理」があります。

自然言語処理には、文書分類、質問応答、翻訳、対話といった実応用と密接に結びつくタスクが含まれますが、これらの研究はまさに発展途中で、日進月歩で様々な論文が発表されています。

様々なタスクを高精度で解くという意味でこれまで最もよいされていたのは「BERT」と呼ばれるモデルで、AI-SCHOLARでも取り上げたことがあります。

自然言語処理のタスクには様々な種類がありますが、人がそれらのタスクを個別に学習しないのと同様に、これらのタスクは言語に関するメタな知識を共有しているはずです。

BERTはこのような仮説に基づき、言語そのものの知識を大規模なコーパス(テキストや会話の大規模データ資料)と事前学習によって獲得し、個別のタスクに特化した知識をファインチューニングで獲得します。双方向Transformerを効果的な事前学習とファインチューニングの組み合わせで学習させたことで、BERTはGLUEを始めとする様々な指標で当時の最高記録を更新し、研究者たちを驚かせました。

2019年6月にCarnegie Mellon大学とGoogle Brainの研究チームから発表された「XLNet」は、事前学習とファインチューニングというアイデアを継承しながら、BERTをさらに上回る性能を達成したモデルです。
今回はBERTの問題点と、それを解決したXLNetのアプローチを簡単に説明していきます。

この記事をシェアする