最新AI論文をキャッチアップ

層を並び替えるだけでSOTA!? 層の入れ替え・並び替えによって性能をあげたsandwich transformerとは?

層を並び替えるだけでSOTA!? 層の入れ替え・並び替えによって性能をあげたsandwich transformerとは?

natural language processing

3つの要点
✔️ transformerにおけるsublayerの順番が与える影響の確認
✔️ 言語モデルにおいて性能の良いsandwich transformerの提案   

✔️ transformerの改善における層の入れ替えという方向性を提示

Improving Transformer Models by Reordering their Sublayers
written by Ofir Press, Noah A. Smith, Omer Levy
(Submitted on 10 Nov 2019 (v1), last revised 23 Apr 2020 (this version, v2))

Comments: Published by ACL 2020
Subjects: Computation and Language (cs.CL); Machine Learning (cs.LG)

概要

近年のニューラルネットワーク を用いた自然言語処理においてtransformerは欠かせない存在になっており、BERTGPT-2といったほとんどの事前学習済み言語モデルにおいて利用されています。そのため、transformerの改善は重要な研究の一つとして注目を浴びています。

transformerは基本的にfeedforward層(FF層)self-attention層(SA層)により構成されており、これらを順番に何層も積み重ねるのが基本的な構成方法でありましたが、その構成が良いという裏付けはありませんでした。

本研究では、これらの構成が言語モデルの性能に与える影響を測定し考察した上でsandwich transformerと呼ばれる、下層にSA層を、上層にFF層を集めた構成が良いことを実験によって示しました。(図1)

図1. 通常のtransformer(a)とsandwich transformer(b)

続きを読むには

(3976文字画像16枚)

AI-SCHOLARに
登録いただく必要があります。

1分で無料で簡単登録する

または

記事の内容等について改善箇所などございましたら、
お問い合わせフォームよりAI-SCHOLAR編集部の方にご連絡を頂けますと幸いです。
どうぞよろしくお願いします。

お問い合わせする