層を並び替えるだけでSOTA!? 層の入れ替え・並び替えによって性能をあげたsandwich transformerとは?

層を並び替えるだけでSOTA!? 層の入れ替え・並び替えによって性能をあげたsandwich transformerとは?

3つの要点
✔️ transformerにおけるsublayerの順番が与える影響の確認
✔️ 言語モデルにおいて性能の良いsandwich transformerの提案   

✔️ transformerの改善における層の入れ替えという方向性を提示

Improving Transformer Models by Reordering their Sublayers
written by Ofir Press, Noah A. Smith, Omer Levy
(Submitted on 10 Nov 2019 (v1), last revised 23 Apr 2020 (this version, v2))

Comments: Published by ACL 2020
Subjects: Computation and Language (cs.CL); Machine Learning (cs.LG)

概要

近年のニューラルネットワーク を用いた自然言語処理においてtransformerは欠かせない存在になっており、BERTGPT-2といったほとんどの事前学習済み言語モデルにおいて利用されています。そのため、transformerの改善は重要な研究の一つとして注目を浴びています。

transformerは基本的にfeedforward層(FF層)self-attention層(SA層)により構成されており、これらを順番に何層も積み重ねるのが基本的な構成方法でありましたが、その構成が良いという裏付けはありませんでした。

本研究では、これらの構成が言語モデルの性能に与える影響を測定し考察した上でsandwich transformerと呼ばれる、下層にSA層を、上層にFF層を集めた構成が良いことを実験によって示しました。(図1)

図1. 通常のtransformer(a)とsandwich transformer(b)

この記事をシェアする