オリジナル日本語版BERT モデルをさらに軽量・高速化 『 Laboro DistilBERT 』を公開

オリジナル日本語版BERT モデルをさらに軽量・高速化 『 Laboro DistilBERT 』を公開

株式会社 Laboro.AI

3つの要点
✔️ BERTモデルをさらに軽量・高速化し、オープンソースとして公開
✔️ 従来モデルを上回る精度と高速性を確認
✔️ リアルタイム性が求められるようなビジネスシーンでの活用可能性

AI-SCHOLARからのワンポイント解説

今までAIとは無縁だと思われていた場所ですら、AIの恩恵が受けられるエッジAIの発展が目覚ましいものがあります。今回の内容はそんなエッジにも関わってくる内容になります。日本語・軽量モデル・精度も高いというモデルへのブラッシュアップはビジネス用途の幅を大きく広げます。そんな1つの例としてキャッチアップしていただければと思います。

概要

オーダーメイドによるAI・人工知能ソリューション『カスタムAI』の開発・提供およびコンサルティング事業を展開する株式会社Laboro.AI(ラボロエーアイ、東京都中央区、代表取締役CEO 椎橋徹夫・代表取締役CTO 藤原弘将。以下、当社)は、本年4月公開の自然言語処理アルゴリズムBERT を用いて開発した当社オリジナル日本語版BERT モデルに蒸留を施し、より一層の軽量・高速化を図った言語モデル『Laboro DistilBERT(ラボロディスティルバート)』を開発し、非商用途にオープンソースとして公開いたしました。

そもそも蒸留法なんて知らないって方もいると思います。この手法はヒントンらによって2015年に提案されました!
超簡単にご説明いたしますと、先生と学生を思い浮かべて下さい。この時、先生がBERTで、学生がDistilBERTになります。学生は先生の答えを少ないパラメータでできるだけで真似できるように学習します。これが蒸留法です。なんとなく、同じ問題を解くことを想定すると学生の方が効率が良さそうですよね!

当社実験の結果では、蒸留前モデルの約98%の精度を保ちながらも処理時間を約60%短縮できたことを確認いたしました。また、従来一般公開されていた日本語版BERTの蒸留モデルと比較しても、それを上回る精度が発揮されたことを確認いたしました。当社では今後も、AIに関わる各種技術領域での研究開発に取り組んでいくほか、機械学習技術を用いたオーダーメイドAIソリューション『カスタムAI』をより多くの産業の企業様に導入いいただくことを目指すとともに、イノベーション創出のパートナーとして引き続き精進してまいります。

BERT自体に興味がある方はこちらをご覧いただければと思います。「Googleが開発した自然言語処理の看板技術BERTの研究はどこまで進んでいる? BERTologyの最前線 

背景 – BERTの課題

2018年10月にGoogleが発表した自然言語処理モデルBERT(Bidirectional Encoder Representations from Transformers)は、自然言語処理に大きなブレイクスルーをもたらしたと言われるアルゴリズムですが、一方で、そのベースモデルには1億1千万にも及ぶパラメーターが含まれるなど、その実装のためには大規模な情報処理環境が必要となります。

特に自然言語モデルは巨大になっていく傾向があります!GPTシリーズなどが有名です!

そこで、大規模なモデルを教師モデルとして学習させパラメーター数を圧縮する蒸留(distillation)という手法を施したDistilBERTが、2019年10月に公開されています。元論文では、DistilBERTはBERTの精度を97%の精度で保ちながらも60%の高速化を実現したことが報告されています。

< 開発内容 ‒ Laboro DistilBERT について >

当社では、主に英文への対応が中心であったBERTを国内でも活用いただきやすくすることを目指し、日本語文章に対応した独自のBERT事前学習モデル『Laboro BERT』を、本年4月にオープンソースとして公開しています。そして今般、このLaboro BERTに蒸留を行った『Laboro DistilBERT』を開発し、同じく非商用途に公開することといたしました。Laboro DistilBERT は、新たに取得した13GB の日本語コーパスによって事前学習させたLaboro BERT を教師モデルにした蒸留モデルです。

Laboro DistilBERTの性能評価のため、文章分類と質問回答の2つのタスクで評価を実施しました。この際、比較対象として教師モデルであるLaboro BERT に加え、日本語の蒸留BERTモデルとして知られる株式会社バンダイナムコ研究所が公開するモデル(以下、Bandai Namco DistilBERT)の計3モデルで比較を行っています。その結果、まず文章分類タスクにおいては、Laboro DistilBERT がLaboro BERT の精度(正解率:accuracy)の98%を保ちつつ速度(推論時間:inference time)を58%削減したことを確認いたしました。また質問回答タスクでは、90%の精度維持と47%の速度削減を確認いたしました。さらにBandai Namco DistilBERT に対しては、いずれのタスクにおいても精度・速度ともに上回る結果を確認いたしました。

Laboro DistilBERTの性能評価実験の結果

今後の展開 – Laboro DistilBERTの活用可能性 

Laboro DistilBERTは、高い精度と早いレスポンスの双方が求められる、以下のようなシーンでの活用が期待されます。

  • スマートフォンをはじめとするエッジ端末上での自然言語処理
  • スピーディーな反応が求められる双方向コミュニケーション
  • 低コスト条件とリアルタイム性が重視される言語モデルへの活用

上の評価結果で正解率が落ちているところが気になった方もいると思いますが、これはビジネス的な用途によって考える必要があるということです。例えば、旅行先で質問をすると回答が返ってくるアプリケーションがあった際に、いくら精度が高くても、回答に5分も10分待たされるのは嫌じゃないですか?ある程度の精度だが素早く対応してくれた方が安心しますし、複数回答できれば精度もカバーできますよね!

Laboro DistilBERTのご利用について

この記事を読んで利用したい方もいると思いますが、利用したい人は必ずこの下を読んでください。また、蒸留モデルを自社内で試そうとお考えの方は必ず、弁護士に確認を取ることをオススメします!既存モデル(先生のこと)の複製権を侵害することは少ないため、複製権侵害が成立する可能性は低いと考えられますが、可能性が低いだけなのでリスク管理はしておくことをオススメします。

ライセンス

Laboro DistilBERTは、国際的な著作権ライセンスであるクリエイティブコモンズのCC BY-NC 4.0(Attribution-NonCommercial 4.0 International)の下、非商用目的に限り無料で公開しています。下記のリンクよりダウンロードいただけます。

商用目的での利用をご希望の方は、こちらのお問い合わせフォームよりご連絡ください。

ご利用にあたっての注意事項

当モデルは、機械学習技術を用いている性質上、事実とは無関係な単語列を出力したり、公序良俗の観点で不適切な単語列を出力する場合があります。モデルの学習は統計的機械学習を用いて行われており、その出力は株式会社Laboro.AIの意思決定・判断を示すものではありません。当モデルの使用に伴って生じた損失や損害等、いかなる場合においても弊社では一切責任を負いません。以上の点について十分ご理解・ご注意の上、自己責任の下でご利用をお願いいたします。

  • メルマガ登録(ver
  • ライター
  • エンジニア_大募集!!

記事の内容等について改善箇所などございましたら、
お問い合わせフォームよりAI-SCHOLAR編集部の方にご連絡を頂けますと幸いです。
どうぞよろしくお願いします。

お問い合わせする