最新AI論文をキャッチアップ

Google AIによるWITの紹介:100以上の言語をカバーする最大のマルチモーダル画像-テキストデータセット

Google AIによるWITの紹介:100以上の言語をカバーする最大のマルチモーダル画像-テキストデータセット

dataset

3つの要点
✔️ Wikipediaをベースにした最大のテキスト・画像データセット
✔️ 108言語で3670万のテキスト-画像ペアが含まれています

✔️ 
人間のアノテーターによって検証された、適切に洗練されたデータセット

WIT: Wikipedia-based Image Text Dataset for Multimodal Multilingual Machine Learning
written by 
Krishna SrinivasanKarthik RamanJiecao ChenMichael BenderskyMarc Najork
(Submitted on 2 Mar 2021 (v1), last revised 3 Mar 2021 (this version, v2)])
Comments: Accepted by arXiv.
Subjects: Computer Vision and Pattern Recognition (cs.CV); Computation and Language (cs.CL); Information Retrieval (cs.IR)

 
code:

はじめに

深層学習モデルはデータを必要とするため、モデルのサイズとデータセットのサイズを適切にスケーリングした場合に良好な結果が得られる傾向があります。データセットのサイズが大きいほどモデルのパフォーマンスが向上することは、多くの研究で示されています。GPT、T5、BERT、ResNetなどの大規模なモデルは、ImageNet、COCO、BooksCorpusなどの大規模なデータセットを用いて、効果的な表現を教師付きで学習することができます。また、ViLBERT, UNITER, UniTransformer(UniT)などの最近の研究では、マルチモーダルな言語能力と画像能力を同じモデルに組み込む研究がなされています。またこれらのデータセットの多くは英語に限定されており、これが多言語マルチモーダル学習のボトルネックとなっています。

本論文ではWikipediaに基づいて高度に洗練された多言語のテキスト・画像データセットの紹介です。このデータセットには、1150万の画像と3760万のテキスト-画像セットが含まれています。各言語には12K以上のインスタンスがあり、53言語には10万以上のインスタンスがあります。

WIT: Wikipedia Image Text Dataset

本研究の目的は、COCOやFLickr30Kのような高品質な画像とテキストのペアで、高度に精査されたデータセットを作成することです。このようなデータセットを作成することは、特にWITのような規模ではリソースを必要とするタスクであるため、Conceptual Captions(CC)データセットのように、データセット作成プロセスを自動化し、拡張したいと考えています。

そこで、編集チームがキュレーションした数ヶ国語のクラウドソース情報が豊富にあるWikipediaを選びました。しかし、このデータは、情報量が少なく(冗長で一般的な)テキストと画像の関連付けがあるため、Visio-linguistic(VL)モデルの学習が困難であり、多くの改良が必要です。

FlumeJavaパイプラインを使用して、279の異なる言語のコンテンツ情報の約124Mページを抽出し、処理しました。これらのページは、1億5000万の(画像データ、テキストデータ、文脈データ)タプルを得るために使用され、さらに詳細化されています。

Text Used in WIT

WITで使われる文字情報には、3種類あります。

1) Reference Description(ref.)は、画像のすぐ下にあるテキストです。これは画像に最も関連していますが、他の記述に比べて一般的ではありません。

2) 属性説明文(attr.)は、画像のウィキメディア・ページ上のテキストです。このテキストは通常、多言語(138M+)で書かれており、ほとんどが情報不足でノイズが多いものですが、中には意味的に有益で好ましいものもあります。

3) アクセシビリティやスクリーン・リーダーのために使用されるAlt-text Description(alt)(通常は隠されている)は、あまり役に立たないことがわかりました。また通常ファイル名に設定されているだけであることもわかりました。

Text-based Filtering Conditions

  1. テキストの長さが3以上であること。
  2. 次のようなフレーズを持つalt-textを除外する。.png, .jpg, icon, stub, "refer to", "alt text" ...など。
  3. アトリビューションとalt-textには、PNGとJPEGの画像のみを選択した。
  4. 参照記述のあるGIF画像がとられた。
  5. 参考文献の記述がないタプルで、最後のセクション(例:参考文献、外部リンク)に画像が見つからないものは残した。

Image and Image-text based Filtering Conditions

  1. 縦横100ピクセル以上の画像を保持した。
  2. クリエイティブ・コモンズのような研究用ライセンスを持つ画像を使用した。
  3. 国旗、ロゴ、地図など、冗長性の高い画像は、モデリングの偏りを防ぐため、サンプル数を減らした。
  4. 汎用的な画像、小さなアイコン、プレースホルダー画像などはすべて削除した。

追加クリーニング

ポルノ、暴力的な画像、テキストなどの不適切なコンテンツは、多言語の画像/テキスト理解モデルを用いて除去されました。最終的なデータセットには、12K以上のタプルを持つ言語(108)のみを残した。データは学習用、テスト用(5万枚)、検証用(5万枚)に分割され、それぞれの画像が1つの分割にしか入らないようになっています。

人による評価

データセットの信頼性を検証するために、上図のような形で、人間のアノテーターをクラウドソーシングしました。1つの画像に複数のテキストがアノテーションされていることがあるため、テキストが画像とどの程度一致しているか、また、テキストを組み合わせて画像をどの程度表現しているかを尋ねました。答えは「はい」「たぶん」「いいえ」の3択です。

テストは、さまざまな言語でランダムにサンプリングされた4.4kの例文を対象に行われました。英語では3,000例、ドイツ語、フランス語、スペイン語、ロシア語、中国語では300例、ヒンディー語では100例となっています。

WITの評価実験


WITを評価するために、上図のようなデュアルエンコーダーモデルを学習しました。2つのエンコーダーは、それぞれテキストと画像の処理を行います。次に、バッチ内のn個の画像-テキストペアのコサイン類似度を測定し、ソフトマックス損失を最小化するようにモデルを訓練します。nxn個の類似性行列の対角線上のエントリのみを正のペアとします。言い換えれば、関連する画像とテキストのペアに対して似たような結果を出すようにエンコーダに促すのです。

また、CCデータセットでモデルを学習し、WITデータセットで学習したモデルと結果を比較しました。上の表は、画像とテキストの検索タスクにおける結果を示していますが、何の微調整もしていません(ゼロショット)。WITで学習したモデルは一般化が進み、英語以外のセットでもCCモデルを上回っています。

上の図は、MS-COCO、Dlickr30k、WIT-ALLの各データセットにおけるゼロショットの評価結果です。しかしこの場合、最初の2つのデータセットでは、CCデータセットがWIT-ALLデータセットに勝つことができています。

また、WITデータセットの多言語有効性を確認するために、Multi30k-Rデータセットでモデルを評価しました。どちらのモデルもMulti30Kデータセットでは苦戦し、CCデータセットで学習したモデルはWITテストデータセットでも悪い結果となりました。

WITがMulti39K、COCO、Flickrのデータセットで非常に低いパフォーマンスを示した理由は、Wikipediaが非常に多様なコンテンツプールであることに起因しています。上の表に示されているように、72.02%の単語は単語頻度が3未満です。また、画像データも非常に多様で、450万のエンティティが特定されている中で、80%以上(368万)のエンティティが3回以下で出現しています。さらに、WITデータセットに含まれるテキストは説明的なものが多く、評価データセットに含まれる1行のアノテーションとは対照的です。CCデータセットでは、評価セットに近いデータセットを作成するために、テキストのhypernymization(人称名詞を一般的な用語に置き換える)を行いました。しかし、100以上の言語からなる大規模なデータセットでは、この作業は非常に困難です。

まとめ

WITは豊富で多様なデータセットであり、画像モデル、言語モデル、テキストビジョンモデルの事前学習や、画像-テキストモデルや異言語表現の微調整など、様々な応用が可能です。UNITER、Unicoder-VL、VL-BER、そして最近のUnitTransformerのようなモデルは、様々なテキストビジョンタスクで有望な結果を示しています。WITのような多様なデータセットは、この分野を推進するのに役立ちます。また、WITは多言語のデータセットであるため、研究のための情報を世界中でより公平に利用することができます。

 

 

 

 

 

Thapa Samrat avatar
今大阪大学の電子情報工学科で学習している2年生のネパールからの留学生です。 機械学習・深層学習に興味あります。だから、暇なときにそれらについて記事を書いています。

記事の内容等について改善箇所などございましたら、
お問い合わせフォームよりAI-SCHOLAR編集部の方にご連絡を頂けますと幸いです。
どうぞよろしくお願いします。

お問い合わせする