ECデータを活用した大規模バイモーダルデータセット「Let's Go Shopping(LGS)」の開発とその応用

Large language models 2024年03月01日

3つの要点
✔️ 新しいデータセット構築：eコマースのウェブサイトから容易に入手可能な画像とテキストのペアを利用して、「Let's Go Shopping（LGS）」という大規模データセットを構築。さらに、このアプローチは、高品質な注釈付きデータの確保が困難な問題に対処している。
✔️ LGSデータセットの多様性と規模：LGSデータセットは、1,500万以上の画像とテキストのペアを含んでおり、画像認識やバイモーダルアプリケーションに有用なデータを提供し、視覚情報の多様性を通じて一般化能力を高めることが可能。
✔️ 新たな応用分野への影響：LGSデータセットの独自のデータ分布とバイモーダル（画像とテキストの両方を扱う）な特性は、画像分類、画像再構成、バイモーダル表現学習、テキストから画像への生成など、幅広いアプリケーションにおける有効性を示している。

Let's Go Shopping (LGS) -- Web-Scale Image-Text Dataset for Visual Concept Understanding
written by Yatong Bai, Utsav Garg, Apaar Shanker, Haoming Zhang, Samyak Parajuli, Erhan Bas, Isidora Filipovic, Amelia N. Chu, Eugenia D Fomitcheva, Elliot Branson, Aerin Kim, Somayeh Sojoudi, Kyunghyun Cho
(Submitted on 9 Jan 2024)
Subjects: Computer Vision and Pattern Recognition (cs.CV); Artificial Intelligence (cs.AI)

code：

本記事で使用している画像は論文中のもの、紹介スライドのもの、またはそれを参考に作成したものを使用しております。

概要

近年、コンピュータビジョン（CV）と自然言語処理（NLP）の分野では、大規模なデータセットを用いた事前学習が研究の進歩に不可欠になっています。これらのデータセットは、機械学習モデルが現実世界の複雑さを理解し、画像認識や言語理解のタスクに適用できるようにするための基礎を提供しています。しかし、これらのデータセットの作成は、膨大な時間と労力を要し、特に画像と言語の両方を統合するバイモーダルアプリケーションの場合、高品質な注釈付きデータの用意がさらに難しくなります。そのため、研究コミュニティでは限られた数の公開データセットに依存しており、これが研究の多様性と発展を妨げる要因になっています。

この課題に対処するために、この論文では、eコマースのウェブサイトから容易に入手可能な画像とテキストのペアを利用する、新たなデータセット構築のアプローチを提案しています。この論文では、この新しい手法によって「Let's Go Shopping（LGS）」という大規模データセットを構築し、約10,000のeコマースサイトから収集した1,500万組の画像と説明文のペアを含む豊富なリソースを提供しています。LGSデータセットは、製品の画像に関して客観的で正確、かつ豊富なキャプション情報を提供することで、画像と言語に関するモデルの事前学習における質の高いデータを提供することを目指しています。また、eコマースデータの特性から、画像は明確な背景であり、注目すべきオブジェクトに対して静的な焦点を当てているものが多いため、画像認識タスクにとって理想的なデータを提供することができます。

さらに、この論文では、eコマースの画像が提供する多様な視覚情報が、従来のデータセットではカバーされていない分布外（OOD）シナリオに対して、一般化能力を高めることができると実証しています。ImageNetのような従来の画像専用のデータセットと比較して、LGSデータセットは画像分類、再構成、キャプショニング、そして生成タスクにおいて、モデルが新しい環境やシナリオに適応するのに役立つ視覚的特徴を提供することができます。

この研究は、大規模で多様なデータセットの重要性と、新しいデータソースを活用することの可能性を示唆しています。

Let's Go Shopping（LGS）データセットとは

Let's Go Shopping（LGS）データセットは、下表からわかるように、eコマースの世界を反映した壮大な規模のデータセットであり、その中には1,484万以上の画像とテキストのペアが含まれています。これは、現存する他の多くのバイモデルデータセットよりも大きなサイズであり、研究者や開発者にとって貴重なリソースとなっています。このデータセットの構築には、幼児用品からスポーツ用品、ブライダルジュエリーに至るまで、様々な商品を扱う約1万のeコマースサイトから情報を収集しています。

データ収集では、商品ページと非商品ページを区別するためのヒューリスティックルールが設定され、自動化されたツールが商品のタイトル、説明、そして最初にリストされた画像を収集します。このプロセスは、販売者が共有を望まない情報を避け、最終的に品質問題が疑われるインスタンスを除外する厳格なテストを経ています。また、LGSデータセットの画像は、一般的な画像キャプションデータセットとは異なり、背景との関連なしに前景に占める一つの非アニメーションアイテムを描写することが多くなっています。背景は単色で、この明確な背景によって、モデルがタスクに対応するパターンを特定しやすくしています。

LGSのキャプションは、COCOデータセットと比較して約3倍の量を持ち、その単語やフレーズの多様性は約20倍に及びます。これらのキャプションは、eコマースサイトからの豊富な情報を含み、ファインチューニングの目的で明確な構造情報を抽出することができます。言語統計の分析にはSpacyライブラリが使用され、一般名詞、固有名詞、形容詞、動詞の比較が行われています。LGSのキャプションは、特に衣類や着用可能なアイテムが多く、製品特有の説明や行動を特徴付ける非常に記述的な内容を持っています。

LGSデータセットは、画像とキャプションのペアの形式を超えて、画像分類タスクにも適用されています。これには、LGS-117、LGS-710、LGS-Overlapの3つの分類バリアントが構築されています。これらのバリアントは、製品のタイトルやブランド名、特定の製品属性を記述する要約されたキャプションの生成にも役立ちます。LGS-117とLGS-710は、事前学習データセットとして設計されています。分類モデルによって生成されるすべての生のラベルの中には、統合されるべき同義語や重複があります。最も人気のあるクラスの中で同義語を手動でマージした後、少なくとも10,000枚の画像を含む117のクラスがあることがわかります。各クラスから10,000枚の画像を選択し、バランスの取れたLGS-117データセットを形成しています。LGS-710は、より希少なクラスを含むアンバランスなデータセットです。LGS-Overlapは、ImageNet-1kで訓練されたモデルの分布外テストセットとして提案されており、eコマースアプリケーションと一般的な事前学習データセット間の顕著なラベル分布の違いを示しています。

LGSデータセットは、eコマースの複雑さと多様性を捉えた、研究とアプリケーション開発のための重要なリソースを提供しています。

実験

この研究では、eコマースとImageNetという2つの異なる画像データセットを用いて、画像の分類と再構築に関する実験を行っています。また、このプロセスを通じて、これらのデータセット間での画像とラベルの分布の違いを明らかにしています。

非常によく知られているImageNetの分類器は、eコマースのデータセットに直接適用した場合、性能が低下することが確認されています。例えば、ResNet-50とConvNeXT-Baseというモデルを用いた実験では、ImageNetデータセットで得られる高い精度とは異なり、eコマースデータセットにおいては大幅に低下することが観察されています。これは、ImageNetで学習したモデルがeコマースのような特定のドメインに直接適用するには適していないことを示しています。分類の精度を向上させるためには、ドメインに特化したデータセットでの追加学習が必要であることを示唆しています。

Masked Auto Encoder (MAE) を用いて、ImageNetのみで学習したモデルと、ImageNetとeコマースのデータセット両方で学習したモデルの性能を比較しています。その結果、eコマースのデータセットを含む場合、画像の再構築品質を顕著に向上させることを示しています。これは、自己教師あり学習が異なるドメイン間での一般化能力を持つことを示しています。

以上から、ImageNetのような一般的なデータセットで学習したモデルが、eコマースのような特定のドメインに直接適用される際の限界を浮き彫りにしました。そして、そのような課題に対して、自己教師あり学習を含む異なるアプローチを用いることで、これらの制限を克服し、より高い一般化能力を持つモデルを開発することが可能であることも示しています。これは、異なるドメイン間でのモデルの適用性を高めるための新たな方向性を示していると言えます。

まとめ

Let's Go Shopping (LGS) データセットは、eコマースの世界から生まれた革新的なデータセットです。このデータセットは、約1,500万組の画像とそれに対応する説明文を含み、これらはすべてeコマースのサイトから公開アクセス可能な形で収集されています。独自の半自動収集およびアノテーション手法により、大規模かつ多様なデータの効率的な収集が実現しています。

LGSデータセットの特徴は、eコマース特有のカテゴリと一般的なデータセットとの間で直接的な一致がないにも関わらず、視覚的特徴を抽出するための技術が共有可能である点を明らかにしています。これは、異なる分野のデータセットをまたいで学習アルゴリズムの応用が可能であることを示唆しています。

さらに、LGSの提供する独特なデータ分布とバイモーダル（画像とテキストの両方を扱う）な特性は、新たな応用分野における可能性も示唆しています。具体的には、画像分類、画像再構成、バイモーダル表現学習、テキストから画像への生成など、幅広いアプリケーションにおいてその有効性が示されています。

LGSデータセットは、eコマースデータを活用した新しい技術開発の道を切り開き、多様な応用分野においてその可能性を広げていると言えます。このデータセットは、AIと機械学習の分野における今後の研究やアプリケーション開発において、重要な役割を果たすことが期待されます。

この記事に関するカテゴリー

Large language models

Takumu: インターネット広告企業（DSP、DMP etc）や機械学習スタートアップで、プロジェクトマネージャー/プロダクトマネージャー、リサーチャーとして働き、現在はIT企業で新規事業のプロダクトマネージャーをしています。データや機械学習を活用したサービス企画や、機械学習・数学関連のセミナー講師なども行っています。