深層学習×マルチモーダル。マルチモーダル学習で未来が広がる

最近のディープラーニングの1つのトレンドは、画像認識の分野において、CNNの多層化が顕著だということです。1つ1つの層のフィルタを小さめに、そして階層を深くすることにより、少ないパラメータで複雑な非線形性を持たせることができます。一般的な画像認識の分野は、CNNがかなりいい成績を出しています。

一方で、画像と他のデータを組み合わせた研究が近年盛んですが、こういった機械学習においていくつかの異なる情報を使うことをマルチモーダル学習と呼びます。

 

マルチモーダルとは何か?

私たちの住む現実世界では、情報は様々なモーダル情報で表現されています。例えばYoutubeのような動画の場合でも、動画、テキスト、音声、再生回数、投稿日…など様々なデータで構成されています。

人間はこれら複数のモーダル情報を 五感から取り入れることで、単一のモーダル情報よりも確実で抽象度の高い情報処理うことができます。これらを模倣して機械学習においても同様に複数種類のデータから学習して、統合的に処理をしようというのがマルチモーダル学習になります。

現在のAI技術は、人間に備わっている5つの感覚の中からどれか1つの感覚を対象にするものがほとんどですが、モーダルな情報を扱うこの研究は、人間の感覚の学習過程を模倣することにおいては正しい方向を示すものといえるでしょう。

深層学習が登場する以前はそれぞれのモダリティに関する研究分野が独自に進展してきましたが、ディープラーニングの発展により、近年、分野間の障壁が薄くなってきました。

マルチモーダル学習の歴史

🔳Audio visual speech

マルチモーダルの処理の研究は1986年頃から行われはじめました。初期の研究は主に、音声と画像(主に唇の動き)の両方の情報を用いて音声認識するものや、lip readingと呼ばれる唇の動きのみからテキストに変換するといったものでした。ディープラーニングのマルチモーダル化もこのタスクからでした。
例えば人間においても、雑踏や、周囲に騒音があるような音声が聴き取りにくいような環境では、話者の口の動きを音声ど同時に読み取ることにより、より正確な音声を聴き取ることができます。

🔳Expressive Visual Text to Speech

2013年には – テキストからの表情豊かな音声ビジュアルのリアルタイム合成する研究が行われています。ユーザーが任意のテキストを入力すると、楽しそうな表情から、怒ったものまで様々な気分の表情で話させることを可能にします。

以下は(トーキングヘッド)のデモンストレーション

 

🔳Audio-Visual Emotion Recognition

こちらは音声と画像の両方の情報を使って人の感情(喜び・悲しみ・怒り)を認識するという研究です。
2011年には感情分析のためのマルチメディア処理と機械学習方法の比較を目的とした初めての競技イベントが開催されました。
音声とビデオから感情を分析する研究などもあります。

🔳Image to text

こちらは画像に対して説明文を生成する「Image Captioning」と呼ばれるタスクです。CNNによって画像から特徴を抽出し、それをもとに、RNNによってテキストを生成します。アルバムのよう系列画像にキャプション生成 するものや、感性語Sentiment Termを重視したニュートラルな文を生成するキャプション生成も登場しました。

Image Captioningイメージ図

🔳text to image

“text-to-image”と呼ばれるタスクです。テキスト(キャプション)を条件として,そのテキストにあう画像を生成することを目指します。256×256の圧倒的な画像を生成できる2ステージ訓練を提案したStackGANなどの研究が有名です。最近ではアテンションドリブンな方法がより細部を生成できることを示したAttnGANなども話題になりました。

StackGANイメージ図

🔳Visual Question Answering(VQA)

VQAは、画像に対する質問をテキストですると回答してくれるシステムです。このタスクが広く知られるようになったきっかけとして、2016年のCVPRでコンペティションが行われたことが挙げられます。 このコンペティションは、数十万セットの質問文と画像と答えのセットから正しい答えを導きだすモデルを学習させ、その精度を競うというものでした。 YES/NOで答えられるものから!物体に何が映っているかを示すもの、数を答えなければいけないものまで、質問文の種類は様々なものが用意されています。 

Visual Question Answering

🔳image to sound

画像から音声を生成するというもの
あらかじめ映像と音の関係を学習させておいたコンピューターに映像を見せて実際に聞こえそうな音を予測させる研究で、高い精度で映像に効果音を乗せることができるようになってきてます。

🔳image to control

ゲームの過去4フレーム分の画像から行動を生成するというDQNも話題になりました。

マルチモーダル学習で広がるビジネス

技術の発展と社会への影響

上記でも説明した通り、マルチモーダルとは、Multi(複数)とModal(様式)を合わせたコンピュータ用語で、画像(視覚)だけでなく、音声等も含めたデータを機械学習をしていくことを意味しています。AIがマルチモダールな学習をしていくことにより、画像、音声、圧力センサーなど、複数の感覚のデータを組み合わせた抽象化ができるようになり、感情理解、行動予測、環境認識 へ繋ります。ビジネスとしては、それらによる動画の分析や、行動予測、異常検知、感情認識 等の分野がより進展していくことが予測されます。

さらに上の画像のように、物事の性質の認識が進み、人間が日常的に使う概念が理解できるようになると、それを言葉と結びつけることにより、コンピュータの言語理解がより進むかもしれません(上画像5番目)

そうすると、本を読んだり膨大なWEB上にある情報に接することができます。そこからまた知識を獲得することができ、すごい勢いで人類の知識を取り入れていくことになるでしょう。それが6番目のフェーズで、社会的にさまざまな分野で大きなインパクトをもたらすでしょう。

しかし、現時点ではレベル1がほぼできて、2や3のマルチモーダルな認識や、ロボティクス(AIの体)研究が始まってきたというところです。

新しい組み合わせで未来が広がる

動物の知能は本質的にマルチモーダルにできてるため、人工知能のさらなる進歩には必要不可欠な技術といえます。深層学習は複数のモダリティを結びつける非常に強力な方法です。

現在のマルチモダールの研究は、主にテキスト、画像、音声の3つのモダリティが中心に行われていますが、 嗅覚、味覚、触覚を加え、モダリティを統合することで、さらに面白い可能性が広がるかもしれません。

例えば、画像から音楽を生成する、ダンスの動画からビートを生成する、 サイレント映画に音をつける、料理のレシピから味を生成する、 物体の写真から触覚を生成するなどなど…複数のモダリティにまたがるアプリケーションはまだまだブルーオーシャンです。