自然言語と深層学習

実は難しい自然言語処理。2つの知性から考えてみる

昨今注目されている深層学習ですが、実は深層学習と、それ以前の機械学習または自然言語処理はあまり相性がよくありません。

深層学習が注目される以前の世界では、人工知能の研究というと、「情報をどう扱うか、どの部分に着目するか」より専門的にいえば「情報の特徴量」をどう定義するかということが重要で、そこが腕の見せ所でした。しかし深層学習以後の世界では、そもそもこの情報の特徴量は機械が自動的に読み取ってしまうもので、意図的に設計するものではなくなってきています。

人工知能の研究ではこれまでにもシンボルの操作を重視する記号主義の人たちと、環境との相互作用である「身体性」やパターン認識を重視する人たちとのあいだで、長らく議論が行なわれてきました。実は、深層学習が注目される前段階であった時代では、こうした記号の処理をメインとしたシステムが主流でした。

深層学習×自然言語処理のトレンド推移

🔹2012年 ・木構造再帰ネットワーク、言語モデル

🔹2013年 ・埋め込みベクトルの学習

🔹2014年 ・LSTM、符号化複合化モデル

🔹2015年 ・注意機構

🔹2016年 ・畳み込みネットワーク、記憶のモデル化

「自然言語処理ですごいのができるかもしれない」と言われ始めたのが、2013年ぐらいですが、とくにWord2Vecがおもしろい特徴を持っていたので、いろんな人に注目されていました。

これは、単語の意味や文法を捉えるために言葉をベクトル表現化して次元を圧縮したもので、要するに、ことばの背景にある概念(特徴量)を数字で表現し概念を手に入れようというものです。

その次が2014年で、Sequence to Sequence Learningと呼ばれるすごく有名な論文が出てきました。特徴は系列を入力として系列を出力する機構です。

LSTM(Long short-term memory)も話題になりました。実は、技術自体は1996年(発表)の論文なのですが、Googleの人が掘り起こしてきたという形で、20年の時を経て出てきたものです。

2015年には注意機構というものが出て、このあたりで劇的に性能が上がるという流れになっています。こちらは次の単語を予測するときに符号化時のベクトルに対して、重要度の重み付けをするというものです。

🔳ディープラーニングでも自然言語処理は難しい

しかし大半の研究者の間では、「どうも深層学習だけでは足りないのではないか?」と行ったネガティブな意見が多いようです。一段ステップアップしたような感覚は持ちつつも、次に何のブレークスルーが必要なのかというのは、みんな手探り状態というのが現状です。

自然言語は記号の世界

記号世界 現実の世界

なぜ、自然言語処理が難しいのかというと、自然言語というものは、基本的にある種の物理現象ではないからです。言葉というのは、人間の頭の中のイメージを表現した「記号の世界」です。
自然言語処理といっても、学習データが言葉だけでは、人がイメージするのと同じ言葉の背景にあるイメージを獲得することはできません。
言葉の背後にある概念を獲得するには、現実世界にある物の写真や動画で学習する必要があるのです。

「記号の世界」とは、例えばここに出ているような文字で書き起こされたものだとか、本の内容だとか、Webのデーターだとか、ある種データ化されたものです。

一方で、それとはまったく別の物理的な世界というものが、現実の世界にはあります。それは例えば、人間の身体や、物理的に動くロボットや機械だとか、ビジュアルデータや光や音といったものですね。記号世界はある種、離散的に、物理世界や現実世界を、記号化しますが、後者は、どちらかといえば連続的なデータを使う世界になっています。

基本的に自然言語処理というのは、上の画像でいうと左側の世界で、とくに伝統的な自然言語処理は、左側の閉じた世界の中でいろんな処理をやってきました。記号、データ化された情報を使い、その中で処理をするというのが、ある種伝統的な自然言語処理の世界だったのです。

一方で、深層学習というのは基本的には、下の左側2つのデータのように、ある種の連続的なデータを扱うのが得意です。(画像認識など)

人間の知能は2種類のニューラルネットワークでできている?

深層学習の中核となるニューラルネットワークは、脳の神経回路網をモデルにして作られたモデルですが、東大の松尾豊准教授は人間の脳の中にある思考回路のこともニューラルネットワークと例えて、表現しています。

松尾氏は仮説として「人間の知能は大きく分けて2種類のニューラルネットワークで構成されている」と考えており、それぞれ認知運動系RNN、記号処理系RNNと呼んでいます。

例えば、認知運動系RNNとは、すべての動物が生まれながらに持っているニューラルネットワークで、頭の中の思考と外界を結びつける役割があるもの。 例えば、シマウマはライオンを見るとほとんど反射的に逃げますが、これには認知運動系RNNが使われているのではないかという仮説です。

一方、記号処理系RNNは、主に言語を扱うニューラルネットワークを示し、認知運動系RNNとは違い、外界と結びつかずに頭の中だけで完結できるものを指します。この記号処理系RNNを働かせることで、人間は言語、数字を発明し、物理学、数学などの科学を発展させてきました。

人間の場合は、記号処理系RNNから駆動して、認知運動系RNNへ行き、そして記号処理系RNNに戻ってくるというパスがあり、記号処理系RNNから見ると、認知運動系RNNはシミュレータのように使われていて、何かの記号あるいは言葉を想起するとその像を思い浮かべます。その結果、何が当てはまるかを決めるのは、記号処理系RNNの仕事ではないでしょうか。

言葉の意味や相手の意図というのは、全て記号別に認知運動系RNNを発動させて、戻ってきたものがどれに当てはまるかということについての仕事は、記号処理系RNNがやっているのではないかと、いうのが松尾氏の仮説です。

🔳ディープラーニングは認知系運動系RNN型の知性

例えば、深層学習で得意といわれているものの代表例は、画像の処理ですが、これは完全に認知運動系RNNが扱うのが得意な(物理的、連続的な世界)データです。

このように物理的な世界の情報を解析するというのが非常にうまく働いた例は、いろんなところで見つかっているのですが、一方で、離散的な情報をうまく扱うというのは、実はちょっと扱うデータの処理にギャップがあり、深層学習とばっちりハマっているという形にはなっていません。

視覚・言語を融合させる

一方、松尾氏は、言葉の意味理解、記号処理については、今までは「認知運動系RNN」がないまま「記号処理系RNN」の処理をしていたが、今回の深層学習の発展によって「1階部分」である認知運動系ができはじめたことにより、今後は、本当の意味での言葉の意味処理ができるAIが登場する可能性があると述べています。

これに関連するマルチモーダルというという「言語の処理も画像としておこなう」という手法がありますが、驚くことに、このアプローチが意外とうまくいくいっていて、これが最近少なからず賛同者を増やしつつあります。

この手法の評価が高いのには、大きな理由があります。それは、ここまで何度か言及したように、ディープラーニングは画像の処理が最も得意だからです。ですから、言語であれ何であれ、なんとか画像と結びつけることができたなら、それは一気にディープラーニングの得意な対象になります。そして、画像は非常に多くの情報が含まれており、どんなものでも画像にできれば、「縦と横の関係」として表現できます。(松尾氏の言葉で言えば、認知運動系RNNとして処理ができる)そして縦と横の関係は、距離的なものだけでなく、時間的な近さすら表すことができます。

ここからは仮説と想像ですが、さらに議論を進めると、もしかしたら生物学的な知能とはビジュアルベース(視覚処理能力)であると言うことすらできるかもしれません。

考えてみれば、私たちがふだん脳内で見ているのは、3次元を2次元にした画像だと言うことができます。逆に、1次元の数字の列をわざわざ手間をかけて2次元の画像(グラフ)にして解釈したりもします。つまるところ、人間は2次元の画像にできるものしか認識できないのではないでしょうか。(人間の目は脳の付属物などではなく、目があったから脳が進化したという話もあります)人間の眼球と脳との密接につながりは、「視覚が知能の本質」であることの証拠なのかもしれません。

 

参照
深層学習時代の 自然言語処理ビジネス
深層学習による自然言語処理の研究動向
知能と進化(2)AIにとって意味とは何か