ニューラルネットワークは人間が持つ「量感覚」の概念を理解できるかもしれない。

【論文】Number detectors spontaneously emerge in a deep neural network designed for visual object recognition

人間は、猫4匹、リンゴ4匹、数字記号「4」を見ると、 – 抽象概念「4」という共通性を計算なしで見つけることができます。

一方、コンピューターは多くのデジタルタスクを実行でき、特に、数字を扱う事はコンピュターの得意な事の一つです。様々な請求書を計算する場合、コンピューターを使えばではわずか1秒で数百万もの計算を実行できてしまいます。しかし、コンピューターは「数」という概念を理解しているわけではありません。単に数える対象を見分けてカウンターを回しているだけです。対象物に順番に番号を振っているだけに等しく、「4」はただのマークに過ぎません

この論文では、記号的に数字を処理するのではなく、抽象的な数の概念を画像からCNNが理解できるかどうか調査しています。

コンピューターに数を数えさせる方法

コンピューターに画像内の対象物の数を数えさせるタスクに必要なのは、画像の中の数える対象物を理解させる事です。例えば、オブジェクトは必ずしも同じように見えるわけではありません – 照明、位置、ポーズなどの変化で、全く違うように見える場合があります。

微妙な違いがあるものを、特定のオブジェクトをオブジェクトとして理解させるためには、大量のデータからの反復的な訓練が必要になります。これにより対象物の共通点を見つけて「同じもの」という判断を下せるようになります。

ネットワークの層が深くなるほど情報は抽象化されていき共通点のみを見つけやすくなっていき、そして、一番深い層において対象物の概念を獲得するというわけです。ここに至って、始めてコンピューターは数を数えることができるようになります。

 

動物が持つ量感覚

一方、人間は「数」という非常に深い概念を持っており、存在する物体の量に応じて脳の一部が活性化します。つまり4つのりんごを見た場合、実際にそれぞれを数えることなく4つである事が直感的に分かっているのです(もちろん数が大量にある場合は別ですが)。

実際、多くの動物が、ライバルまたは獲物のグループのサイズを反射的に判断することができます。このような数に関する感覚が、さまざまな状況での生存と繁殖のための有用な特性になっているようです。

人工ニューラルネットワークは識別されたカテゴリまたは目標位置を識別することに加えて、このような「量感覚」を学ぶことができるのでしょうか?

ドイツのテュービンゲン大学で行われたこの研究では、ネットワークを構築し、それを数字に依存しない視覚的な認識タスクで訓練して、上記のような「量的感覚」が自然に発生するかどうか、そしてそれがどのように生成されるか実際のニューロンの活動を比較しました。

結果として、ターゲット分類タスクにおいて、定量的選択性がニューラルネットワークに自発的に現れることが示されています。

「量感」の作り方

この研究では、1000種類のカテゴリに約120万枚の画像を含むImageNetデータセットから自然画像内のオブジェクトを分類するために、ディープニューラルネットワーク一種である、hierarchical convolutional neural network (HCNN)を訓練しました。0から13までの層は特徴抽出用であり、14と15層は分類用となっています。

 

ネットワークをトレーニングし、新しい5万の異なる画像を使用してオブジェクト分類をテストしました。訓練データから特徴を抽出することによって、CNNに、オオカミグモを他の節足動物と区別させる、ボックスタートルを泥タートルと区別させる、など、様々な分類を実行させます。もちろんよくある分類タスクなので高い成功率を得ることができます。

重要なのは次のフェーズです。画像認識タスクで訓練されたニューラルネットワークが他の特性とは無関係に数の感覚を示すことができるか(同数の点に反応するか)どうかを分析します。

ここでは特徴抽出ネットワークのみを使用し、ネットワークに、黒い背景上に1から30個の白いドットパターンからなる336個の画像を提示し、そのニューラルネットワークの反応を観察します。

単純なオブジェクト検出を実行するために訓練されたCNNは、脳内の実際のニューロンのように、ネットワーク内の特定の単位が突然反応し、抽象的な数に「調整」されることを発見しました。そして、4つのリンゴの絵を見た時のニューロンが4つの猫の絵に似ている時と似ていることが分かりました ( 同じ「4つ」を共有している)。

 

著者らは、このような数える能力は視覚システムから発達したと考えています。ビジョンの最も基本的なタスクは目に見えるものを認識することです。この研究では、物体を認識するように訓練されただけのニューラルネットワークから、量感覚を捉えるニューロンが自発的に発達することを示しました。

さらに、人工ニューロンの反応は動物や人間の実数ニューロンのそれに似ていることが分かりました。つまり数の概念は、脳の特定の特殊な領域ではなく、むしろ視覚によって形成されるニューラルネットワークに依存しているかもしれないということです。