新年早々！AIがまたブレイクスルーを起こす可能性が出てきた！

OpenAI 2021年01月06日

3つの要点
✔️ OpenAIがGPT-3を活用し、マルチモーダルモデルを開発
✔️ 新たなブレイクスルーは本当の意味でAI vs 人間になりうる
✔️ 人間では思いつかないほどの創造性を示す

AI-SCHOLARからのワンポイント解説

2021年早々にまたもやOpenAIが驚きの技術開発！今までのAIははっきり言うと、特化型だからこそのインパクトや特化だからこその限界がありました。しかし、今回の技術はOpenAIが掲げている”汎用(マルチモーダル)”に近づくとともに、今までの限界も突破する可能性を秘めています！

概要

「人間を上回る高度に自律的なシステムが人類全体に利益をもたらすこと」を保証することを目的に、何度も世界を驚かしているOpenAIが新年早々！画像領域にブレイクスルーを起こすかもしれません。

背景

OpenAIが昨年発表したGPT-3をご存知の方もいると思います。今回のOpenAIが発表した技術もこのGPT-3を元に開発されています。
2020年にAIはかなりの盛り上がりをみせてきました。ただし、今までのAIは人間が行うタスクを領域ごとに分けると、たった1つの領域でしか活用されていません。すなわち、AI自体まだ初期の初期でしかないと言うことです。これから本当にAI vs 人間が始まるかましれません。

今回のAI技術のキーワードは「マルチモーダル」

マルチモーダルに関してはこちらをご参考にしてください。

発表内容

今回発表したDALL·Eは、自然言語で表現可能な様々な概念に対して、テキストを適切な画像に変換することに成功しました。どう言うことかを極端に表すとこうです...

自然言語で表現可能な様々な概念→「タキシードを着た犬に散歩させられている人間」

GPT-3を用いた画像生成(Image GPT)は今までにもあったのですが、今回の注目ポイントはとにかくマルチモーダルにあります。今までの単に生成ではなく、言語(モーダル1)と画像(モーダル2)を理解しているところにあると言うことです。今までの画像・言語・音声などだけではなく、これらを正しく汎用的に処理できるからこその成せる技です。本当に人間に近づいていることに驚きです。
その成果を見ていきましょう！

自然言語で表現可能な様々な概念：チュチュを着て犬を散歩させている大根の赤ちゃんのイラスト