新年早々!AIがまたブレイクスルーを起こす可能性が出てきた!

新年早々!AIがまたブレイクスルーを起こす可能性が出てきた!

OpenAI

3つの要点
✔️ OpenAIがGPT-3を活用し、マルチモーダルモデルを開発
✔️ 新たなブレイクスルーは本当の意味でAI vs 人間になりうる
✔️ 人間では思いつかないほどの創造性を示す

AI-SCHOLARからのワンポイント解説

2021年早々にまたもやOpenAIが驚きの技術開発!今までのAIははっきり言うと、特化型だからこそのインパクトや特化だからこその限界がありました。しかし、今回の技術はOpenAIが掲げている”汎用(マルチモーダル)”に近づくとともに、今までの限界も突破する可能性を秘めています!

概要

「人間を上回る高度に自律的なシステムが人類全体に利益をもたらすこと」を保証することを目的に、何度も世界を驚かしているOpenAIが新年早々!画像領域にブレイクスルーを起こすかもしれません。

背景

OpenAIが昨年発表したGPT-3をご存知の方もいると思います。今回のOpenAIが発表した技術もこのGPT-3を元に開発されています。
2020年にAIはかなりの盛り上がりをみせてきました。ただし、今までのAIは人間が行うタスクを領域ごとに分けると、たった1つの領域でしか活用されていません。すなわち、AI自体まだ初期の初期でしかないと言うことです。これから本当にAI vs 人間が始まるかましれません。

今回のAI技術のキーワードは「マルチモーダル

マルチモーダルに関してはこちらをご参考にしてください。

発表内容

今回発表したDALL·Eは、自然言語で表現可能な様々な概念に対して、テキストを適切な画像に変換することに成功しました。どう言うことかを極端に表すとこうです...

自然言語で表現可能な様々な概念→「タキシードを着た犬に散歩させられている人間」

GPT-3を用いた画像生成(Image GPT)は今までにもあったのですが、今回の注目ポイントはとにかくマルチモーダルにあります。今までの単に生成ではなく、言語(モーダル1)と画像(モーダル2)を理解しているところにあると言うことです。今までの画像・言語・音声などだけではなく、これらを正しく汎用的に処理できるからこその成せる技です。本当に人間に近づいていることに驚きです。
その成果を見ていきましょう!

自然言語で表現可能な様々な概念:チュチュを着て犬を散歩させている大根の赤ちゃんのイラスト

自然言語で表現可能な様々な概念:黒のレザージャケットとゴールドのプリーツスカートを着た女性マネキン


自然言語で表現可能な様々な概念:アボカドの形をしたアームチェア

他の成果や活用可能があります。ぜひ、自分の目で見ていただければと思います

例えば、「y=2x+3のグラフ」ってテキストで指定した場合に、今の段階で正しく画像で出力できるのか。またGPT-3を元にしているからこそ、GPT-3に存在するバイアスも存在するのかにも興味があります!

このDALL·Eの他にもCLIPと言うカテゴリ名だけを提示するだけで分類可能になるマルチモーダルまで発表しています。

 

今後の展望

ビジネス的にはこのモデル自体が創造的な画像生成においての可能性があることと、マルチモーダルにすることで今まで以上なAIの社会的な活用と更なる精度向上が可能になります。

医療では、医師と同じようにさまざまな検査結果や過去の事例などまで加味して、医師と同じような情報量で診断を行えるかもしれません。

セキュリティにおいても防犯カメラ映像とその人の音声と行動パターンから鍵の開錠の自動化と言うSFアニメでしか見たことないような可能性だって見えてきます。

ぜひ、今回の記事でキャッチアップして、覚えておいていただきたいのはこれらのワードです。

「OpenAI」「DALL·E」「マルチモーダル」

 

レシピ

AxrossレシピにDALL-Eを用いた実践レシピが公開されています。

 

  • メルマガ登録(ver
  • ライター
  • エンジニア_大募集!!

記事の内容等について改善箇所などございましたら、
お問い合わせフォームよりAI-SCHOLAR編集部の方にご連絡を頂けますと幸いです。
どうぞよろしくお願いします。

お問い合わせする