CGとAIの架け橋「微分可能レンダラー」のルーツを日本発の論文から探る

論文 2019年08月19日

Written by 加藤大晴¹ 牛久祥孝¹ 原田達也^1,2 (¹東京大学 ²理化学研究所)

CVPR 2018 (spotlight)

Google I/O 2019のプレゼンテーション”Cutting Edge TensorFlow”にて、GoogleからTensorFlow Graphicsが発表されました。

Tensorflow Graphicsはゲームや映画で多用される3Dコンピュータグラフィックスの知見を、画像認識に代表されるコンピュータビジョンの領域で活用することを目的に作られたもの（下図参照）で、現在は微分可能レンダラー(differential render)や3Dモデルに適応可能なグラフ畳み込みといった機能を持つTensorflow用のライブラリと、機械学習の可視化を支援する3D TensorBoardがGitHubで提供されています。

Tensorflow Graphicsの全体図

といっても、何のことやらさっぱり…というとそこのあなた。微分可能レンダラーの定義をお話しする前に、自動運転という画像認識の一大分野における課題と応用ついて考えてみたいと思います。

通常、自動運転における機械学習モデルの構築には、車載カメラで記録した動画像を、なんらかの手法で「これは人」「あれは自動車」という風に画像内の領域にタグ付けを行い、教師データを整備して学習させる必要があります。

しかし、これらの教師データを大量に用意するのは非常に大変なことで、撮影のための実車や、タグ付けチェックのための人手などに莫大なコストがかかってしまいます。

ここで、現実と見まがうほどの写実的(photo-realistic)な映像をCGで作り出せるとしたらどうでしょうか？

最近では、カーレースゲームでも、一回のゲームのプレイデータを元に非常にリアルなリプレイを様々な角度や条件で生成することができます。ならば、CGで作った運転シミュレーションの映像を学習に使うことで、教師データの質とボリュームの問題を解決できるはずです。しかしながら、もちろん課題はあり、車や人、あるいは信号機といった運転に絡むすべての要素を本物らしく再現しないといけません。

例えば車なら様々な車種の3Dモデルを用意する必要があります。これを人手で頑張るのはやっぱり大変なので、AIを使ってある程度自動化したいですよね？

微分可能レンダラー

そこで、微分可能レンダラーの出番です。まずレンダリング(rendering)とは、3Dモデル・カメラ・ライティング条件といった要素で構成される3D空間（を構築するパラメータ群）から2D画像に変換することを指し、レンダリングを行うプログラムをレンダラーと呼びます。

そして、逆に2D画像から3D空間の推定を目的としたプログラムを微分可能レンダラーと呼びます。ここで3Dモデルには、ボクセル(voxel)や、ポイントクラウド(point cloud)、メッシュ(mesh)といった表現手法があり、ボクセルやポイントクラウドはニューラルネットで扱いやすいことから多くの研究があります。一方、メッシュという三角形の集合体はメモリ効率や、幾何変換との親和性、またテクスチャマッピング(texture mapping)のようなカスタマイズ性の高い描画が出来ることから、ゲームや映画などで多用されているものの、高精度に2D画像から再構築する手法が当時は存在しませんでした。

この問題を克服するため、メッシュの微分可能なレンダリング(関数)の『逆伝播』を再定義し、ニューラルネットワークへ組み込むことを可能にしたのが、本稿で取り上げる加藤らの “Neural 3D Mesh Renderer, CVPR 2018”です。そしてアプローチは異なりますがニューラルネットを用いて3D空間を推定するGoogle/DeepMindのEslamiらの論文 “Neural Scene Representation and Rendering, Science 2018” がその後採録され、まさに微分可能レンダラー時代の幕開けとなりました。