ワルシャワ工科大　動画をマンガ風に変換する技術「Comixify」を開発

機械学習 2019年03月20日

ワルシャワ工科大の研究チームが、動画から特徴的なシーンを抽出し、それをマンガ風に仕上げるシステム「Comixify」を発表しました。コマ割りのレイアウトの洗練や音声をテキストに変換ような仕組みも考えているそうで、将来的には実用的なソリューションとなるかもしれません。

論文：COMIXIFY: TRANSFORM VIDEO INTO A COMICS

マンガ制作における工数を削減

国内のみならず海外でも高い人気を誇る漫画やアニメ作品は、子供だけでなく大人も虜にする魅力にあふれています。
しかし残念なことに、漫画は、絵画、グラフィックス技術をもつ限られた美的感覚に優れた一部の人しか描くことはできません。
その上、価値あるマンガ・コミックを作成するために膨大な時間がかかります。

著者は、動画をマンガに変換するツールを提供することで、個人や出版社がコンテンツを作る方法に革命を起こせる可能性があるのではないかと考え、マンガ作りに注目し始めたとの事。

一方、人工知能の方では、敵対的生成ネットワーク（GAN：Generative Adversarial Network）を用いてスタイルを変換する研究が盛んです。本研究ではこのスタイル変換GANを用いて、動画からマンガを生成しました。

GANって何それおいしいの？って方はこちら：GAN：敵対的生成ネットワークとは何か　

フレーム抽出してからマンガ風にスタイル変換させる

技術的には2つの要素に分かれています。一つは動画から意味のある特徴的なシーンを抽出する点。もう一つは、抽出されたシーンをマンガ風に仕上げる点です。

①フレーム抽出

第一段階では、動画を2fpsでサンプリングし、意味のあるシーン（キーフレーム）を抽出するために、強化学習をもとにしたキーフレーム抽出アルゴリズムによって、動画から文脈を最もよくいいあらわすフレームのサブセットを選択し、それを画像審美エンジンのフィルターにかけます。

ここでは、2017年に発表された深層強化学習による教師なし映像要約モデルdeep summarization network (DSN)を使用します。DSNはより多様でより代表的な要約を生み出すことを学ぶことによってより高い報酬を得ることを目指します。

このような多様性と代表性を重視するような報酬設計をした強化学習を用いて、映像の各フレームを要約に含める確率を出力するニューラルネット (GoogLeNet + BiRNN) を学習し、教師データ要らずで映像要約 (Video Summarization) を行います。

さらに要約した画像を美的フィルターにかけ絞り込みます。画像の審美スコアは人気度と画質の良さが指標となってます。

②スタイル変換

CartoonGAN

第2段階では、GANを使用して、上記で絞り込まれたキーフレームをマンガ風に仕上げます。美的にクオリティの高いマンガを生成するため、CartoonGANという写真をアニメ調に変換するスタイル変換アルゴリズムをもとに、独自のComixGANフレームワークを実装しています。

関連：現実世界の画像を漫画風の画像に変換するCatoonGAN

なお、この動画をマンガ変換する「Comixify」は、Webページから、またはAPIを用いて試すことができるそう。短めの動画やYouTubeのURLを貼り付けて変換を実行すると、コマ割りされたマンガ調の画像が表示され、さらに3種類のなかからスタイルを選ぶこともできます。近い将来は、コマ割りのレイアウトの洗練や音声をテキストに変換ような仕組みも考えているとの事で、さらに実用的なソリューションとなるのではないでしょうか？これが実現すれば、撮った映画や動画を漫画化するなどは、簡単にできるようになるのかもしれません。

デモはこちら