Photoshopはもういらない?MITがAIを使った自動マッピングを提案。画像の自動合成が可能に

MITが、深層学習に基づいて、画像の背景を自動的にマッピングして置き換える画像編集ツールを開発しました。マウスをクリックするだけで、簡単に風景、背景の種類を変更することができるまるで夢のようなツールです。

【論文】:Semantic Soft Segmentation

画像合成におけるめんどくさい”マッピング”作業

Photoshopなど画像編集ツールを使ったことのある人ならわかると思いますが、髪の毛など複雑な箇所を綺麗にマッピングするのは非常に気の滅入る作業でした。

MIT CSAILの研究者は、深層学習に基づいて、画像の背景を自動的にマッピングして置き換える画像編集ツールを開発しました。このシステムは、元の画像の質感と色を分析することができ、非常に自然でリアルな画像を生成するのにわずか3〜4分しかかかりません。

このように、マウスをクリックすると、自動的に画像の前景と背景に分離し、簡単に風景、背景の種類を変更することができます。

画像エディタを扱う際に気をつけなければならない最も重要なタスクの1つはオブジェクト選択です。

リアルな仕上がりにするためには、前景と背景の間の微妙な美的遷移点をキャプチャする必要があります。特に人間の髪の毛や動物の毛その他の複雑な材料などは、どのピクセルが背景の一部であり、どのピクセルが特定の人物の一部であるかを判断するのは困難です。最も経験豊富な編集者でも、詳細にそれらを見分け管理するのは難しいでしょう。

このオブジェクト選択を人間レベルの正確さでやってくれる良い自動化された機能はありませんでした。

今回の、MITの論文では、機械学習を使って写真編集プロセスを自動化する方法が示されています。

この新しいツールはSemantic Soft Segmentation(SSS)と名付けられました。入力である元画像のテクスチャと色情報と、訓練されたCNNからのソフトセグメンテーションを統合し、その画像内のオブジェクトが実際に何であるかを区別します。

画像中の異なる領域間の親和性を注意深く定義することにより、センマティックな境界を持つ細かいセグメントができ、より自然に背景を置き換えた合成画像を生成することを可能にします。

3分でAIが自動的にマッピング、PhotoShop完全に負ける

既存のほとんどの写真編集ソフトウェアは投げ縄や魔法なげわツールを必要とし、これらを使用してオブジェクトをマッピングしていきます。しかしこの AIツールを使用すると、オブジェクトやズームを追跡し、細かいディテールをキャプチャする必要はありません。一連の作業を完全に自動化することができます。

どうやって自動合成する?

このプロセスは、ニューラルネットワークが画像の領域と特徴を推定することから始まります。

その後、ニューラルネットワークは犬の髪の毛や草のような「柔らかい変化」を検出します。以前はこのプロセスは手動で行わなければなりませんでした。

次に、画像内のピクセルを色で互いに関連付けます。

これらの情報とニューラルネットワークが検出した特徴を組み合わせて、画像の層を推定します。

技術の重点

以下では技術の重点となるいくつかのポイントを簡単に紹介していきます。

画像「ソフトセグメンテーション」技術

この方法の最も重要な点は、入力画像のソフトセグメンテーションを自動的に生成することです。つまり、入力画像をシーン内のオブジェクトを表すいくつかのレイヤに分解することが必要です。

さらにこの研究では、その名の通り、”ソフトセグメンテーション”、つまり異なるオブジェクト間で、画像の意味のある領域をソフトに遷移し対応していくことによって(画像内の異なる領域間の親和性を注意深く定義することで)領域を分割する方法を提案しています。
例えば、ニューラルネットワークは画像特徴を決定し、画像内のエッジを検出しますが、2つの異なるオブジェクトまたは背景とオブジェクトがピクセルを共有することがあります。AIはこれを考慮に入れて、レイヤーを自律的に分離するという繰り返し作業を処理します。

この提案に対処するために、画像のテクスチャ、色の特徴とニューラルネットワークによって生成された高レベルの意味情報を含むグラフ構造を提案しています。グラフを構築することによって、その特徴ベクトルが異なる対象の間をソフトに遷移することが可能になります

これらのソフトセグメンテーションは、各セグメントに無地色を割り当てる方法を使用して視覚化され、選択されたレイヤは画像合成として使用することができます。

非局所色親和性

長期的な色ベースの相互作用を表す低レベルの親和性も必要です。この相互は基本的に、非常に似た色を持つ領域が複雑なシーン構造内で関連付けられたままであることを確実にします。

高レベルの意味的親和性

上述のような非局所的な色の親和性はセグメンテーションプロセスに広範囲の相互作用をもたらしますが、異なるオブジェクトの同じ色の画像領域でも、付加的な情報がない場合セグメンテーションにおいてしばしば併合されるという欠点があります。

意味的に類似した領域に限定されるセグメントを作成するために、同じシーンオブジェクトに属するピクセルをグループ化するための意味的関連付けを追加し、異なるオブジェクトからのピクセルのエイリアシング(異なる連続信号が標準化によって区別できなくなること)を防ぐようにします。

レイヤーを作成する

上で説明した意味的な類似性を使用してレイヤを作成します。

表示

これら、セグメンテーションの結果は、簡単に評価できるようにグレースケール(コンピュータ上及び写真での色の表現方法の一種)画像に重ねて表示されます。(下画像)

ビデオ処理の未来

SSSは現在静止画像を主に扱います。しかし、著者らは、この技術は将来的にビデオ処理のために予見されることができて、そしておそらく多くの映画製作アプリケーションなどに応用できると述べてられています。

SSSは現在InstagramやSnapchatなどのソーシャルプラットフォームでも利用可能であり、特に自画像の背景を変更したり特定の種類のカメラをエミュレートしたりする場合に、画像フィルタをより現実的にすることができます。将来的には、画像の処理にかかる時間を数分から数秒にさらに短縮し、システムが色を一致させて照明や影のターゲットを処理する機能を向上させることで、画像をよりリアルに見せることが期待されます。