歴史的画像データからのレトロな3D都市モデル再構成が可能に

歴史的なイメージから都市を忠実に再構築することができる3都市モデルが提案されました。都市の再建における既存の研究とは異なり、歴史的な画像から3D都市を再構築するという課題に焦点を当てています。

【参考論文】Nostalgin: Extracting 3D City Models from Historical Image Data

歴史的データを活用した3Ð都市モデルの自動生成

3D都市モデルの自動生成に大きな関心が集められています。このようなモデルは、GoogleマップやGoogle Earth、人気のあるビデオゲーム、都市計画のシミュレーションなどで使用されています。しかし、これらのモデルは作成するのが法外に高価で、大規模スタジオなど現実的な世界を創造するために数千ドルと工数を費やします。

市販の手続き型モデリングエンジンは、これらの問題のいくつかに対処するための強力なツールですが、精度に限界があり、微調整するためにはかなりの手作業が必要です。

一方、過去の画像データにも大きな関心が寄せられています。郷愁の喚起、存在しない環境での疑似経験、教育の推進、長老とのつながりなど文化の保存手段として、人々は歴史的なデータに魅了されています。歴史的な街のイメージは豊富にあり、現実的なディテールの源です。これらにインスピレーションを受け、著者らは、都市の歴史的画像から都市モデルを自動的に生成するテーマに着目したそう。

論文では、Nostalgin(Nostalgia Engine)と呼ばれるスケーラブルな3D都市生成パイプラインが提案されており、実験では、1940年代にニューヨーク市の歴史的なデータセットから撮影した画像を使用して自動的に生成された2つの再構成ビルを生成しています。

4つのコア技術

歴史的画像は画質や内容に関してほとんど保証がなく、3Dジオメトリを抽出するために必要な重要なメタデータを持っていないことが多いため、歴史的画像からの都市の自動再構築は難しいとされています。

これに対応するため、過去の画像データを扱うときに生じる困難を独自に処理する特別な設計が提案されてます。これらは画像解析、修正、修復、モデリングからなる4部で構成されています。(図2参照)以下で4つのコア技術についてザッくり紹介していきます。

1、画像解析

画像から洞察を得るために、最初にどのオブジェクトが画像内にあるのか、そしてそれらが実際にピクセル空間のどこにあるのかを特定しなければなりません。これには、建物の正面全体を遮っている可能性があるオクルージョン(手前にある物体が背後にある物体を隠して見えない状態のこと)の識別だけでなく、1つまたは複数の建物のファサード(建築物の正面部分のデザイン)などの重要な関心対象の識別も含まれます。ピクセル情報が失われないようにオブジェクトの周囲に鋭い境界を作成し、次のタスクのために正確な形状情報を提供する必要があります。

ここでは、一般的なMaskRCNNを利用して、建物のファサードとオクルージョンという2つのクラスのオブジェクトを検出します。特に、人と車をオクルージョンとして分類することを目指しています。

2、視点の正規化

 

パイプライン内の2番目のタスクは、カメラの視点に対して画像を正規化することです。この正規化は、ファサード(建築物の正面部分のデザイン)の形態を取ります。正規化によって、下流のタスクを単純化して、深さを抽出し、不足しているコンテキスト情報を推測しやすくします。

ほとんどすべての既存の修正手法は、画像内の正確なライン検出に依存しています。しかし、実社会のデータは、複雑な構造を持つことが多く、ライン抽出が困難になります。歴史的な画像はさらに、解像度の悪さ、スキャニングアーチファクト、画像の損傷などを持ち合わせており、市販のライン検出方法を使用することは最適解とは言えないでしょう。ここでは代わりに、消失点検出に適した候補となる線を保存し、他の線を削除する独自の線検出アルゴリズムを考案しています。

3、オクルージョン除去

3番目のタスクは、オクルージョン(手前にある物体が背後にある物体を隠して見えない状態のこと)に関して画像を正規化することです。このタスクでは、マスクと画像のセットを取り込み、マスクされた位置に修復が行われている修復画像を出力します。

修復に使用されるアプローチは、かなり高解像度の画像(800 x 800ピクセルを超える)を処理しなければならず、大きくて任意のマスクに対して機能しなければなりません。白黒画像のトレーニングを受けた、条件付きGANを使用しこれらを実現しています。

4、モデリング

最後の作業は、下図のような3D都市モデルを生成することです。このタスクは、それぞれが相対的な位置情報を持つ、一定の縮尺であるトリミングされたファサード画像(建築物の正面部分のデザイン)のセットを想定しています。そのため、2つのファサードが同じ建物から来ているかどうか、および各ブロックの互いに対する位置など、各ファサードの左側または右側の隣同士がモデルに必要です。

ファサードの位置データを使用して、各ファサードに対して、比率が一致する直方体の3Dモデルを作成します。

テクスチャには直方体モデルごとに関連する入力ファサード画像を適用します。4つのファサードが指定されていない場合は、立方体の4つ​​の側面すべてに指定されたファサードをタイル張りします。テクスチャの適用前に、ファサードの一部ではない画像のすべての部分を透明にし、マットマスクを利用してファサード境界がどこにあるかを判断します。

実験と結果

実験では、1940年代にニューヨーク市の歴史的なデータセットから撮影した画像を使用して、マンハッタンの2つの再構成ブロックを自動生成しています。これら2つのブロックの画像データは、New York Municipal Archivesによって管理されている税レコードコレクションから取得しています。

以下の図3は、2D処理構成要素を通過するときの入力画像を示しており、どのようにしてきれいなファサードを抽出することができるかが示されています。コーナービルの1つの白黒画像から、2つの修正されて塗装されたファサードを抽出しています。

図3、2Dファサードの抽出、修正、および修復を示すエンドツーエンドの処理パイプライン

このパイプラインを多くの画像に対して大規模に実行することができます。以下の図4は、生成された都市ブロックのいくつかの角度を示しています。図に示されている画像は、1回限りのレンダリングではなく、より大きなシミュレーションのスクリーンショットです。初期画像には存在しない視野角を簡単に生成することができ、このアプローチの力が示されています。また、Google Streetviewから取得した現代の画像と再構成を比較します。いくつかの建物が大幅に変更されたか、完全に削除されたことを強調します。結果として、3D再構築はもはや存在しない外見を捉えることができます。

図4

これらの歴史的な3D都市モデリングはゲームや、ビデオ、VRの中での仮想空間として再現できます。
今後の予定として、Nostalginを活用して、ユーザーが自分の写真を投稿したり、過去の時代の歴史につながることができる没入型の歴史的経験を生み出すことができるオープンソースプラットフォームを構築することを目指しているそうです。