点群×Transformer!
3つの要点
✔️ 3次元点群理解のための新しいtransformerベースのアプローチを提案します。
✔️ 新しいtransformerベースのアーキテクチャを設計
✔️ いくつかの3D点群データセットでSOTAを獲得
Point Transformer
written by Hengshuang Zhao, Li Jiang, Jiaya Jia, Philip Torr, Vladlen Koltun
(Submitted on 16 Dec 2020)
Comments: Accepted to arXiv.
Subjects: Computer Vision and Pattern Recognition (cs.CV)
comm
はじめに
Transformerは自然言語処理を引き継いでおり、急速に技術の進歩を遂げています。これらのself-attentionネットワークの力をコンピュータビジョンの問題に利用しようとする最近の試みは実を結んでいます。そのため、3次元点群処理のためのTransformersを実装しようとするのは直感的です。また、三次元点群は三次元空間に埋め込まれた集合であるため、self-attentionネットワークは集合の順列や集合のカーディナリティに対して不変であることから、三次元点群処理にはさらに有利に働きます。これらの直感に基づいて、本論文では、3次元点群処理のための新しいTransformerベースを紹介します。この層は、様々なドメインやタスクにまたがるデータセットに新しい状態を設定することができる点Transformerネットワークに拡張されます。
いくつかの3次元点群処理方法
2次元点を処理するための最も一般的なアプローチは、各色ごとに異なるチャンネルを持つ行列に並べ、その上で畳み込みを使用することです。3次元点については、かなりの数のアプローチがあります。3D点群処理のための3つの主要なアプローチを以下に簡単に説明します。
1) Projection-based networks
このアプローチでは、3次元点を複数の平面に投影し、2次元CNNを用いてそれぞれの平面に対してさらに処理を行う。最終的に、結果は最終出力を形成するためにコンパイルされます。投影面の選択は最終出力に大きく影響し、投射中に情報の損失が生じます。
2) Voxel-based networks
このアプローチでは、3D 点をボクセルに変換し、3D CNN を展開して更なる処理を行う。通常、3次元点は非常に疎であり、このアプローチでは計算量とメモリ負荷が増大する。解決策は、スパースなCNNを使用し、空のボクセルをスキップすることである。また、点が離散ボクセルに変換されると、情報損失が発生する。
3) Point-based networks
このアプローチでは、3D点群は、点単位のMLP、プーリング層、サンプリングヒューリスティックで構成される順列不変ネットワークを使用して直接処理されます。他の方法とは異なり、メモリや計算要件を大幅に増加させることなく、情報がそのまま残ります。Point Transformerネットワークは、このアプローチに基づいています。
続きを読むには
(4705文字画像8枚)AI-SCHOLARに
登録いただく必要があります。
この記事に関するカテゴリー