シミュレーターと現実の境界は埋められるか?
3つの要点
✔️ シミュレーションと実世界のギャップを軽減する手法
✔️ シミュレータで学習させたモデルを直接実世界へ適用するのは困難
✔️ ImageNetの事前学習モデルの情報を保存することで汎化性能を向上
Automated Synthetic-to-Real Generalization
written by Wuyang Chen, Zhiding Yu, Zhangyang Wang, Anima Anandkumar
(Submitted on 14 Jul 2020)
Comments: Accepted at ICML2020
Subjects: Machine Learning (cs.LG); Computer Vision and Pattern Recognition (cs.CV); Robotics (cs.RO); Machine Learning (stat.ML)
Paper Official Code COMM Code
はじめに
実世界のデータを利用して教師あり学習を行うためには、大量のラベル付きデータが必要となる場合があります。例えば物体検出システムを作成するならば、大量の画像と、その中に含まれる物体についての情報を人間が付加したデータが必要となるでしょう。このように、実世界のデータに人手でアノテーションを行うには莫大なコストがかかってしまいます。
一方、シミュレーターを用いて自動的にラベル付きデータを作成すれば、こうした人手は不要となり、小さなコストで学習用データを用意することができます。そのため、シミュレーターを用いて作成した合成画像をもとにモデルを学習させ、それを実世界にも適用することができれば、アノテーションにかかるコストを大幅に削減することができます。
しかしながら、実世界とシミュレーションとでは当然、少なからず違いが存在します。そうしたドメインギャップに対処できなければ、前述の試みでは良い性能を発揮することはできません。
本記事で紹介するのは、こうした合成データから実データへの汎化性能を大幅に向上させる手法が提案された論文となります。
事前知識
論文で提案されたASGは、合成画像から実写画像への転移学習を目標としています。この問題に対する既存手法としては、ImageNetの事前学習モデルをもとに、合成画像に対してfine-tuningを行うものが一般的でした。
以下の図は、このようなfine-tuningを異なる設定で行った場合の精度とエポック数の関係を表しています。
この図では、(1)学習率が低いほど、(2)学習させる層が少ないほど、(3)学習させるエポック数が少ないほど、実写画像に対する性能が高いことがわかります。つまり、合成画像に対してモデルを最適化させるほど、実写画像に対する精度が落ちてしまいます。
この理由として挙げられるのが、破滅的忘却と呼ばれる現象です。つまり、合成画像上で学習を進めれば進めるほど、事前学習モデルが有している実写画像についての知識が失われてしまうのです。その結果として、実写画像に対する性能が低下してしまう可能性が高いとみられます。
それゆえ、ImageNetの事前学習モデルが保持している、実写画像についてのドメイン知識をうまく継承することができるならば、より高い性能を発揮することができるでしょう。既存手法では、学習率や学習エポック数を人力で調整することにより、破滅的忘却を招かないようにして性能を高めていました。
本記事で紹介する論文で提案されたASG(Automated Synthetic-to-Real Generalization)では、こうした人力の調整なしで、合成画像から実写画像への一般化を自動的に行うことができます。
続きを読むには
(5568文字画像12枚)AI-SCHOLARに
登録いただく必要があります。
この記事に関するカテゴリー