科学知見と機械学習の統合
3つの要点
✔️ 科学モデル、機械学習モデルの欠点を補い、相乗効果を出す統合モデルのレビュー
✔️ 物理シミュレータに対して、計算負荷を低減し、精度も向上するということが多くのモデルで確認
✔️ 最近急速に発展しており、まだまだ成長の余地を残す
Integrating Scientific Knowledge with Machine Learning for Engineering and Environmental Systems
written by Jared Willard, Xiaowei Jia, Shaoming Xu, Michael Steinbach, Vipin Kumar
(Submitted on 10 Mar 2020 (v1), last revised 23 Jul 2021 (this version, v5))
Comments: Accepted by ACM Computing Surveys.
Subjects: Computational Physics (physics.comp-ph); Machine Learning (cs.LG); Machine Learning (stat.ML)
code:
本記事で使用している画像は論文中のもの、またはそれを参考に作成したものを使用しております。
はじめに
機械学習を科学モデルの分野に適用しようとした場合に、画像、自然言語、音声などの他分野に比べてあまり成果が出ていないという状況があります。膨大なデータを必要とする、物理的に矛盾のない結果を出すのが難しい、サンプルシナリオ外への一般化ができないという理由からです。そこで、科学知見とMLモデルの連続性を探求し、相乗的に統合する研究が始まっています。従来の機械学習のドメインナレッジを特徴値エンジニアリングや前処理に反映させる方法とは異なり、科学知見をMLフレームワークに直接統合します。すでに、この分野を取り扱うワークショップ、シンポジウムも始まっています。(参考文献[1-6]参照)このレビュー論文では、まず目的別の分類を紹介し、続いて統合の手法別に説明しています。
物理/機械学習統合のアプリケーション視点の目的
Fig.1は汎用科学問題の抽象表現の一部です。変数xt, 定数sを入力として、機械論的モデルFにより、出力ytが得られます。
Table 1の各目的に沿って説明していきます。
物理モデルSOTAの置き換え、改良
物理法則を基にした科学モデルが幅広く使われていますが、実際のプロセスではすべてがわかっているわけではなく近似モデルになっています。また、モデルには多くのパラメータを含み、正確な値を観測することができないため、推定値を代入することがよくあります。一方、MLモデルを用いて多くの法則の物理ベースのモデルの性能をしのぐことがあります。明示的に表現できない複雑な問題の構造、パターンをNNで抽出できるためです。
ダウンスケーリング
ダウンスケーリング手法は、より細かい分解能でモデリングする必要のある物理変数ではあるが、計算負荷が高いために難しかったケースに用いられます。2つのカテゴリーがあります。統計的ダウンスケーリングと動的ダウンスケーリングです。前者は、粗い分解能の変数から、細かい分解能の変数を予測する経験的モデルです。複雑な非線形性を解く必要があるため従来難しかったのですが、NNで有望になっています。後者では、高分解能の領域的なシミュレーションを必要な領域での関連する物理過程の動的なシミュレーションに用います。やはり計算コストがかかりますが、MLで軽減することが期待されます。いずれについても最新のMLshuhouを適用することができますが、学習したML部が確立した物理法則と矛盾がないか、全体としてのシミュレーション性能が向上するかが課題です。
パラメータ化
複雑な物理モデルは取り込めない物理現象にあてがうため、しばしばパラメータ化という手段を取ります。複雑な動的過程を静的パラメータで表される簡易化した物理近似で置き換えます。一般的な手法では、グリッドサーチで最適値を求めます。他の手法は、動的あるいは静的なML過程で置き換えることです。すでにいくつかの領域で成功しています。主な利点は、伝統的シミュレーションに比較しての計算時間の削減です。
現状では、標準ブラックボックスのパラメータ化MLを使っていますが、物理モデルとMLモデルの統合に興味が持たれています。頑強性、一般化性能、訓練データの削減が期待されるためです。
縮約モデル
縮約モデル(ROMs)は複雑なモデルの計算的に安価な表現です。通常ROMsはPCAのように次元削減して、もっとも重要な動特性を把握します。MLは、精度を上げ、計算コストを下げるROMsの構成を助け始めています。一つは、MLベースの代理モデルです。他には、すでに存在するROMのML代理モデル、あるいは全次元モデルから削減次元モデルに次元削減マッピングするMLモデルがあります。ROMと観測値の残差を学習するモデルを使用して、MLとROMを結合することもできます。MLモデルは、速い順伝播とデータの高次元現象モデル適用によりROMの性能を大幅に伸ばす可能性があります。
最近フォーカスされている一つの領域は、次元削減の手法としてのKoopman(あるいは合成)演算子の基本モードの近似です。Koopman演算子は、システム状態の時間畳み込みを非線形ダイナミクスを通してエンコードする無限次元線形演算子です[41]。これにより非線形システムに線形分析手法を適用できるようになり、従来の分析手法では表せないほど複雑な動的システムの特性を推論できます。深層学習でKooper演算子埋め込みを近似します。物理ベース知見をKoopman演算子の学習に加えることにより、一般化、説明性を広げる可能性があります。
偏微分方程式
多くの物理システムでは、支配方程式が知られていても、偏微分方程式を解く一般的な有限要素法や有限差分法はとても高くつきます。MLモデル特にNNソルバーを用いると大幅に計算負荷を軽減すると同時に、ソリューションは微分可能であり、いかなる後続計算にも伝達できる閉じた分析形態を持ちます。量子多体問題、多電子シュレディンガー方程式などで成功しています。最近、LiらはNNが偏微分方程式の全ファミリーを学習できるニューラルフーリエ演算子を定義し、どんな関数パラメータ依存もフーリエ空間の解法にマッピングしました。
逆モデル
逆モデルでは、システムの(ノイズを含む可能性のある)出力を用いて、真の物理パラメータや入力を推定します。逆問題は、直接観測できない価値のある情報に光を当てる可能性があり、物理ベースモデリングコミュニティでしばしば重要視されます。例としては、X線画像の利用でCTスキャンから人体の構造を反映する3D画像の生成があります。
多く、逆問題の解法は計算コストが高くなります。物理パラメータの事後分布の予測評価や特徴抽出には何百万もの前方モデル評価が必要になるためです。MLベースの軽減モデルは、多量のデータを持つ高次元の現象をモデル化し、物理シミュレータよりもずっと高速であるため現実的な選択肢になってきています。
コンピュータトモグラフィー、地震探査データ処理、などに加え、材料の逆設計にも興味が集まっています。望む物性を入力とし、その特性を持つ原子や微細スケールの構造をモデルにより確定するものです[147]。
先行する物理知識の統合は逆問題への共通したアプローチで、MLモデルとの統合はデータ効率改善、不良設定逆問題の解決能力向上の可能性を持っています。
支配方程式探索
多くの分野(神経科学、細胞生理学、経済学、エコロジー、疫学)では、動的システムは形式的な分析記述を持ちません。データが豊富でも、支配方程式は捉えどころのないままです。応用数学や物理の原理をMLモデルと統合して、支配方程式を発見することが活発な研究領域になっています。
さきがけの研究[36, 232]では、象徴的な回帰を計算された派生値と分析派生値の差に適用し潜在的な動的システムを決定します。最近では、関数辞書と偏微分係数の上でのスパース回帰を用いて支配方程式を構築します。Lagergrenらは、ANNを用いて関数辞書を構築しました。このスパース定義手法はオッカムの剃刀の原理に基づいています。ゴールは、どのような非線形システムもわずかな方程式項で表すということです。
データ生成
データ生成は、特定の条件で科学データの仮想シミュレーションを行うのに有用です。従来は物理シミュレーションを行っていましたが、計算時間がかかります。GANは物理ベースモデルが生成するようなデータを生成することができます。計算負荷も軽減できます。FarimaniらはcGANで熱伝導と流体流を支配方程式は使わず、観測値だけで学習できることを示しました。さらに、物理法則や不変量特性についての先行物理知見をGANに役立てるエンジニアリングが行われています。損失関数に、保存則やエネルギースペクトラムの制約を追加するなどです。
不確実性定量化
不確実性定量化(UQ)は計算機科学の多くの分野(気候モデル、流体、システムエンジニアリングなど)で重要です。UQは分布全体の正確な特性抽出を必要とします。それにより予測が許容範囲内か、入力特徴値の感度分析などができます。
従来、物理モデルを使う方法はモンテカルロであり、順方向の評価を膨大に行わないと収束しません。ガウス過程を用いるより、MLモデルの方が計算負荷を軽減できます[94,178,256]。しかし、MLモデルがUQを自然には含まないので、確率的ドロップアウト、重み、バイアスの分布からなるNNのベイジアン変形、不確実性を定量化する分布を生成するNNのアンサンブルなどの手法が提案されています。
物理モデルのUQ用MLへの統合は、不確実性をよりよく特性評価する可能性があります。物理的に矛盾する予測を制限するなどです。
物理/機械学習統合手法
統合手法には4つのカテゴリーがあります。
物理誘導損失関数
標準のMLモデルはデータから直接、時空間の様々なスケールで変化する物理パラメータの間の関係による高度な複雑性を捉えるのは難しいです。これが、訓練データにないシナリオへの一般化に失敗する一つの理由です。研究者は、物理モデルを損失関数に組み込んで、MLモデルが確立された物理モデルと矛盾のない一般化できる動的パターンを捉えるようにしています。
もっとも共通の手法の一つは、次式のように物理モデルの制約をMLモデルの損失関数に組み込むことです。
3つ目の項に、物理ベースの損失が加えられています。γは他の損失との比率を決めるハイパーパラメータです。
ML予測を物理と矛盾がないように操作することには次のような利点があります。
- 物理法則との一貫性を確保する可能性を提供し、MLモデルでの探索空間を削減します。
- 物理制約による正則化はラベルなしデータでも学習を促進します。物理ベースの損失関数は観測データを必要としないためです。
- 望みの物理特性に従うMLモデルは基準のMLモデルに比べて、サンプルシナリオ外への一般化に向いています。
しかし、物理ベースの損失関数は基本的に制約力が弱く、物理的一貫性や一般化特性を保証するわけではないことを記しておきます。
Fig.2の湖の温度予測モデルでは、エネルギー保存則を損失関数に入れています。
その他、偏微分方程式解法、支配方程式探索、逆モデル、パラメータ化、ダウンスケーリング、不確実性定量化、生成モデルと幅広く適用されています。
物理誘導初期化
パラメータの初期値の与え方に物理モデルを反映させると、学習が加速され、必要なデータ数も減少します。転移学習が一つの方法です。物理モデルを組み込むには、物理モデルベースのシミュレーションデータでMLモデルを事前学習します。Jiaらは、この方法を前記の湖の温度予測モデルに適用しています。他に、ロボティックスでの物体位置認識、自動車自律運転の事前学習、化学プロセスモデリングにも適用されています。
自己教師あり学習を用いても、物理誘導初期化ができます。自己教師あり学習では、事前定義された口実タスクにより生成された疑似ラベルを用いて識別表現を学習します。口実タスクは、ターゲットの予測タスクに関連する複雑なパターンを抽出するように設計されます。例えば、口実タスクは根本的な重要な役割を果たす中間物理パラメータを予測するように定義することができます。このアプローチは、物理ベースモデルを、これらの中間物理変数のシミュレーションに使うことができるようにし、中間物理変数は隠れ層に監視を加えることにより、MLモデルの事前学習に使うことができます。
物理誘導アーキテクチャー設計
前記2つの手法は、MLモデルの学習中に探索スペースに制約を与えますが、MLアーキテクチャーそのものはブラックボックスのままです。物理整合性や物理特性をMLアーキテクチャーにエンコードするわけではありません。最近の研究の方向は、問題を解く特定の特性を利用するMLアーキテクチャーを構築することに向かっています。さらに、物理ベースのガイダンスをアーキテクチャー設計に盛り込むことは、ブラックボックスをより説明可能にするというボーナス付きです。
・中間物理変数
物理原理をNN設計に埋め込む一つの方法は、NNのあるニューロンに物理的意味を帰属させることです。物理的に関連のある変数を明示的に宣言することも可能です。Dawらは、LSTM構造に物理的中間変数を組み込みました。Muralidlarらは、同様のアプローチで物理制約変数をCNNの中間変数に挿入しました。
追加的な利点は、専門科学者に解釈できる物理的に意味のある隠れ表現を抽出できるということです。
もう一つの方法は、いくつかの重みを物理的に意味のある値あるいはパラメータに固定して学習中変更できないようにすることです。地震波データから地下のパラメータを見つける逆モデリングで使用されています。
・不変量と対称性のエンコーディング
物理学では、システムの対称性、不変量とそのダイナミクスが深く結びついています。深層学習モデルは、最初からある種の不変量をエンコードしています。RNNは時間的不変量を、CNNは空間併進、回転、拡大縮小の不変量をエンコードしています。
Lingらは、テンソルベースNNでNNに回転不変量を組み込みました。Andersonらは、回転共変NNアーキテクチャーで複雑な多体物理システの振る舞いと特性を学習しています。Wangらは、一般的に、併進対称性、回転対称性、拡大縮小不変量、等速運動をCNNの特製畳み込みを用いてNNにエンコードしています。
ソリューション空間の構造を知らせることによる対称性もMLアルゴリズムの探索空間を削減できる可能性があります。この方法は、支配方程式探索のタスクに有用です。数学項や演算子の空間が指数関数的に大きいためです。Udrescuらは、シンボル回帰の再帰多変量版を物理モデルで探索空間を狭める方法で構築しました。隠された単純性の兆候をNNが見つけています。
分子動力学では、原子ごとにNNを使い全エネルギーへの原子の貢献を計算しています。エネルギー保存則を守るため、それぞれのNNの重みには制約が掛けられています。Schuttらは、CNNの連続フィルタ畳み込み層が画像のような直交座標系上ではなく、分子の中の原子のように任意の位置を持つ対象としてモデリングできるようにしました。原子毎の層は、原子間の距離を扱い、回転不変エネルギー予測、エネルギー保存結合力予測など量子化学制約についてのモデルを可能にします。
対称性を盛り込んだアーキテクチャー修正は、差分方程式を含む動的システムにも広範囲に見られます。数学的理論により偏微分方程式の基本特性に基づくCNNを設計します。異方性フィルタリングにより放物線状CNNを、ハミルトニアンシステムにより双曲線状のCNNを定義します。放物線状CNNは出力を滑らかにし、エネルギーを削減する一方、双曲線状CNNはシステムのエネルギーを保存します。偏微分方程式のNNでの解法はユークリッド空間での学習に集中しますが、最近これを関数空間に一般化するフーリエニューラル演算子を含むアーキテクチャーが提案されました。
ハミルトニアンは、保存量を持つシステムの時間進化のモデリングに主として使われますが、最近までNNとは統合されていませんでした。Greydanusらは、簡単な質量ーばねシステムで、エネルギー保存制約が付いたNNアーキテクチャーを構築しました。システムのハミルトニアンを予測、物理システム状態の予測をする代わりに再統合しました。最近、ハミルトニアンパラメータ化されたNNはさらにハミルトニアンネットワークでの派生的近似による微分方程式ベースの統合段階を実行するNNアーキテクチャーに拡大しています。
・他のドメイン特有の物理知見のエンコーディング
他の領域に関する物理情報もアーキテクチャーにエンコードされます。既知の不変量に対応するわけではないですが、最適化過程に意味のある構造を提供します。CNNでのドメイン情報による畳み込み、GANでの追加的なドメイン情報での判別器、問題の物理的特性が知らせる構造などです。Sadoughiらは、回転体のベアリングの異状検知に既知の物理情報事前学習により高速フーリエ変換層、物理誘導畳み込み層を付加します。NNではない例もあり、Basemanらは、コンピュータメモリの時空間特性を対応する確率依存性にエンコードするマルコフランダムフィールドを導入した。
・マルチタスク学習での補助タスク
マルチタスク学習は、同時に複数の学習タスクを実行し、共通点、差異点を探します。そのタスクの一部として物理モデルを使うことができます。De Oliveiraらは、粒子エネルギーのジェット画像を生成するGANの判別器に、粒子反応のある特性を満たす追加タスクを加えました。
・物理誘導ガウス過程回帰
ガウス過程回帰(GPR)は、ノンパラメトリック、ベイジアンアプローチの回帰です。Glielmoらは、マトリックス値カーネル関数をエンコードするベクトルGPRを提案しました。原子間力の回転と反射対称性を特定の不変量保存共変カーネルを持つガウス過程にエンコードします。
ハイブリッド物理ー機械学習モデル
・残差モデリング
物理ベースモデルの不完全性を直接表す共通的な手法は、残差モデリングです。MLモデル(線形回帰)は物理ベースモデルで作られ誤差、残差を予測します(Fig. 3)。キーコンセプトは、観測値に対する物理モデルの誤差を学習し、物理モデル予測の修正に用います。残差モデリングの限界は、物理量ではなく誤差をモデリングするため、物理ベースの制約を強要できないことです。
ROM (reduced order models)との組み合わせでよく使われています。また、DR-RNNでは偏微分方程式の動的構造を積層RNNで捉えるもので、各層のRNNが残差方程式を解きます。
・物理モデル出力→ML入力
Karpatneらは、物理モデルの出力をMLモデルの特徴値の一つとして入力しています(Fig.4)。
・物理モデルの一部をML置換
物理モデルの一部の要素をMLモデルで置き換える、あるいは物理モデルで精度の悪い中間量を予測します。流体力学でのRANS(Reynolds-Averaged Navier-Stokes)ソルバーの矛盾点について、乱流モデルの変数をNNモデルで予測しています[200]。機械論的モデル、電力システム状態予測物理モデルなどで一部をMLモデルに置き換えています。
・物理モデル、ML予測結合
物理モデルとMLモデルの結合で全体としての予測を行います。重みは予測の環境に依存します。例えば、長期の予測は物理モデル、短期のモデルはデータ駆動のモデルで重みを変えるなどです。
・逆モデリング向けML通知/拡張物理モデル
逆モデリングでは、ハイブリッドモデルの使用が増えています。まず物理ベースモデルを用いて直接反転を行い、続いて深層学習で逆問題の予測精度を上げます。コンピュータトモグラフィー、MRIなどに使われています。
各手法の要求と利点
Table 2に、手法の観点から見て、適用する上で技術上必要になる項目と、それぞれの手法で得られる利点についてまとめてあります。
交配の可能性
このレビューで紹介したアプリケーション視点と、方法論からの分類をマトリックスにするとTable.3になります。これを見るとまだ研究例がなく、少ない交点がたくさんあります。もちろん、技術的に難しい組み合わせもあると思いますが、それを考慮しても、多くの研究の余地が残っているということになります。
また、このレビューにより全体像を概観することができるので、ここから新たな組み合わせの発想が出てくる良い基盤が用意されたと思います。多くの研究者に活用してほしいものです。
この分類に当てはまらなかった研究もあります。例えば、データ同化のアイデアを取り込んだ将来イベントの予測は、モデル状態を連続的にアップデートします。時系列モデルやCOVID-19の疫学モデルに用いられています。他の方向は、物理モデルとMLモデルの結合で意思決定を助けるものです。
まとめ
記事著者が過去に関係した課題で、物理シミュレーションでは不明な反応係数があまりにも多く、MLモデルを作るには学習用データが膨大に必要になるために現実的でないというケースがあります。シミュレーションとMLの組み合わせが可能性のある方向だろうとは考えていました。
このレビューで、同じ状況が環境や医学系、多くのエンジニアリング課題で共通して発生していることがわかり、幅広い目的をもって、数多くの試みが急速に推進されていることがわかりました。論文著者が書いているように、このような概観からさらに新しいアイデアへの刺激が与えられると思います。実用適用に近い分野として、今後の成長が楽しみです。
宣伝
AI-Jobsがまもなくリリースされます. AI/DSを本気で取りたい企業のみご利用いただけるようにAI-SCHOLARで求人のチェックから支援 そして,内容次第では掲載の取りやめも考えます. AI/DS人材の環境や価値をしっかり守るための求人掲載プラットフォームになります。
この記事に関するカテゴリー