科学に適用する高速機械学習

Survey, Review 2022年01月25日

3つの要点
✔️ 科学研究に機械学習を用いて加速化する一方、高スループットかつ低レイテンシーのアルゴリズムが要求されている
✔️ エマージングMLアルゴリズムに加え、最新のハードウェア／ソフトウェアもレビュー
✔️ 科学問題への適用を試みることにより、さらにML技術も強化され続ける

Applications and Techniques for Fast Machine Learning in Science
written by Allison McCarn Deiana (coordinator), Nhan Tran (coordinator), Joshua Agar, Michaela Blott, Giuseppe Di Guglielmo, Javier Duarte, Philip Harris, Scott Hauck, Mia Liu, Mark S. Neubauer, Jennifer Ngadiuba, Seda Ogrenci-Memik, Maurizio Pierini, Thea Aarrestad, Steffen Bahr, Jurgen Becker, Anne-Sophie Berthold, Richard J. Bonventre, Tomas E. Muller Bravo, Markus Diefenthaler, Zhen Dong, Nick Fritzsche, Amir Gholami, Ekaterina Govorkova, Kyle J Hazelwood, Christian Herwig, Babar Khan, Sehoon Kim, Thomas Klijnsma, Yaling Liu, Kin Ho Lo, Tri Nguyen, Gianantonio Pezzullo, Seyedramin Rasoulinezhad, Ryan A. Rivera, Kate Scholberg, Justin Selig, Sougata Sen, Dmitri Strukov, William Tang, Savannah Thais, Kai Lukas Unger, Ricardo Vilalta, Belinavon Krosigk, Thomas K. Warburton, Maria Acosta Flechas, Anthony Aportela, Thomas Calvet, Leonardo Cristella, Daniel Diaz, Caterina Doglioni, Maria Domenica Galati, Elham E Khoda, Farah Fahim, Davide Giri, Benjamin Hawks, Duc Hoang, Burt Holzman, Shih-Chieh Hsu, Sergo Jindariani, Iris Johnson, Raghav Kansal, Ryan Kastner, Erik Katsavounidis, Jeffrey Krupa, Pan Li, Sandeep Madireddy, Ethan Marx, Patrick McCormack, Andres Meza, Jovan Mitrevski, Mohammed Attia Mohammed, Farouk Mokhtar, Eric Moreno, Srishti Nagu, Rohin Narayan, Noah Palladino, Zhiqiang Que, Sang Eon Park, Subramanian Ramamoorthy, Dylan Rankin, Simon Rothman, Ashish Sharma, Sioni Summers, Pietro Vischia, Jean-Roch Vlimant, Olivia Weng
(Submitted on 25 Oct 2021)
Comments: Published on arxiv.
Subjects: Machine Learning (cs.LG); Hardware Architecture (cs.AR); Data Analysis, Statistics and Probability (physics.data-an); Instrumentation and Detectors (physics.ins-det)

code：

本記事で使用している画像は論文中のもの、紹介スライドのもの、またはそれを参考に作成したものを使用しております。

はじめに

多くの分野で科学的進歩を追求するために，物理システムをより小さな空間分解能と短い時間スケールで調査するための実験が非常に高度化しています．このような桁違いの進歩により，データの量と質が爆発的に増加しており，各分野の科学者は増大するデータ処理ニーズに対応するための新しい手法を開発する必要があります．同時に，機械学習（ML），すなわちデータから直接学習できるアルゴリズムの使用は，多くの科学分野で急速な進歩をもたらしています．最近の進歩により，構造化された深層ニューラルネットワークに基づく深層学習（DL）アーキテクチャが汎用性に富み，幅広い複雑な問題を解決できることが明らかになっています．大規模なデータセット，コンピュータ，およびDLソフトウェアの普及により，それぞれに利点のあるさまざまなDLアプローチが模索されるようになりました．

このレビュー論文では，データ処理やリアルタイムの意思決定を加速・改善することで重要な科学的問題を解決するための，MLと実験デザインの融合に焦点を当てています．高速なMLを必要とする無数の科学的問題について議論し，一般的な解決策につながるこれらの領域間の統一テーマを概説します．さらに，MLアルゴリズムを高速に実行するために必要な現在の技術をレビューし，解決すれば大きな科学的進歩につながる重要な技術的問題を提示します．このような科学の進歩のための重要な要件は，オープン性の必要性です．あまり交流のない領域の専門家が集まって，移転可能なソリューションを開発し，協力してオープンソースのソリューションを開発することが不可欠です．ここ数年のMLの進歩は，ヘテロジニアス・コンピューティング・ハードウェアの利用に起因するものが多いです．特に，GPUの利用は，大規模なDLアルゴリズムの開発を可能にしました．また，大規模なAIアルゴリズムを大規模なデータセットで学習できるようになったことで，高度なタスクを実行できるアルゴリズムが可能になりました．これらの開発と並行して，高速で効率的なAIアルゴリズムを実現するために，演算回数を減らすことを目的とした新しいタイプのDLアルゴリズムが登場しています．

この論文は，第2回Fast Machine Learningカンファレンスのレビューであり，このカンファレンスで発表された資料を基にしています．このワークショップには，素粒子物理学者から材料科学者，健康モニタリングの研究者，機械学習の専門家，コンピュータ・システム・アーキテクトまで，さまざまな科学領域の専門家が参加しています．Figure 1は，本稿の着想源となったワークショップシリーズの精神と，以降のセクションで扱うトピックを示しています．

MLツールが洗練されてきたことで，言語翻訳や音声認識などの複雑な問題を解決する超大規模なアルゴリズムの構築に焦点が当てられるようになってきました．さらに，AI革命の恩恵を受けるためには，それぞれの科学的アプローチをどのように変化させていくかが重要であり，アプリケーションは多様化してきています．これには，粒子の衝突や重力波の変化など，AIがリアルタイムに事象を分類する能力や，プラズマや粒子加速装置のフィードバック機構によるレスポンス制御など，システムの制御も含まれますが，レイテンシーやバンド幅，スループットなどの制約やその理由はシステムごとに異なります．低レイテンシーアルゴリズムの設計は，他のAI実装とは異なり，特定の処理ハードウェアを使用してタスクを処理し，全体のアルゴリズム性能を向上させる必要があります．例えば，科学的な測定を行うためには，超低レイテンシーのインフェレンシングが必要な場合があります．例えば，科学的な測定を行うためには，超低レイテンシーの照会時間が必要となるケースがありますが，このような場合には，利用可能なハードウェアの制約を最大限に活用しつつ，要求される実験要件に見合ったアルゴリズムを維持するために，アルゴリズムを十分に設計しなければなりません．

ドメイン・アプリケーションの模範例

科学的なエコシステムが急速に高速化・大規模化していく中で，データの処理・削減のための新しいパラダイムをシステムレベルの設計に組み込む必要があります．高速な機械学習の実装は，ドメインやアーキテクチャによって大きく異なりますが，基本的なデータ表現や機械学習の統合に対するニーズは似通っています．ここでは，既存の技術や将来のニーズを含めて，一見無関係なタスクの科学的ドメインの幅広いサンプリングを列挙します．

大型ハドロン衝突型加速器

CERNの大型ハドロン衝突型加速器（LHC）は，世界最大かつ最高エネルギーの粒子加速器で，25ナノ秒ごとに陽子の束が衝突しています．これらの衝突による生成物を調べるために，リングに沿って相互作用点にいくつかの検出器が設置されています．これらの検出器の目的は，ヒッグス粒子の性質を高精度で測定し，素粒子物理学の標準モデルを超える新しい物理現象を探索することです．陽子束を衝突させる周波数が40MHzと非常に高いこと，二次粒子の多重度が高いこと，センサーの数が多いことなどから，検出器は膨大な速度でデータを処理・保存しなければなりません．CMS とATLASという2つの多目的実験では，数千万の読み出しチャンネルで構成されており，これらのレートは100 Tb/sのオーダーになります．これらのデータを処理・保存することは，LHC物理プログラムを遂行する上で最も重要な課題の一つです．検出器のデータ処理には，バッファからイベントを選択してリアルタイムで解析するオンライン処理段階と，ディスクに書き込まれたデータを高度なアルゴリズムでより詳細に解析するオフライン処理段階とがあります．トリガーと呼ばれるオンライン処理システムでは，データレートを10Gb/sという扱いやすいレベルまで下げて，オフライン処理用に記録します．トリガーは通常，複数の階層に分かれています．オンディテクターのバッファーのサイズが限られているため，第1段階（レベル1またはL1）では，最大で1μsオーダーのレイテンシーでフィルタリング処理を実行できるFPGAやASICを利用します．第2段階のハイレベルトリガー（HLT）では，実験場に設置されたCPUベースのコンピューティングファームで，最大100msのレイテンシーでデータを処理します．最後に，完全なオフラインイベント処理は，グローバルに分散したCPUベースのコンピューティンググリッド上で行われます．このシステムの能力を維持することは，近い将来，さらに困難になるでしょう．2027年には，LHCがいわゆる高輝度LHC（HL-LHC）にアップグレードされ，1回の衝突で生成される粒子の数が5～7倍になり，最終的に蓄積されるデータの総量は，現在の加速器で達成されたものよりも1桁多いものになります．それと同時に，粒子検出器はより大きく，より細かくなり，ますます高速にデータを処理できるようになります．そのため，実験から引き出せる物理量は，アルゴリズムの精度と計算資源によって制限されることになります．

機械学習技術は，高次元データから最も関連性の高い情報を抽出する能力と，適切なハードウェアへの高度な並列化が可能であることから，この2つの分野において有望なソリューションと能力を提供します．新世代のアルゴリズムがLHC実験のデータ処理システムのすべての段階に導入されれば，物理学の性能を維持し，できれば向上させる上で重要な役割を果たすと期待されています．

LHC での物理学的タスクに適用した例には，イベント再構成，イベント・シミュレーション，ヘテロジニアス・コンピューティング，40MHzでのリアルタイム分析，フロントエンド・ディテクターへのMLの適用があります．（詳細は省略します）

大強度加速器実験

・Belle II実験での機械学習ベーストリガーシステム

Belle IIで使用されているNeural Network z-Vertex Trigger (NNT)は，デッドタイムのないレベル1(L1)トリガーで，ビーンパイプに沿って粒子の起源を推定することで粒子を識別します．データの読み出しから判定までのL1トリガープロセス全体について，デッドタイムを避けるためにリアルタイムで5μsの時間バジェットが与えられています．データの前処理と送信には時間がかかるため，NNTは300nsの処理時間で判定を行う必要があります．NNTのタスクは，粒子トラックの起源を推定し，それが相互作用点からのものであるかどうかを決定できるようにすることです．この目的のために，Xilinx Virtex 6 XC6VHX380T FPGAに実装された多層パーセプトロン（MLP）が使用されています．MLPは，27個の入力ニューロン，81個の隠れ層ニューロン，2個の出力ニューロンの3層で構成されています．このタスクには，Belle IIのCDC（Central Drift Chamber）が粒子の軌跡の検出に特化していることから，CDCからのデータを使用しています．検出器の生データは，ネットワークで処理される前に，隣接するアクティブ・センス・ワイヤのグループであるトラック・セグメントと呼ばれる2Dトラックに結合されます．NNTの出力には，トラックの原点がz方向，ビームパイプに沿って表示されるほか，極角θも表示されます．このz-Vertexを利用して，下流のグローバルディシジョンロジック（GDL）は，トラックが相互作用点からのものであるかどうかを判断します．さらに，極角θを用いて，粒子の運動量を検出することもできます．NNTで使用されるネットワークは，オフラインで学習されます．最初のネットワークは，実験データが入手できなかったため，プレーンなシミュレーションデータを用いて学習されました．最近のネットワークでは，実験データから再構成されたトラックを使用しています．学習には，RPROPバックプロパゲーションアルゴリズムを拡張したiRPROPアルゴリズムを使用しています．現在の結果では，NNTのトラックと再構築されたトラックの間に良い相関関係が見られます．現在のところ，イベントレートとバックグラウンドノイズは許容範囲内であるため，Zカット（トラックの原点を維持するために許容される推定原点）を±40cmに設定しています．しかし，輝度の増加とそれに伴うバックグラウンドの増加に伴い，このz-cutは厳しくすることができます．今年は，Virtex Ultrascaleベースのユニバーサル・トリガー・ボード（UT4）がNNTで使用できるようになったので，データの前処理の拡張が計画されています．これには3D Hough変換を使用し，さらなる効率化を図ります．すでにシミュレーションでは，より正確な解像度と広い立体角のカバー率が得られることが示されています．

物質探索

近年，材料科学のコミュニティでは，科学的発見を促進するために機械学習を取り入れ始めています．しかし，これには問題がありました．限られたデータで問題を解決するために，高度にオーバーパラメータ化されたモデルを作成する能力は，科学に必要な一般化をせず，誤った有効性をもたらします．自然の時系列や画像用に設計された機械学習モデルのアーキテクチャは，方程式で支配される物理プロセスには不向きです．この点については，究極の正則化の役割を果たす機械学習モデルに物理学を組み込む研究が増えています．例えば，回転平衡やユークリッド平衡がモデル・アーキテクチャに組み込まれており，基礎となる支配方程式の疎な表現を学習する方法が開発されています．もう一つの課題は，実際のシステムには，補償が必要なシステム固有の不一致があることです．例えば，異なるバッチの前駆体の粘度がわずかに異なることを考慮する必要があります．材料合成のためのこれらの基礎的な方法を開発することが急務です．これらの基礎的な研究を補完するものとして，"死後"の機械学習に基づく"その場"分光分析を重視した文献が増えてきています．これらのコンセプトがより成熟してくると，合成システム，機械学習手法，オンザフライでの分析と制御のためのハードウェアのコードサインにますます重点が置かれるようになるでしょう．このような自動運転ラボへの取り組みは，ダイナミクスが最小限であるため，レイテンシーが問題とならない湿式化学合成ではすでに進行中です．将来的には，ミリ秒からナノ秒の待ち時間が必要とされるダイナミックな合成プロセスの制御に焦点が当てられることは間違いないでしょう．

・走査型プローブ顕微鏡

材料科学の分野では，走査型プローブ顕微鏡に機械学習が急速に導入されています．線形および非線形スペクトルアンミキシングの技術は，物理的メカニズムを発見し解明するために，これらのデータセットから情報を迅速に可視化・抽出することができます．これらの技術が容易に適用できることから，結果の過大解釈や線形モデルの高度な非線形システムへの過度の拡張に関する正当な懸念が生じています．より最近では，スペクトル・アンミックスのために，非負でスパースな潜在空間を持つように，長短期記憶オートエンコーダが制御されました．学習された潜在空間を走査することで，複雑な構造と特性の関係を描くことができるようになりました．顕微鏡を使っている実験者が実用的な時間スケールで情報を抽出できるようにするために，計算パイプラインを高速化する大きなチャンスがあります．10万スペクトルのサンプルレートで最大GB/sの高速データが得られるため，ごくわずかな情報でも抽出するには，データ駆動モデル，物理情報に基づく機械学習，およびAIハードウェアが必要になります．具体的な例として，バンド励起圧電素子力顕微鏡では，周波数に依存するカンチレバーの応答を最大2,000スペクトル/秒の速度で測定します．これらの測定値からパラメータを抽出するには，応答を経験的なモデルに当てはめる必要があります．最小二乗法を用いたフィッティングでは，約50フィット/コア・分のスループットしか得られないが，ニューラルネットワークを用いることで，解析の高速化とノイズの多いデータの処理が可能になります．ニューラルネットワークをGPUやFPGAハードウェアアクセラレータに導入することで，このパイプラインを近似的に高速化することができます．

フェルミラボ加速器制御

従来の加速器の制御は，ビームの特定の側面を独立して調整できるように，同じような要素をグループ化することに重点を置いていました．しかし，多くの要素は必ずしも完全に分離できるわけではありません．例えば，磁石には高次の磁場があり，本来の目的とは異なる方法でビームに影響を与えることがあります．機械学習によって，これまで無関係だと思われていた読み取りやビーム制御の要素を組み合わせて，新たな制御・調整スキームを構築することがようやく可能になりました．そのような新しい制御プロジェクトの1つが，ブースターの勾配マグネット電源（GMPS）で進行中です．GMPSは，ブースター内のビームの主要な軌道を制御しています．このプロジェクトでは，GMPSのレギュレーション精度を10倍に高めることを目指しています．完成すれば，GMPSは，フェルミラボ加速器施設で初めてのFPGAによるMLモデルベースのオンライン制御システムとなるでしょう．加速器制御におけるMLの可能性は，エネルギー省にとって非常に明白であり，MLを用いた加速器制御の募集が国立研究所で行われました．フェルミ研究所が提出し，DOEが承認した2つの提案のうち，Real-time Edge AI for Distributed Systems (READS)プロジェクトがあります．READSは実際には2つのプロジェクトで構成されています．1つ目のREADSプロジェクトは，Delivery Ringから将来のMu2e実験へのスロー抽出のための補完的なML規制システムを構築するものです．2つ目のREADSプロジェクトは，メインインジェクター（MI）筐体でのデブレンディング・ビームロスに関する長年の問題に取り組むものです．MIエンクロージャーには，MIとリサイクラーという2つの加速器が設置されています．通常の運転では，両方の装置に大強度のビームが存在します．このプロジェクトでは，MLを使ってMu2eへのデリバリリングでのスロースピルを制御することと，もう一つのプロジェクトでは，筐体を共有しているリサイクラーとメインインジェクターの加速器から発生する損失をリアルタイムでオンラインモデルを使ってデブレンドすることを目的としています．どちらのREADSプロジェクトも，推論にはFPGAのオンラインMLモデルを使用し，加速器群周辺の分散システムから低レイテンシーでデータを収集します．

ニュートリノおよび直接暗黒物質実験

・加速器ニュートリノ実験

DUNEはそのトリガーフレームワークに機械学習を使用して膨大なデータレートを処理し，従来のニュートリノ振動測定と太陽・超新星イベントの候補となる相互作用を識別します．加速器ニュートリノ実験は，何年も前から機械学習技術の導入に成功しており，そのような最初の例は2017年のもので，ネットワークによって解析の有効露出が30％増加しました．イベントの分類を行うことを目的としたネットワークは，多くの実験で一般的であり，DUNEでは最近，シミュレーションデータで設計感度を超えることができるネットワークを発表しており，このネットワークには，相互作用による最終状態の粒子の数をカウントする出力が含まれています．実験では，ネットワークが訓練データの特徴を意図した以上に学習してしまうことの危険性をますます認識するようになっています．そのため，このリスクを低減するためには，訓練データセットを慎重に構築することが不可欠です．しかし，まだ知られていないバイアスを修正したり定量化したりすることはできません．そのため，MINERvA実験では，シミュレーションデータと実データの違いから生じる未知のバイアスを低減するために，ドメイン・アドバーサリアル・ニューラル・ネットワークの使用を検討しました．このネットワークは，領域ネットワーク（データで学習）に勾配反転層を備えているため，分類ネットワーク（シミュレーションで学習）が2つの領域間で異なる動作をする特徴から学習することを抑制することができます．

この領域では，さらに中性子天文物理学，ダークマターの直接検出実験での適用例があります．

電子・イオン衝突型加速器

電子・イオン衝突型加速器（Electron-Ion Collider: EIC）の物理現象にアクセスするには，相互作用領域（IR）と検出器の設計をこれまでになく統合する必要があります．EICで想定されているトリガーレスのDAQスキームは，高度に統合されたIR-検出器デザインを解析にまで拡張するものです．EICでのDAQから解析までのシームレスなデータ処理は，例えばDAQ，オンライン，オフラインの解析のためのソフトウェアを統合することでワークフローを合理化し，データ処理のすべてのレベルで新しいソフトウェア技術，特に高速MLアルゴリズムを活用することができます．これは，EICの物理学的到達点をさらに最適化する機会となるでしょう．原子核物理学のためのAI」の現状と展望については，2020年のワークショップで議論されています．高速MLに関連するトピックは，データストレージに関するインテリジェントな決定と（ほぼ）リアルタイムの分析です．関連する物理を確実に捉えるためには，データ保存に関するインテリジェントな決定が必要です．高速MLアルゴリズムは，データのコンパクト化，洗練されたトリガー，高速オンライン解析によって，取得したデータを改善することができます．EICでは，自動化されたデータ品質のモニタリングだけでなく，検出器の自動調整と校正も含まれます．ほぼリアルタイムでの解析とフィードバックにより，実験セットアップの迅速な診断と最適化が可能となり，物理学的結果へのアクセスも大幅に向上します．

重力波

近年，重力波物理学のさまざまな分野で機械学習アルゴリズムが模索されています．CNNは，コンパクトな連星合体重力波，コア崩壊超新星からのバースト重力波，および連続重力波の検出と分類に応用されています．また，教師なしの戦略を用いて重力波を検出するために，リカレント・ニューラル・ネットワーク（RNN）ベースのオートエンコーダが検討されています．FPGAベースのRNNも，重力波の低レイテンシー検出の可能性を示すために検討されています．現在，ジェネリックバーストやストキャスティックバックグラウンドなど，他のタイプの重力波の探索におけるMLの応用が検討されている．さらに，確率論的および生成的なMLモデルは，重力波のパラメータ推定における事後サンプリングに用いることができ，模擬データを用いたベイズ・サンプラーに匹敵する性能を達成する一方で，完了までの時間は大幅に短縮されます．MLアルゴリズムは，重力波データの品質向上やノイズの差し引きにも利用されている．一過性のノイズ・アーティファクトは，その時間周波数変換や定数Q変換や，LIGOの何十万もの補助チャンネルを調べることで，識別・分類することができます．これらの補助チャンネルは，準周期的なノイズ源を差し引くためにも使用できます．MLアルゴリズムは重力波データ解析に大きな期待が寄せられていますが，これらのアルゴリズムの多くはまだ概念実証の段階であり，リアルタイム解析への適用には成功していません．現在の課題は，低レイテンシー解析のための計算インフラの構築，学習データの質の向上（パラメータ空間の拡大，より現実的なノイズモデルの使用など），より長時間のデータに対するアルゴリズムの性能の定量化などです．

バイオメディカルエンジニアリング

MLのアルゴリズムの多くの変更は，精度と推論速度の両方の性能の向上を伴います．最先端の機械学習モデルの中には，推論速度が速いものもあります．例えば，医用画像処理によく用いられる物体検出モデルであるYOLOv3-tiny は，標準的なデータセットを用いて200 FPS以上で画像を処理し，それなりの精度を出すことができます．現在，医療用AIアプリケーションでは，GPUおよびFPGAベース，クラウドMLに接続された無線センサーの分散ネットワーク（エッジ・コンピューティング），および5G高速WiFiベースのMLモデルの両方が展開されています．脳卒中，血栓症，大腸ポリープ，がん，てんかんの高速診断のためのMLモデルは，病変の検出と臨床判断の時間を大幅に短縮しました．リアルタイムのAI支援手術は，周術期のワークフローを改善し，ビデオのセグメンテーション，手術器具の検出，組織の変形の視覚化を行うことができます．高速MLは，デジタルヘルス，すなわち，遠隔診断，手術，およびモニタリングにおいて重要な役割を果たしています．

ヘルスモニタリング

既存の研究は様々な方向に踏み込んでいますが，健康バイオマーカーを正しく感知し，高速かつ正確にこれらのバイオマーカーを識別できるMLアプローチを開発する必要性が高まっています．研究者たちは，様々な健康行動やバイオマーカーを感知できる新しいセンシングシステムの開発に注力してきた．歴史的には，これらの新しいセンシング技術のほとんどは，制御された環境でテストされていたが，最近では，研究者たちは，これらのシステムが自由な生活環境でもシームレスに動作することを保証している．そのためには，複数のMLモデルを開発し，それぞれが特定の状況や環境に対応できるようにする必要がある．この分野の新しいトレンドは，デバイス上で実装可能で，これらの行動を迅速かつ正確に検出できるモデルの実装に依存し始めている．リアルタイムでの介入が可能になるだけでなく，これらの行動をオンデバイスでモニタリングすることで，プライバシーに関する懸念を軽減することができます．しかし，ウェアラブルデバイス自体がデータを処理できない可能性があるため，最近では，複数の研究者によって，連携した機械学習アプローチも検討されています．

宇宙論

CNNを球面に適用して，弱いレンズマップを作成する際に，より正確なモデルを生成したり，宇宙マイクロ波背景マップからノイズを除去したりしています．また，次世代施設から有用な宇宙論データを抽出するために，発見・分類エンジンが開発されています．さらに，MLは宇宙シミュレーションにも使用されており，新しい解析や手法を試したり，そのような新しい施設の最初の運用のための基礎を作ったりしています．

プラズマ物理学

現実的なディスラプションの予測プラズマモデルを開発し，最新のプラズマ制御システムと統合することで，実験を実行する前に設計する能力を提供することが，ここでの包括的な目標となります．AIを活用した統合モデリングツールは，ITERや将来の燃焼プラズマにおける高価な放電を最も効率的かつ安全に計画するために大きな価値を持つことは明らかです．関連コンポーネントの検証，妥当性確認，不確かさの定量化は以下のようです．(1)事前情報を効率的な推論アルゴリズムに組み込む先進的なベイズ強化学習法を用いて，燃焼プラズマのスケールに外挿可能なプラズマとアクチュエーターの予測ニューラルネットモデルの開発(2)世界の主要なトカマク実験（アメリカのDIII-D，アジアのKSTARとEAST，ヨーロッパのJET，そしてITERに先行する日本の大型超伝導装置JT60SAなど）の膨大なデータを用いて，統合プラズマ予測モデルの構成要素を系統的によく診断して検証します．これにより，理想的には，ITERや将来の原子炉のための成熟したAI対応の包括的な制御システムが実現し，完全なパイロットプラントシステムモデルとの統合が可能になります．

現在，重要な課題は，95%以上の予測精度を持つ大幅に改善された予測方法を提供し，ITERに致命的なダメージが及ぶ前に，混乱回避/緩和戦略を効果的に適用するための事前警告を行うことです．プリンストン大学の深層学習コード "FRNN"に代表されるように，深層学習（リカレント）やCNNの導入が大幅に進み，スーパーコンピューティングシステム上で大規模で複雑なデータセットの迅速な分析が可能になりました．これに関連して，前例のない正確さと速さでトカマクの破壊を予測することに成功しました．その論文（およびそこに引用されている広範な参考文献）には，物理的特徴（密度，温度，電流，放射，揺らぎなど）のためのFESデータ表現の説明と，必要とされる「ゼロD」（スカラー）および高次元の信号を考慮したフレーム（イベントベース）レベルの精度と，管理可能なデータレートで記録されたリアルタイムの解像度を持つ検出器／診断を特徴とする主要なプラズマ実験の性質が含まれています．大まかな将来予測では，ITERでは膨大な量の複雑な空間的・時間的データの処理と解釈が必要になると考えられます．シミュレーションはITERのデータ解析のもう一つの重要な側面であるため，関連する大きな計算コストに対処するには，高度な圧縮法の導入が必要となります．より一般的には，実際の第一原理シミュレーションに基づいたリアルタイムの予測は，不安定性の特性や粒子相空間のダイナミクスについての洞察を得るために重要です．このため，AIベースの「サロゲートモデル」を開発する必要があります．例えば，HPCで定評のある「ジャイロ運動論的」粒子インセルシミュレーションコードGTC[278]は，プラズマの不安定性をリアルタイムで正確にシミュレートすることができます．データの準備とサロゲートモデルのトレーニング，例えば「SGTC」は，最新のハイパフォーマンスコンピューティング（HPC）の予測シミュレーションとAI対応のディープラーニング／機械学習キャンペーンとの間の統合／接続という現代的なタスクの明確な例にあたります．また，これらの考察は，科学的発見の提供を促進するために，HPCとビッグデータMLアプローチを統合する必要性をさらに説明し，動機付けるのにも役立ちます．最後に，引用されている論文は，異なるトカマク装置（米国のDIII-Dと英国のJET）のディスラプションを正確に予測するために，先導的スーパーコンピューティングシステムでトレーニングされた，初めての適応可能な予測DLソフトウェアです．このソフトウェアは，1つの実験（DIII-D）で得られた大規模なデータベースを学習することで効率的な「転移学習」を行い，見知らぬ装置（JET）でのディスラプション発生を正確に予測することができるというユニークな統計的機能を備えています．さらに最近では，カリフォルニア州サンディエゴにあるDIII-Dトカマク施設のリアルタイムプラズマ制御システムにFRNN推論エンジンが導入されました．これは受動的な破壊予測から能動的なリアルタイム制御へと移行し，その後の原子炉シナリオの最適化に向けたエキサイティングな道筋を開くものです．

ワイヤレス・ネットワーキング，エッジ・コンピューティング向け機械学習

研究者たちは，人工ニューラルネットワークを使って特定の無線リソース管理タスクを実行するために，さまざまな学習アルゴリズムを提案してきました．送信電力制御を行うためにNNを学習させる最初の提案のいくつかは，教師付き学習を採用しています．より最近の提案では，チャネルやネットワークの不確実性にうまく対応し，事前のトレーニングデータをほとんど必要としない深層強化学習アプローチを採用しています．多くの研究が，エッジ・コンピューティングと深層学習の融合に焦点を当てています．具体的には，学習目的のために中央コントローラにすべてのデータを送信する代わりに，参加者が共同でモデルを学習するフェデレーテッド・ラーニングに関する研究があります．これらの研究は，基本的にはシミュレーションの段階で終わっており，高速で計算効率の高い実用的なML/AIソリューションが存在しないためです．具体的には，複雑なMLモデルを非常に高速なタイムスケール（10ms以下）で実行でき，かつスモールセルのアクセスポイントにも搭載可能なコンピューティングプラットフォームを開発することが研究課題となっています．非常に大きな影響を与える可能性のあるプロジェクトとしては，インテリジェントな無線リソース管理アルゴリズムを，接続された干渉するアクセスポイントの大規模なネットワークに展開するのに適した FPGA デバイスにマッピングすることが挙げられます．もう1つの興味深いプロジェクトは，中央のコンピューティング施設にデータを転送すると遅延が発生するIoTデバイスのために，時間に敏感なMLを行う連合学習システムを構築することです．これにより，ヘルスケア，スマートビルディング，農業，交通などの分野で，低コストの閉ループIoTデバイスのまったく新しい可能性が広がります．

重複する主な分野

リアルタイムで加速されたAI推論は，様々な分野の現在および計画中の科学機器における発見の可能性を向上させることが期待されています．リアルタイム/高速AIアプリケーションのための高性能な専門システムを設計するには，対象となるドメインのMLアルゴリズムのメリットに特に注意を払う必要があります．それは，推論あたりのレイテンシー，計算コスト（消費電力など），信頼性，セキュリティ，過酷な環境（放射線など）での動作能力などに支配される可能性があります．例えば，大型ハドロン衝突型加速器では，約100nsのレイテンシーで稀な事象を捕捉するシステムを起動する必要があります．また，キロヘルツ帯の周波数で多チャンネルの外来患者の健康モニターを解析する際には，電力の制限（データ転送のために1日あたり約50個のiPhoneのバッテリーが必要）やセキュリティ要件のためにワイヤレスでのデータ転送ができません．また，毎秒テラビットオーダーの物質分光データストリームに対応する必要があります．さらに，先進的な科学機器のリアルタイム分析では，コンピューティング・リソースが途切れることなく割り当てられなければならず，無線健康機器で処理される患者の機密情報は保護されなければなりません．このような特徴や特性は，ドメインやアプリケーション間の区別や共通点を理解するための定量的なガイドラインとなります．これにより，一見異なるドメイン間のニーズに対応する基本的な設計原則とツールの作成に向けた努力を調整することができます．適切なデータ表現は，上述の性能目標を満たす必要のあるリアルタイムシステムに実装するNNアーキテクチャの選択を決定するため，設計プロセスの重要な第一段階となります．

データ表現

特定のドメインで使用されるデータ表現は，計算システムとデータストレージの両方に影響を与えます．ドメイン間のデータ表現の大まかな分類としては，生データと再構成データが考えられます．データ表現は，再構成の段階や，データ処理パイプラインの上流のステップに応じて異なることが多いです．既存のアプリケーションには，前処理された専門家の特徴変数を入力とする完全連結NNや，データが画像の性質を持つ場合のCNNがあります．現在開発中のドメイン知識に触発されたNNアルゴリズムは，以下に詳述するように，精度と効率の面で専門家の特徴をさらに活用することができます．高度なNNの能力を十分に活用し，情報の損失を最小限に抑えてデータ作成に近づけるためには，生データのより適切な表現，例えば点群などを採用する必要があります．さまざまな実験・計測システムから得られる生データの代表的な表現としては，以下のようなものがあります．

- Spatial Data（空間データ）．幾何学的な空間にある物理的な物体を記述するために用いられる．大きく分けてベクターデータとラスターデータの2種類がある．ベクトルデータには，点，線，多角形などがある．ラスターデータとは，画像のようなピクセルのグリッドを指すが，ピクセルは強度，電荷，電界強度などの他の測定値を表すこともある．

- Point Clouds（点群）．空間データの一種といえる．このデータは，空間データの集合，すなわち3次元空間内の点を照合して作成され，通常，空間内のオブジェクトを集合的に形成する．

- Temporal Data（時間データ）．特定の時間におけるシステムや実験の状態を表すのに使用される．時間を超えて特定の順序で収集されたデータは，このように分類される．時系列データは，この表現のサブセットであり，データが一定の時間間隔でサンプリングされる．時系列データの例として，Fig. 4に超新星の分類の例を示す．

- Spatio-Temporal Data（時空間データ）．あるシステムの測定値や観測値は，空間と時間の両方の次元で収集することができる．その場合，データは時空間的なものと考えられる．

- Multispectral Data（マルチスペクトルデータ）．電磁スペクトルの複数のバンドから測定値を取得する複数のセンサーの出力を表現するために使用される．マルチスペクトル表現は，異なる波長の光に感度を持つセンサーを使ったイメージングの分野でよく使われる．これには通常，数個から10個程度のスペクトルが含まれる．

- ハイパースペクトルデータ．ハイパースペクトルデータ：100個程度の多数のスペクトルからの測定値を表すために使用される．異なる狭帯域スペクトルから収集されたこれらの画像は，3つの主要な次元を持つ，いわゆるハイパースペクトルキューブに結合される．最初の2つの次元は，2次元の空間的な配置（例えば，地表）を参照し，3つ目の次元は，各「ピクセル」の位置における完全なスペクトルコンテンツを表す．

Table 1では，これらのデータ表現を科学的な応用分野に対応させ，簡単に説明しています．特定の分野で特に重要なデータ表現を強調しています．データ通信のコスト（レイテンシー）とデータストレージのコスト（物理的なストレージリソースの取得と管理にかかるコスト）は重要な課題です．特に，リアルタイム分析やリアルタイムフィードバックを必要とするアプリケーション領域では，高度に最適化されたデータ分析ソリューションが求められます．ハイパースペクトルデータに依存するアプリケーションでは，電磁界全体で入力されるデータの割合が増え続けています．このような分野では，高速データリダクションが必要です．また，大規模な点群データを生成するアプリケーションでは，空間データの効率的な圧縮が求められます．また，空間分解能が限られたマルチスペクトルデータを扱うアプリケーション領域では，リアルタイムの制御フィードバックを可能にするために，超高速な再構成が求められます．また，時系列のストリーミングデータを正確に解析する必要があるアプリケーションでは，プライバシーやセキュリティの問題，あるいは関連するエッジデバイスの制限などにより，非常に限られたストレージや通信リソースの下での実行を余儀なくされます．データ処理のフロントエンドにMLソリューションを開発する現在の取り組みの中には，オートエンコーダーベースの圧縮エンジンの開発に焦点を当てたものがあります．ハイパースペクトルデータのためのMLベースの次元削減も注目されている方向です．深層学習に基づくアプローチは，画像再構成のために研究されており，材料科学の分野はその点で最も活発な分野の一つです．

・Expert Feature DNNs

強力なドメイン固有のMLアルゴリズムを構築するための直接的なアプローチの1つは，専門家によるドメインの特徴から始めて，ニューラルネットワークやその他の多変量解析技術でそれらを組み合わせることです．このように専門知識を組み込むことで，入力された特徴は解釈可能であり，特徴間の相関関係により，パフォーマンスを最適化しつつ，特定のタスクに関する知見を得ることができるという固有の利点があります．さらに，領域の特徴の計算の複雑さに応じて，このような機械学習アプローチの計算効率は，生の特徴を直接使用する場合よりも高くなります．しかし，専門家の特徴を利用することで，そのような新しい特徴の情報性に全面的に依存してしまうという欠点があります．そのため，生の特徴量から情報量の多い新特徴量を構築するプロセスを自動化することが注目されています．例えば，画像分類タスクでは，深層ニューラルネットワークDNNを用いて高レベルのデータ表現を抽出する方法が大きく進歩しています．DNNでは，元の入力信号の上にニューロンの層を構築し，新しい層がデータのより抽象的な表現を捉えるようにします．各層は，下の層の特徴の非線形結合を形成することで，新しい特徴を構築する．このような階層的な特徴構築のアプローチは，データの変動要因を切り離すのに有効であり，情報量が多く意味のある表現を構築するのに役立っています．例えば，天文画像では，DNNは低レベルのピクセル情報から始まり，徐々に上層のエッジ，モチーフ，そして最終的には物体全体（銀河など）を取り込み，宇宙の全体像を把握することができます．これは他の科学分野でも同様です．例えば，大型加速器で粒子を検出するには，低レベルの信号を，特定の粒子に帰属させることができる動的なパターンに変換する必要があります．医用画像では，グローバルな組織パターンを徐々に把握することで，低レベルのピクセル情報から異常な組織を素早く識別する必要があります．初期の入力データを意味のある抽象的な表現に変換することの重要性は，いくら強調してもし過ぎることはありません．これは，現代のニューラルネットワークアーキテクチャの最も強力な特性の1つです．

DNNを用いて抽象度の高い表現を構築するには，いくつかの課題があります．1つの課題は，ドメイン知識（物理的制約など）をニューラルネットワークモデルに組み込むことです．これは，DNNの学習時に過剰な量のデータを必要とすることに対処し，モデルとターゲット概念の間の表現上の偏りのギャップを狭めるために重要です．データは不足しているがドメインの専門知識が豊富な状況では，ドメインの知識を追加することで，学習プロセスを迅速化することができ，またモデルの一般化性能も向上します．もう一つの課題は，各層に埋め込まれた表現のセマンティクスを説明することで，モデルの解釈可能性のためのツールを開発することです．これは，ネットワーク・アーキテクチャにおける情報の分散表現のために，困難を極めます．統計モデルとドメイン知識の間のシームレスな統合を達成するための正式なメカニズムがないにもかかわらず，現在のアプローチは，例えば，知識を使ってトレーニングデータを追加したり，損失関数を変更したりするなど，興味深い方向性を示しています．DNNにおけるモデルの解釈可能性は，ここ数年で研究が活発化しています．一般的には，ニューロンの層間で何が学習されているかを解明するために，個々のユニットとその活性化パターンを調べる研究が多いです．

・フレームベース画像

フレームベースの画像は，素粒子物理学における時間投影チェンバーを用いたニュートリノ検出のような複数の領域において，実験データを適切に表現します．このデータ表現の例は，Fig. 5に示すProtoDUNEニュートリノ検出器における電子蒸着の例です．時間座標 "Tick "と空間内のワイヤの位置をプロットすることで，空間フレームが示されています．最近開発されたニューラルネットワークのアーキテクチャでは，画像のスパース性を利用して計算量を減らし，リアルタイム/高速のMLアプリケーションを実現しています．HEPや他の多くの分野における他の種類の実験データも，フレームベースの画像として表現できるように処理することができますが，多くの場合，情報の損失は避けられません．

・点群

HEPでは，多数の検出器で収集したイベントベースの測定値の複数のフレームを1つのデータセットにまとめる際に，点群データの表現がよく使われます．多くのHEPアプリケーションにおいて，点群はPb/sを超えるデータサイズの粒子ジェットの表現によく使われています．もっと広く言えば，点群は3D空間のイベントや空間内の可動部品の相互作用を捉えるために使用できます．LHCのCMS検出器の点群ビジュアライゼーションをFig. 6に示します．陽子-陽子衝突の残骸が，カスタマイズされ最適化された検出器の形状でセンサー信号を生成し，点が空間に図示されています．様々な種類のスキャンベースの画像データは，点群として表現することができます．医用工学におけるCTやPETスキャン，バーチャルリアリティなどの分野でも，この表現を利用したイメージングが行われています．また，製品設計，ソリッドオブジェクトモデリング，建築，インフラ設計などに使用される3Dスキャナーも点群を利用しています．これらのイメージングタスクの多くは，数GBからTBオーダーのサイズの点群を生成します．また，点群表現を共有する領域（HEPやバイオメディカル・イメージングなど）では，空間的な特性がよく用いられます．

・Multi-/Hyperspectral Data

マルチスペクトルデータは，ワイヤレスヘルスモニタリングシステムとワイヤレス通信システムの間で共通して使用されます．健康モニタリングや介入システムでは，異なるモダリティの生理学的センサを組み合わせて，マルチスペクトルデータセットを作成します．また，無線通信では，信号の干渉やネットワークのトラフィック状況をマルチスペクトルデータで把握します．どちらの領域も時間領域に渡ってこのデータをキャプチャしているため，時間的な特徴も見られます．さらに，どちらの領域でも，生成されるデータのサイズは，この記事で取り上げた他の領域と比較して，比較的小さいと考えられます（100s of Mb/sから10s of Gb/sの範囲）．ハイパースペクトルデータは，天文学，医療画像，電子顕微鏡などの分野で利用されており，多くの材料科学の設計や発見に利用されています．電子顕微鏡におけるハイパースペクトルデータの一例をFig. 7に示します．電子プローブを対象となる試料の上でラスタリングし，回折パターンをピクセル化された検出器に取り込みます．ピクセル化された検出器は，電子プローブがサンプル上で走査されると，多くの画像を取り込みます．マルチメッセンジャー天文学への応用は，さまざまな検出器や望遠鏡からの観測結果を組み合わせて，ハイパースペクトルデータを表現することの有用性をさらに強調しています．

・時系列データ

時系列データは，材料発見のための合成や，核融合実験におけるプラズマ状態の時間的進化などのプロセスにおいて，動的に進化するシステムを観察する実験でよく見られます．これは，物質科学や物理学の特徴（密度，温度，電流，放射線，ゆらぎなど）や，進化するプラズマ状態の空間的特徴を，時間の関数として高速に時間分解してイメージングしたものである．

時系列データのIn-situ診断は，時間と計算コストのかかる実験全体のオフライン解析を行うことなく，材料科学において望ましくない結果を示す実験を早期に終了させるための警告を提供することができます．

その結果，実験の効率が向上し，望ましい特性を持つ材料の発見が促進されます．Fig. 8は，フェルミラボ社ブースター加速器の加速器制御の例です．このアプリケーションでは，陽子ビームをシンクロトロンの周りで誘導する磁石の電圧を，15Hzの時間サンプルで記録しています．この研究では，ブースター加速器のデータをシミュレートするためのデジタルツインを構築しました．さらに，核融合実験における大規模な障害を確実に予測し，回避するためには，時系列データのリアルタイム分析が重要です．

システム制約

CPU ベースのローカルクラスタやクラウドサービス，GPU や TPU ベースのハードウェアアクセラレータを利用したクラウド計算リソースが，それぞれのアプリケーションで利用されています．HEP コミュニティで検討されているコンセプトのひとつが，GPU as a Service（GPUaaS）モデルです．これらのパラダイムは，物理学的問題を解決する機械学習モデュールの実装を含み，その機械学習モデュールは，GPUまたはTPUアクセラレータに転送され，実験システムのローカルCPU「クライアント」からアクセスされます．

・ソフトウェアプログラマブルコプロセッサー

歴史的に見て，この記事で取り上げた問題の計算ニーズに対応する最初の試みは，ソフトウェアでプログラム可能なシステムでした．また，GPUやTPUベースのハードウェア・アクセラレータを利用したクラウド・コンピューティング・リソースも様々なアプリケーションに利用されています．HEP コミュニティで検討されているコンセプトの 1 つに，GPU as a Service(GPUaaS)モデルがあります．これはさらに，Machine Learning as a Service（サービスとしての機械学習）というコンセプトに拡張することができます．これらのパラダイムでは，物理学の問題を解決するために機械学習モジュールを実装し，それをGPUまたはTPUアクセラレータに転送して，ネイティブ実験システムのローカルCPUの「クライアント」がアクセスします．

主要なシステム制約の1つは計算能力です．これは，ニューラルネットワークの実装に関する限り，浮動小数点演算の数で定義できます．リアルタイムの機械学習手法では，タスクあたりのレイテンシに直接影響するため，計算能力がますます向上する必要があります．タスクは，LHCのトリガー，加速器実験または天体物理学でのイベントの再構築，材料合成，電子顕微鏡によってキャプチャされた画像の再構築などである可能性があります．待ち時間を最小化し，最大化するために可能な限り最大の容量を提供するには，極端な並列処理が望まれます．スループット．プロセッサベースのシステムでは，これはコンピューティングクラスタのサイズを増やすことで対処できます．

当然，施設のコストはこれらのクラスターの規模に制限を課します．もう1つの制約は，使用可能なストレージの量と，メモリ階層全体でのデータ移動のコストです．ほとんどのユースケースでは，フロントエンド（検出器，顕微鏡，センサーなど）からのデータの移動に伴う遅延が総遅延を支配します．顕著なパフォーマンスの制約の1つは，フロントエンドとバックエンドをリンクするネットワークの使用率とその後の遅延に関連しています．データ移動の速度に関する現在の制限により，CPU / GPUクラスターベースのシステムはリアルタイムの要件を満たすことができなくなります．

・カスタム組み込みコンピューティング

レイテンシーとスループットの制約に加えて，実用的なエネルギーの制約が厳しくなってきています．難しいリアルタイムのニーズに対応するために，特殊なコンピューティングシステムの開発が進められています．ますます魅力的なパラダイムは，データキャプチャー・ワークフローの特定のステップに細かく最適化されたコンポーネントを設計することです．これらのコンポーネントは，FPGAデバイスにマッピングすることもできますし，ASIC（特定用途向け集積回路）として設計・製造することができます．

LHC および加速器の分野では，マイクロ秒単位の待ち時間を実現するフロントエンドデータ処理システムの FPGA ベースのデモが数多く行われており，マイクロ秒のレイテンシを実現しています．これらのシステムは，トリガー，イベント再構築，異常検知などのタスクを担当します．これらのタスクの推論を行うためにニューラルネットワークを直接かつ素朴に実装すると，レイテンシーを満たすことができません．達成可能なFPGAクロック周波数と推論のレイテンシーの最大値は，デバイスのリソース使用率と占有率に相関があります．このようなアプリケーションのために開発された共同設計技術(Co-design)は，特に極端な量子化と刈り込みに特化しています．これらの最適化は，システムの制約を満たすために，リソース使用量の上限をFPGAデバイスの10%まで下げることができます．これらの最適化により，システムの制約を満たしつつ，高い推論精度を持つ実装を実現しました．

他のアプリケーション（例：加速器の制御，バイオメディカル，健康アプリケーション）では，リソースの最小化の必要性が緩和され，ミリ秒単位のレイテンシーの期待値はそれほど厳しくありません．したがって，システム設計の焦点は，リソースを極限まで節約することから，マッピングされるアルゴリズムをより洗練されたものにすることへと移ることができます．推論モデルには，高度な映像・信号処理エンジンと組み合わせた深層学習モデルや，ローカルなプライバシー保護処理タスクが含まれるようになります．

システムに制約がある場合，FPGAデバイスに加えて，または代わりにカスタムASICソリューションを設計する必要があります．ASICは，極端なフォーム・ファクタへの対応，コンパクトなフロントエンド・デバイスへの計算機とセンサー（スマート光子検出器など）の統合，他のデバイスとの緊密な統合などが可能です．センシング（スマート・フォトン・ディテクタなど）と計算の統合，ミックスシグナルやアナログ機能との緊密な統合，耐放射線性の要求，超低エネルギーバジェットなどに対応できます．

テクノロジー最新情報

このセクションでは，高速MLアルゴリズムを構築するためのテクノロジーと手法の概要を説明します．

これには共同設計(Co-design)が必要です．ハードウェアを念頭に置いてアルゴリズムを構築し，ハードウェアをプログラミングするための効率的なプラットフォームを提供します．

MLモデルを効率的に展開するための体系的な手法

前に述べたように，科学分野におけるMLの問題の多くは，低レイテンシーを必要とし，多くの場合，制約されたリソースを必要とします．しかし，現在の最先端のNNモデルのほとんどは，非常に高いレイテンシーと，大きなメモリフットプリントとエネルギー消費を伴います．このレイテンシーの問題を回避するためには，非理想的な精度を持つ最適ではないモデル（浅いNNなど）を使わざるを得ませんでした．

この問題を解決するために，NNモデルをより効率的（レイテンシー，メモリーフットプリント，エネルギー消費の観点から）にすることに焦点を当てた文献が数多くあります．これらの取り組みは，以下のように大まかに分類されます．

(i) 新しい効率的なNNアーキテクチャの設計，(ii) NNとハードウェアの共同設計，(iii) 量子化(低精度推論），(iv) 刈り込みとスパース推論，(v) 知識の蒸留．

・新しい効率的なNNアーキテクチャの設計

研究の1つのラインは，設計上効率的な新しいNNモデルを見つけることに焦点を当てています．注目すべき初期の作業は，SqueezeNet です．これは，高価な完全接続レイヤーのない新しいNNモデルです．

新しい軽量のFireモジュールを使用すると，AlexNetと比較して50倍小さいモデルになりましたが，精度は同じです．その後，効率的なNNアーキテクチャ設計でいくつかの新しい革新が行われました． 1つの焦点は，効率的なレイヤー/オペレーターを見つけることでした．注目すべき研究は，いくつか例を挙げると，グループ畳み込み，深さ方向畳み込み，空間分離可能畳み込み，シャッフルレイヤー，シフト畳み込みです．

もう1つの焦点は，より効率的で，より優れた精度/一般化をもたらすFireモジュールと同様の代替品を見つけることでした．注目すべき研究には，残余ネットワーク（元々は勾配消失問題を解決するために設計されましたが，これらの構造は一般に非残余アーキテクチャよりも効率的です），密に接続されたネットワーク，スクイーズアンドエキサイトモジュール，および反転残余ブロックなどが含まれます．

これらの古典的な手法は，ほとんどの場合，手動の設計検索を通じて新しいアーキテクチャモジュールを見つけました．これはスケーラブルではないため，最近のアプローチでは，ニューラルアーキテクチャ検索（NAS）を使用する自動化された方法が提案されています． NASメソッドは，モデルサイズ，深度/幅，および/または遅延の特定の制約に対して適切なNNアーキテクチャを自動的に検出します．ここでの高レベルのアプローチは，規定された制約内で，学習可能な確率でNNアーキテクチャのすべての可能な組み合わせを含む確率的SuperNetをトレーニングすることです．このSuperNetがトレーニングされた後，学習した確率分布からアーキテクチャをサンプリングできます．注目すべき研究には，RLベースの方法，効率的なNAS，MNasNet，DARTS，および微分可能NASが含まれます．

・NNおよびハードウェアのコデザイン

もう1つの有望な作業は，特定のハードウェアプラットフォーム用にNNアーキテクチャを調整すること，および/またはそれらを一緒に共同設計することです．これは，FPGAなどの構成可能なハードウェアにとって非常に有望です．ハードウェア対応のNN設計の重要性は，さまざまなタイプの操作を実行するコストがハードウェアごとに異なることです．たとえば，専用のキャッシュ階層を持つハードウェアは，キャッシュ階層のないハードウェアよりもはるかに効率的に帯域幅に制限された操作を実行できます．この分野での注目すべき作品には，SqueezeNextがあり，NNとハードウェアアクセラレータの両方が手動チューニングアプローチで共同設計されました．最近の研究では，NASを介してハードウェア対応の設計を自動化することが提案されています．注目すべき研究には，ProxylessNAS，OnceForAll，FBNet，およびMobileNetV3があります．

・量子化(低精度推論）

一般的な解決策は，量子化を使用してNNモデルを圧縮することです．この場合，重み/アクティブ化に低いビット精度が使用されます．ここで注目すべき研究は，量子化を使用して上記のSqueezeNetモデルのモデルフットプリントを圧縮し，そのサイズをAlexNetの500分の1にしたDeep Compressionです．量子化では，元のネットワークアーキテクチャを変更せずにモデルサイズが縮小されるため，低精度の行列の乗算または畳み込みを使用できる可能性があります．したがって，メモリフットプリントとレイテンシの両方を改善できます．

量子化手法は，トレーニング後の量子化（PTQ）と量子化認識トレーニング（QAT）の2つのカテゴリに大きく分類できます． PTQでは，単精度で事前トレーニングされたモデルは，微調整や再トレーニングなしで低精度に量子化されます．そのため，これらの量子化手法は通常，非常に高速であり，場合によっては，トレーニングデータさえ必要としません．ただし，PTQは，特に低精度の量子化の場合，高精度の低下につながることがよくあります．

これに対処するために，一部の量子化方法では，QATを採用して，量子化後にモデルを再トレーニングし，パラメーターを調整できるようにします．このアプローチでは，多くの場合，精度が高くなりますが，モデルの再トレーニングにかかる時間が長くなります．

もう1つは，シミュレートされた量子化（別名偽の量子化）と整数のみの量子化の適用です．前者では，重み/アクティベーションは低精度で保存されますが，推論中に高精度にキャストされます．後者の場合，キャストは含まれず，乗算と累積も低精度で行われます．整数のみの量子化を使用すると，モデルのメモリフットプリントを削減するだけでなく，乗算と加算に低精度のロジックを使用することで推論を高速化できるという利点があります．

さらにもう1つは，ハードウェア対応の量子化です． NNアーキテクチャの設計と同様に，量子化も特定のハードウェアプラットフォームに合わせて調整できます．これは，混合精度の量子化にとって重要になります．その理由は，NNモデルの特定の操作は，帯域幅に制限されているか計算に制限されているかに基づいて，他の操作よりも低精度の量子化の恩恵を受ける可能性があるためです．そのため，Fig. 9に概略的に示されているように，潜在的なフットプリント/遅延ゲインと精度低下に対する感度の間のトレードオフに基づいて，最適な精度設定を決定する必要があります．

・刈り込みとスパース推論

NNのメモリフットプリントと計算コストを削減する別のアプローチは，プルーニング（刈り込み）を適用することです．これは，0ビットへの量子化と考えることができます．刈り込みでは，顕著性（感度）が小さいニューロンが削除されるため，計算グラフがまばらになります．ここで，顕著性が小さいニューロンは，その除去がモデルの出力/損失関数に最小限の影響を与えるはずのニューロンです．刈り込み方法は，非構造化刈込と構造化刈込に大きく分類できます．非構造化プルーニングは，構造のないニューロンを削除します．このアプローチでは，モデルの一般化パフォーマンスにほとんど影響を与えることなく，ほとんどのNNパラメーターを削除できます．ただし，このアプローチでは，高速化が難しく，通常はメモリに制限されるスパース行列演算が発生します．これは，パラメータのグループ（出力チャネルなど）が削除される構造化刈込で対処できます．ただし，ここでの課題は，高度な構造化刈込がしばしば大幅な精度の低下につながることです．

どちらのアプローチでも，重要な問題は，刈込するパラメーターを見つけることです．単純で一般的なアプローチは，マグニチュードベースの刈込です．このアプローチでは，パラメーターの大きさが刈込メトリックとして使用されます．ここでの前提は，小さなパラメータは重要ではなく，削除できるということです．

マグニチュードベースの刈込方法の重要な問題は，マグニチュードが小さいパラメーターが実際には非常に敏感になる可能性があることです．これは，摂動が重量の大きさだけでなくヘッセ行列にも依存する2次のテイラー級数展開で簡単に確認できます．そのため，2次ベースの刈込を使用するいくつかの研究があります．

最後に，刈込と量子化を組み合わせてNNモデルを圧縮することが可能であることを言及する必要があります．実際，プルーニングは0ビットへの量子化と見なすことができます．量子化を意識した刈込法を提案し，高エネルギー物理学の問題に適用した研究があります．プルーニングまたは量子化のみよりも優れた結果を報告しています．

・知識の蒸留

モデル蒸留は，大きなモデルをトレーニングし，それを教師として使用してコンパクトなモデルをトレーニングします．モデル蒸留の重要なアイデアは，生徒のモデルのトレーニング中にクラスラベルを使用する代わりに，教師が生成したソフト確率を活用することです．これにより，生徒のトレーニングをガイド/支援できます．

知識蒸留の方法は，さまざまな知識源の探索に焦点を合わせています．知識のソースとしてロジット（ソフト確率）を使用する方法，中間層からの知識を活用する方法などがあります．教師モデルの選択もよく研究されており，複数の教師モデルを使用して，生徒モデルを共同で監督する方法，追加の教師モデルなしで自己蒸留を適用する方法などあります．他の取り組みでは，さまざまなアプリケーションでさまざまな設定を使用して知識の蒸留を適用しています．データフリーの知識蒸留の研究，知識蒸留とGANの組み合わせなどです．

知識蒸留法の主な課題は，高い圧縮比を達成することです．通常4倍の圧縮で精度を維持できる量子化と剪定と比較して，知識蒸留法では，これらの圧縮レベルで無視できない精度の低下が見られる傾向があります．しかし，これら2つのアプローチは直交しており，最近の研究では，それらの組み合わせが高精度/圧縮をもたらす可能性があることが示されています．現在の蒸留方法は主に古典的なML問題に適用されており，科学AI問題への適用を検討した研究はほとんどありません．

システム的ニューラルネットワーク設計と学習

現在，特定のタスクおよびトレーニングデータセットに適したNNアーキテクチャを見つけるための分析的アプローチはありません．もともと，NNアーキテクチャの設計は，ほとんどの場合，アドホックである直感を伴う手動タスクでした．ただし，近年，ニューラルアーキテクチャ検索(NAS)と呼ばれるNNアーキテクチャ設計プロセスの自動化に多くの革新がありました．

NASは，ハイパーパラメータ調整の問題と見なすことができます．ハイパーパラメータは，NNアーキテクチャの設計上の選択です．これには，幅，深さ，操作の種類などが含まれる可能性があります．主な課題は，操作の種類の検索スペースがレイヤーの数に応じて指数関数的にスケーリングすることです．そのため，検索スペースを制限するには，NNアーキテクチャに関する高度な直感を含める必要があります．

検索スペースを制限した後の一般的なNASプロセスは，次のとおりです．候補となるアーキテクチャは，考えられるすべてのアーキテクチャのセットからサンプリングされ，トレーニングデータセットのいくつかのエポックに対してトレーニングされます．次に，精度は，その候補アーキテクチャがどれだけ優れているかを評価するためのメトリックとして使用されます．次に，この報酬に基づいて，サンプリングアーキテクチャの確率分布が更新されます．このプロセスは，多くの異なる候補アーキテクチャ（場合によっては数十万を超える）に対して繰り返す必要があります．

本質的に，これは，各候補アーキテクチャの最適化ハイパーパラメータの調整に関連する別の問題につながります．たとえば，優れたアーキテクチャがNASからサンプリングされているが，次善のハイパーパラメータでトレーニングされている場合，エラーは高くなり，NASアルゴリズムは，目的のプロパティではないアーキテクチャをサンプリングする可能性を減らします．

その結果，スケーラビリティは，「ビッグデータ」が存在するあらゆる手順にとって不可欠な関心事になっています．スケーラビリティが不可欠になった手順の1つの主要なクラスは，トレーニング方法の中核である数値最適化アルゴリズムです．効率的な数値最適化/トレーニング方法の設計や，適切なNNアーキテクチャを検索するための効率的なNASアルゴリズムに関する多くの文献があります．

最適化の目標は，収束に必要な反復回数が少なく，ハイパーパラメーターの調整に対してより堅牢な新しいメソッドを設計することです．ここでの注目すべき進歩の1つは，2次演算子を作成する必要なしに2次メソッドを適用できることです．これらの方法のパフォーマンスとロバスト性は，古典的なML問題（コンピュータービジョンや自然言語処理など）での一次最適化方法よりも高いことが示されています．興味深いことに，Physics Informed Neural Networks（PINN)の最近の結果によると，1次の方法は（準）2次の方法よりも大幅に劣っています．これは潜在的に，科学の問題のためにいくつかの二次アルゴリズムを適応または再設計する機会をもたらします．

NASアルゴリズムの場合も同様の目標であり，手動による制限や検索スペースの調整を減らして，評価する候補アーキテクチャの数を減らす必要がある方法を見つけることです．もう1つの目標は，小さな問題についてトレーニングしてから，より高価な大きな問題に転送できる転送可能なNASアルゴリズムを設計することです．

要約すると，NNアーキテクチャの設計の中核は，（NASを介して）アーキテクチャをサンプリングする高速な方法と，（高速で堅牢な最適化を介して）サンプリングされたアーキテクチャの高速トレーニングを行うことです．

ハードウェアアーキテクチャ: 従来のCMOS

機械学習の普及と需要が急速に拡大しているため，機械学習アルゴリズムを効率的に設計し，それらを補完的で強力なハードウェアプラットフォームに同時に展開することがますます重要になっています． NN展開のコンピューティングとメモリの需要は膨大であり，標準のシリコンベースの半導体が拡張できる限界を超えて増大しています．半導体業界におけるスケーラビリティの課題の背後にある理由は次のとおりです．まず，ムーアの法則の終わりに近づくにつれて，テクノロジーノードの縮小に伴うチップ設計コストの上昇によりトランジスタコストが指数関数的に上昇しています（2011年にザイリンクスとガートナーが公開）．さらに，デナード則では，電力密度がノード世代間で一定に保たれなくなったため，かなりの熱的課題に直面しました．熱密度の増加という課題を軽減するために，チップはトランジスタのグループに条件付きで電力を供給し，チップの一部を効果的にスロットリングまたは「オフ」にするように設計されています．この手法は，ダークシリコンの作成として知られるようになりました．

これらの課題を克服し，十分なコンピューティング機能を提供するために，多くの破壊的なアプローチが提案されています．たとえば，Cerebras Systemsは，ウェーハスケール統合を採用した最初のコンピュータシステムを市場に投入しました．チップは，個々のダイではなく完全なウェーハから構築されます．このような技術は，電力供給，パッケージング，および冷却に関して，エンジニアリング上の大きな課題をもたらしました．他の側面を探求し，ファウンドリは，TSMCによってHotChips’2019で発表された真の3Dチップスタッキングを調査しています．アナログコンピューティング，量子コンピューティング，インメモリコンピューティングも調査されています．

リスクの少ないアプローチは，必要なパフォーマンススケーリングとエネルギー効率を提供するためにコンピューティングアーキテクチャの特殊化を使用して，従来のフォンノイマンアーキテクチャから離れることに焦点を当てています．特殊化により，デバイスはますます異質になります．さまざまな方法でこの問題に対処しようとするさまざまなデバイスが登場しました．そのための重要な課題は，リアルタイムの要件を満たしながら，データの再利用と計算効率を最大化し，メモリのボトルネックを最小化し，消費電力を制限するために，アルゴリズムをループ変換して展開する方法です．

ハードウェアの種類と量の選択は，多くの場合，コンピューティング環境，ワークロードの種類，データの種類によって課せられる一連の制約に要約されます．さまざまなタイプのワークロードを処理する大規模なデータセンター展開の場合，すべてのハードウェアプラットフォームで総所有コスト（ToC）を削減するために，複数のプラットフォームを組み合わせる必要がある場合がよくあります．したがって，異種プラットフォームの所有者は，システムを大規模なマルチプロセッサコンピュータと考えることがますます必要になっています．この傾向は，倉庫スケールコンピューティングと呼ばれることもあります．Deep Learningハードウェアアクセラレータの場合，これらの新しいコンピュータは通常，CPUコプロセッサの形式を取ります．

・深層学習向けのコンピューターアーキテクチャーの分類

現在，機械学習アルゴリズムを導入するための幅広いハードウェアアーキテクチャが存在します．以下の基準で大まかに分類できます．

計算操作の基本的なタイプ
特定の数値表現の固有のサポート
外部メモリ容量（主にトレーニングワークロードに関連します）
外部メモリアクセス帯域幅
熱設計電力（TDP）形式の消費電力
アーキテクチャの並列性のレベルと専門性の程度

Fig. 10に示すように，実際には，コンピューティングアーキテクチャをスカラープロセッサ（CPU），ベクトルベースプロセッサ（GPU），およびいわゆる深層学習処理ユニット（DPU）に分類します．

これらのカテゴリはある程度混ざり合っています． DPUはこのアプリケーションドメインに特化しており，より一般的なマトリックスベースまたはテンソルベースのプロセッサと空間処理アプローチを区別します． DPUは，ASICまたはFPGAのいずれかで実装できます．

・CPU

CPUはMLアプリケーションに広く使用されており，主にシリアルまたはスカラーのコンピューティングエンジンと見なされています．これらは，暗黙的に管理されるメモリ階層（複数レベルのキャッシュを使用）を使用してシングルスレッドパフォーマンス用に最適化され，浮動小数点演算（FP64およびFP32）と，最新のバリアントの専用ベクトルユニットを使用した8ビットおよび16ビット整数形式をサポートします．ブーストクロック速度（カスケードレイク，56コア，3.8GHz）を想定した場合，FP64の理論上のピークパフォーマンスは6.8TOPで最高になります．外部メモリは現在，主に大容量のDDR4メモリバンクを活用しています．GPUやその他のHBM対応デバイスと比較して，CPUのメモリ帯域幅は低くなっています．消費電力に関しては，CPUはスペクトルの上限にあり，ハイエンドデバイスの範囲は最大400Wです．組み込み分野では，ARMプロセッサは，特にパフォーマンス要件が非常に低い場合や，特殊なデバイスバリアントでサポートされていない機能が必要な場合に，一般的に人気のあるソリューションを提供します．特に，Ethos ファミリーのプロセッシングコアはCNNワークロードに特化しているため，以下のDPUカテゴリに分類されます． CPUの利点は，ハードウェアの一般性と，設計環境が数十年にわたって成熟したプログラミングの容易さです．予想どおり，これには，より特殊なデバイスファミリと比較して，ピークパフォーマンスと効率が低下するという犠牲が伴います．量子化に関しては，CPUは，サポートされている場合にのみ，INT8およびINT16に対してこの最適化手法を活用できます．

・GPU

GPUは，SIMDベース（単精度，複数データ）のベクトルプロセッサであり，より小さな浮動小数点形式（FP16）と，最近では固定小数点の8ビットおよび4ビット整数形式をサポートし，暗黙的および明示的に混在しています．ますます特殊化されたアーキテクチャ機能を介してこのアプリケーションに固有の高度な並列処理を活用できるため，DNNの高速化に関して市場で最もパフォーマンスの高いデバイスの1つです．現在，最大3つの異なる実行ユニット，つまりCUDAコア，テンソルコア，DLAがあり，これらは同時にワークロードで動作しません（少なくとも簡単にまたはデフォルトでは）．したがって，さまざまな実行ユニットのピークパフォーマンスを合計するのではなく，最大のパフォーマンスのみを使用します．

メモリに関しては，GPUは特殊で高度にパイプライン化されたGDDRメモリを活用します．これにより，容量は削減されますが，はるかに高い帯域幅（最大732GBps）が提供されます．同じ理由で，一部のDPUはHBM2も導入します．消費電力に関しては，GPUは最大345Wと高くなっています．

GPUの一般的な課題の1つは，入力の並列処理を活用して，大規模なコンピューティングアレイの高い使用率を実現する必要があることです．したがって，実行前に入力をバッチにグループ化する必要があります．これは，終了レイテンシに悪影響を及ぼします．さらに，GPUは消費電力が比較的高くなります．量子化に関しては，サポートは固有のデータ型に限定されています．最後に，GPUに対応するソフトウェア環境は，CPUと同じレベルではありませんが，大幅に成熟しており，使いやすさが向上しています．

・FPGAとASIC

FPGAとASICは，特定のアプリケーションの仕様に合わせてハードウェアアーキテクチャをカスタマイズします．これらは，ユースケースの特定の要件に合わせてあらゆる面で適応させることができます．これには，IO機能，機能，または特定のパフォーマンスや効率の目標に合わせたものが含まれます． ASICは完全にハード固定されているのに対し．FPGAは再プログラムできます．この柔軟性により，多くのアプリケーションで回路の設計コストを償却できますが，ハードウェアリソースのコストとパフォーマンスが犠牲になります．

FPGAは，CNNの高速化によく使用される選択肢です．従来，FPGAコンピューティングファブリックは，プログラム可能なインターコネクトを介して相互接続されたルックアップテーブル（LUT）の海で構成されていました．

・DPU

DPU（深層学習処理ユニットの略）という用語は，CNNの高速化に特化した新しいタイプのコンピューティングアーキテクチャを指します． DPUは，サポートされる操作のタイプ，テンサーまたはマトリックスの直接サポート，固有のデータタイプとサポートされる数値表現，マクロアーキテクチャ，明示的に管理された特殊なメモリ階層，および並列処理のレベルなど，さまざまな方法でこれらのタイプのアプリケーション用にカスタマイズされます．

・Matrix of Processing Elements (MPE)

Fig. 11の左側に示されているように，最初のタイプは，行列または高次元テンソルで動作するMPEで構成されています．処理エンジンは，単純なMAC，ベクトルプロセッサ，またはさまざまな命令の同時実行をサポートできるより複雑なVLIW（Very Long Instruction Word）コアにすることができます．

これらの実装は，特殊化により，専用の命令セットとカスタマイズされたメモリシステムを使用して特定の高精度演算を活用することにより，ハードウェアコストを最小限に抑え，パフォーマンスを最大化し，効率を最適化します．ただし，パフォーマンス上の利点を得るには，これらの機能を活用するようにアルゴリズムを適合させる必要があります．

・空間DPU

2番目のタイプのDPUは，空間アクセラレーションを活用し，レイヤーとブランチの並列処理を活用します．人気のある例は，hls4ml とFINN です．その点で，ハードウェアアーキテクチャは，特定の深層学習トポロジの詳細にさらに特化しています．これは，Fig. 11の右側に視覚化されています．ハードウェアアーキテクチャは，実際には特定のディープラーニングトポロジを模倣しており，入力はアーキテクチャを介してストリーミングされます．すべてのレイヤーは，専用の計算データパスでインスタンス化されます．各レイヤーには専用のウェイトバッファーがあり，レイヤー間のアクティベーションバッファーは最小サイズのFIFOです．それらは，次の層の次の畳み込みのセットを供給するのに十分なデータをバッファリングします．これは，最初のタイプのDPUまたはGPUと比較して大幅に効率的であり，遅延が減少します．

DPUとGPUは通常，レイヤーごとの計算を実行します．この場合，プラットフォームから最大の計算（入力，IFM，およびOFMの並列処理）を抽出するために，一連の画像をバッファリングする必要があります．このため，デバイスは，すべての画像の最初のレイヤーを計算する前に，画像のバッチをバッファリングします．次に，すべての中間結果がバッファリングされ，次のレイヤーが計算されます．したがって，レイテンシーは入力バッチのサイズに大きく依存します．その結果，空間DPUには遅延に関して利点があります．このレベルのカスタマイズは，FPGAなどのプログラム可能なハードウェアアーキテクチャでのみ可能です．これは，FPGAがさまざまなユースケースにハードウェアアーキテクチャを適応させることができるためです．これは，ASICアクセラレータのコンテキストでは一般的に意味がありません．これは，1つの特定のトポロジのみを高速化できるASICを生成するため，範囲が非常に制限されます．空間アーキテクチャの制限は，レイヤー数のスケーラビリティです．各レイヤーにはリソースコストのオーバーヘッドがあり，単一のデバイス内に作成できるレイヤーの最大数があります．その結果，一部の非常に深いCNNは単一のデバイスに適合できない場合があります． MicrosoftのBrainwaveプロジェクトは，空間コンピューティングを活用し，分散型アプローチでこの制限を克服します．

空間DPUが活用され，アーキテクチャが非常に特定のCNNに特化されると，最小精度に関してアーキテクチャをさらにカスタマイズできます． CNNのレイヤーごとに必要なビットのみをサポートすることで，さらに高いパフォーマンスと効率を実現できます．MPEでは，ハードウェアはネットワーク全体で必要とされる最高の精度をサポートします．

カスタマイズされた精度と空間アーキテクチャに関して，FINNは最初の2値化ニューラルネットワークアクセラレータを開拓し，カスタマイズされた低精度の実装に多くの証明ポイントを提供しました．この柔軟性には，プログラミングの複雑さという形でコストがかかり，パフォーマンス特性は実装されているハードウェアアーキテクチャの詳細に依存するため，一般に特性を明らかにすることは非常に困難です．

・さらなるDPUのバリエーション

前述の空間DPUとMPE以外にも，さらに多くのバリエーションがあります．たとえば，EIEとその後継のESE，SCNN ，Cnvlutin，Cambricon-S，Cambricon-Xなど，スパースコンピューティングエンジンを悪用するものもあります．これらは，不規則なスパース性の恩恵を受けることができる唯一のアーキテクチャです．最後に，精度をカスタマイズするためのもう1つの側面は，CNNの実行時または実行時に最適化することです．言い換えると，ハードウェアがすべての変数に対して固定精度で動作する静的に固定された低精度を使用する以外に，一部のアプローチでは，算術演算でビット並列性を活用できる実行時の構成可能なビット精度を検討します．ハードウェア実装側では，彼は実行時にプログラム可能な精度で利用でき，ビットシリアル実装で効果的です．たとえば，Umuroglu らはビットシリアルがFPGAのオーバーヘッドを最小限に抑えて非常に魅力的なパフォーマンスを提供できることをBISMOで実証し，Judd etal． Stripesと呼ばれるプロトタイプASICを備えたASICにも同じことが当てはまることを示します．この概念はMPEと空間アーキテクチャの両方に適用できますが，MPEにとって最も理にかなっています．

・従来CMOSハードウェアアーキテクチャのまとめ

CNN推論に利用されるハードウェアアーキテクチャの3つのカテゴリ，つまり，一般的なCPU，GPUなどのSIMDベースのベクトルプロセッサ，および深層学習ワークロードの高速化に特化したアーキテクチャであるDPUを分析しました．アーキテクチャの概要をTable 4に示します．

「使いやすさ」には，計算カーネルのプログラマビリティと一般的な使いやすさが含まれることに注意してください．専門性の程度には，演算子，精度のサポート，およびトポロジに対するカスタマイズが含まれます．要約すると，DPUの場合，処理エンジンのマトリックスを活用するテンソルプロセッサと，FPGAを使用して特定のトポロジにさらに特化できる空間アーキテクチャを区別します．

CPUは最も一般的なソリューションですが，高出力です． GPUとDPUは最高のパフォーマンスを提供しますが，GPUはエネルギーコストがより高価です．空間DPUアーキテクチャは，低レイテンシで優れており，最大限のカスタマイズを通じて最高の計算効率を提供します． CPU，GPU，およびDPU（MPE）は，順次レイヤーごとの計算モデルを使用しますが，空間DPUはネットワークのすべてのレイヤーを同時に実行します． ASIC，CPU，GPUの形式の強化されたトポロジは，ネイティブデータタイプの固定セットを提供しますが，FPGAは，最大限の柔軟性を提供し，量子化による最適化を最大限に活用する任意の精度と数値表現を採用できますが，強化されたアプローチは，デフォルトで次にサポートされる精度が高くなり，精度の低い変数を埋め込むことができます．

ただし，FPGAファブリックのプログラム可能性には，速度とエネルギーのコストも伴います．すべてのアーキテクチャは，粗粒度のプルーニング最適化手法の恩恵を受けることができます．シナプス刈り込みなどの不規則な剪定の恩恵を受けることができるのは，まばらな実行エンジンだけです．また，さまざまな展開オプションについても説明しました．多くのデバイスは，異なるアプリケーション設定の潜在的に非常に異なる最適化ターゲットに適応するために，スループットと消費電力の間の異なる妥協点として，異なる電力と動作モードを提供します．

同様に，バッチサイズ，スレッド数，およびストリームサイズは，スループットとレイテンシーに関して別の妥協点を提供します．繰り返しますが，これはさまざまなユースケースを促進するためです．最後に，この表は，Cerebrasなどの投機的アプローチが基本的なパフォーマンスのスケーラビリティをもたらす可能性があることを示しています．全体として，各アプローチには独自の長所と短所があり，最適なソリューションは特定のユースケースの詳細に大きく依存します．

ハードウェア/ソフトウェアのコードデザイン例：FPGAベースのシステム

・FPGAプログラミング

FPGAは構成可能な集積回路であり，パフォーマンス，消費電力，および他のハードウェアパラダイムに対する柔軟性の点で優れたトレードオフを提供します．ただし，FPGAをプログラムするのは困難で時間のかかる作業です． FPGAプログラミングは，従来，デジタルデザインとコンピュータアーキテクチャに精通したハードウェア設計者の仕事でした．これらの要件は，ソフトウェア開発者や他のドメインの専門家にとって急な学習曲線につながります．参入障壁を下げるために，より高いレベルの抽象化でFPGAハードウェアを設計することにますます焦点が当てられています．その結果，さまざまなアプローチにより，開発者はC，C ++，OpenCL，場合によってはC＃などの使い慣れた言語を使用してFPGAをより高いレベルで設計できるようになり，FPGA開発が主流になりました．ここで重要な質問が発生します．より高いレベルの抽象化でハードウェアを設計することの追加の利点は何ですか？高水準言語（HLL）には，より機能的に表現力のあるさまざまな構造とデザインパターンが含まれています．さらに，設計の検証に費やされる時間も重要な要素です． VerilogやVHDLなどのハードウェア記述言語は，最終的な実装の詳細に重点を置いているため，より冗長です．より大きなコードリポジトリは，機能の正当性を検証するのは簡単ではありません．一方，HLLはよりコンパクトで，シミュレーションが高速です．したがって，設計者は同じ期間でより多くの検証を行うことができます．これらの進歩にもかかわらず，FPGAプログラミングは依然として複雑です．これにより，学界と産業界は，ハードウェア設計を容易にするための新しいコンパイラ，フレームワーク，およびライブラリを開発することを余儀なくされました．

・高位合成と言語

高位合成（HLS）は，動作合成またはアルゴリズム合成とも呼ばれ，設計の機能記述を入力として受け取り，RTL実装を出力する自動化された設計プロセスです．これは，タイミングのない（または部分的にタイミングのとれた）高レベルの仕様を完全なタイミングの実装に変換します． HLSのプロセスは，機能記述のさまざまな操作間のデータ依存関係を分析することから始まります．この分析により，データフローグラフ（DFG）表現が得られます． DFGの生成後，割り当てフェーズ中に，HLSは各操作を遅延とエリア特性を備えたハードウェアリソースにマッピングします．次に，HLSは，スケジューリングフェーズ中に時間の概念を設計に追加します．スケジューリングは，DFGの操作とリソースを取得し，遅延情報を考慮して，それらを実行するクロックサイクルを決定します．このステップでは，操作間にレジスタを追加し，有限状態マシンを作成することにより，シーケンシャルロジックを推測します．

過去30年間で，多くのHLSツールが提案されてきました．ツールにはさまざまな入力言語があり，同じ入力言語であっても，さまざまな内部最適化を実行し，さまざまな品質の結果を生成します．結果は，設計者がベンチマーク固有の最適化と制約を習得すると，各HLSツールがパフォーマンスを大幅に向上できることを示しています．ただし，アカデミックHLSツールは，使いやすさにあまり重点が置かれていないため，学習曲線が高くなります．市販のHLSツールには，ドキュメント，堅牢性，および設計検証の統合が優れているため，利点があります．

HLSの入力言語に関しては，ほとんどのHLLはC言語の変型です．ただし，純粋なC仕様からハードウェアを生成するにはいくつかの制限があります．まず，Cにはタイミングと並行性の概念がありません．設計者は，クロックベースのタイミングを作成するためにHLSツールに依存する必要があります．同様に，設計者は並行性モデルを指定するか，HLSに依存して操作またはプロセス間の並列処理を抽出する必要があります．第二に，Cにはビット精度のデータ型がありません．サイズがバイトの倍数であるchar，int，longなどの「ネイティブ」データ型のみを提供します．第三に，ハードウェアインターフェイスと通信チャネルの概念が欠けています． SystemCは，これらすべての制限に対処するためにHLS言語として採用されました．

ただし，SystemCはまだFPGAコミュニティに完全には浸透していません． SystemCを含むすべてのCベースの言語に共通するもう1つの問題は，メモリアクセスとモデリングです．これらの言語にはフラットメモリモデルがあり，メモリアクセスはポインタを介して行われます． HLSがメモリをハードウェアに実装する方法を決定するか，設計者が追加のHLSディレクティブまたはライブラリを利用してメモリサブシステムを適切にモデル化する必要があります．最後に，HLS用のCベースの仕様言語のファミリーでは，SYCL言語が登場しています． SYCL（シックルと発音）は，C ++に並列処理を追加して異種システムを設計する，業界主導の標準です． SYCLプログラムは，オープンソースのデータ並列C ++（DPC ++）コンパイラなどのSYCL対応C ++コンパイラと組み合わせると最高のパフォーマンスを発揮します．

Cのバリエーションとは別に，Bluespecは，SystemVerilogに基づくハードウェアの記述と合成のためのオープンソース言語です．アーキテクチャの側面を強調するクリーンなセマンティクスを備えた抽象化のレベルを提供します．これは，モジュールがSystemVerilog構文を使用してルールとして実装される高レベルの機能HDLと見なすことができます．これらのルールは保護されたアトミックアクションと呼ばれ，同時に協調する有限状態マシン（FSM）として動作を表現します． FPGA設計者の間のもう1つの最近の言語は，チゼルです．これはScalaに基づいており，高度にパラメーター化されたジェネレーター，オブジェクト指向および関数型プログラミングを使用したハードウェア定義をサポートします． HLSフローと同様に，RTLVerilog実装にコンパイルされます．

これらの言語はすべて，効率的なハードウェアの作成と開発時間の大幅な短縮に役立っていますが，それでも特定のコーディング手法が必要です．また，アプリケーションドメインの成長と多様化は，これらのプログラミング言語の限界を示しています．これにより，抽象化のレベルがドメイン固有言語（DSL）にさらに押し上げられました．近年，FPGAデザイン用のDSLとフレームワークのかなりのコーパスの成長を観察しています． DSLベースのアプローチでは，ユーザーとツールはドメイン知識を使用して静的および動的な最適化を適用できます．ただし，ドメイン固有のHLSツールには，ターゲットドメインに対応する適切なコンパイラと開発環境が必要です．Table 5は，アプリケーションのドメインごとに編成されたFPGAコンピューティング用に長年にわたって開発されたDSLとフレームワークの一部を示しています．表のすべてのアプローチはアプリケーションの点で多様ですが，興味深い質問は，一般的な分母は何ですか？私たちの知る限り，ほとんどのアプローチは，DSL仕様がRTL実装に直接コンパイルされるか，ソース間コンパイラーを利用するかの2つのアプローチに広く基づいています．後者の場合，DSLコンパイラは，より標準的なHLSフローのために，C ++などの異なるプログラミング言語で同等のソースコードを生成します．この段落の最後の結論として，より優れたHLSコンパイラと言語を設計するための取り組みは，現在のFPGA研究の重要な部分です．

・ソフトとハードのインテグレーション

マイクロプロセッサ上でソフトウェアとしてアプリケーションを実行することは，専用のハードウェアを設計して実行するよりもアクセスしやすくなりますが，パフォーマンスが低下し，電力コストが高くなる可能性があります．一方，アプリケーションをソフトウェアコンポーネントとハードウェアコンポーネントに分割することは困難です．このプロセスは，ハードウェア/ソフトウェアコードサインとも呼ばれ，マイクロプロセッサで実行されているソフトウェアと1つ以上のカスタムハードウェアまたはコプロセッサコンポーネントの間でアプリケーションを分割して，目的のパフォーマンス目標を達成します．

当然のことながら，この分野には多くの研究があります．古いFPGAテクノロジの注目すべき側面に関する背景情報の提供と，同時にコードサインの基本的なアーキテクチャと設計方法についての説明．さらに，最先端のCPU-FPGAプラットフォームのマイクロアーキテクチャ特性を詳細に評価および分析することを目的とした別の包括的な研究です．ほとんどの共有メモリプラットフォームと詳細なベンチマークについて説明されたホワイトペーパーもあります．

ザイリンクスとインテルの2つの主要なFPGAベンダーには，独自のソリューションがあります．ザイリンクスランタイムライブラリ（XRT）は，ユーザースペースとカーネルドライバコンポーネントの組み合わせとして実装されています． PCIeベースのボードとMPSoCベースの組み込みプラットフォームの両方をサポートします．同様に，ザイリンクスSDSoc およびSDAccelは，2015年後半に一般公開されました．前者はFPGAのZynqファミリの選択されたボードでのみ機能し，後者はOpenCLコンピューティング用の選択されたPCIeベースのボードでのみ機能します． 2020年以降，ザイリンクスは統合プラットフォームとしてVitisを導入しました． Vitis Unified Software Platformは，オンプレミスのAlveoカード，クラウド内のFPGAインスタンス，組み込みプラットフォームなど，ザイリンクスプラットフォーム上で高速化されたアプリケーションを構築し，シームレスに展開するための包括的な開発環境です．さらに，フラッグシップVersalの下でのザイリンクスの最近の取り組みも，コードサインアプリケーションへの一歩です． Intelには，FPGAアクセラレーションを活用するホストアプリケーションを作成するプログラマー向けのAPIライブラリであるOpen Programmable Acceleration Engine（OPAE）があります．同様に，Intel oneAPIは，CPU，GPU，FPGA，およびその他のアクセラレーター全体でのデータ中心のワークロードの開発と展開を簡素化するために，標準に基づいて構築されたオープンで統合されたプログラミングモデルです．

ベンダーソリューションとは別に，アカデミアとオープンソースコミュニティは，アプリケーション，オペレーティングシステム，およびハードウェアアクセラレーションの統合を簡素化することも試みました．オペレーティングシステムに再構成可能なコンピューティングの側面を含めるためのアイデアと主要な概念に関する歴史的なレビューと要約がまとめられています．また，再構成可能コンピューティングを対象とした過去30年間に公開され利用可能なオペレーティングシステムの概要も示します．同様に，複数の物理インターフェイス（PCIe，イーサネット，光リンク）間で移植可能なFPGAドライバーの設計調査とエンジニアリングは，HW / SWコードサイン研究の重要な部分であり続けています．課題は，さまざまなFPGAボード，多数のインターフェイス，および多様なユーザー要件に起因します．基本的に，FPGAドライバーは，設計者がアプリケーションビットストリームをロードまたは再構成し，FPGAとホスト間のデータ転送をサポートできるようにする必要があります．

エンジニアリング上の重要な課題は，ハードウェアコンポーネントとソフトウェアコンポーネントの間でドライバー機能を分割する方法を検討することです．成長している研究の焦点の1つは，FPGAドライバーに複数のキューを実装することです． FPGAドメインのシステムレベルのドライバーに関するさまざまな主流のアカデミックおよびベンダーソリューションのベンチマークも提供されています．

さまざまな既存のOSおよびドライバーソリューションにもかかわらず，残っている未解決の問題は標準化です．業界全体の標準化により，開発の迅速化と移植性の向上，およびFPGAアプリケーションの（再）使用性が可能になります．この分野ではすでに進行中の作業があります． CCIXコンソーシアムやHeterogeneousSystem Architecture（HSA）Foundationなどの標準は，すでに順調に進歩しています．

・FPGA設計用のMLフレームワークのケース

機械学習は最も急速に成長しているアプリケーションドメインの1つであり，FPGAは，精度の低い算術，ストリーミングを活用してハードウェア設計を大幅にカスタマイズすることで，レイテンシ，スループット，および効率の要件を達成できるため，FPGAベースの実装に対する需要が高まっています．データフローの実装（空間アーキテクチャとして導入されたもの），およびきめ細かいスパース性．これらのカスタマイズで幅広いユーザーを可能にし，エンジニアリングの多大な労力を削減するには，FPGAを使用するML研究者やドメインエキスパートのニーズに応えるコンパイラとツールが必要です． hls4mlとFINNという2つの主要なMLフレームワークがこの空白を埋めるために努力しています．前述のツール，コンパイラ，プログラミング言語，およびコードサインソリューションを考慮すると，hls4mlとFINNはどちらも，より広範な科学コミュニティに到達する可能性があります．このようなツールフローがどのように機能するかをよりよく理解するために，次の段落でFINNコンパイラについて詳しく検討します．

FINNコンパイラは，FPGA上で空間DPUまたはストリーミングデータフローアクセラレータを生成するためのオープンソースフレームワークです． FINNコンパイラは，Fig 12に示すように，高度にモジュール化された構造を持っています．

ユーザーが特定のDNNに特化したアーキテクチャをインタラクティブに生成できるようにします．このフレームワークは，フロントエンド，変換と分析のパス，およびリソースとスループットの制約の観点から設計スペースを探索するための複数のバックエンドを提供します．量子化対応トレーニング用のPyTorchライブラリであるBrevitas は，この作業で使用されるフロントエンドです．これにより，数ビットに量子化された重みとアクティベーションを使用してDNNをトレーニングし，トレーニングされたネットワークをFINNコンパイラで使用される中間表現（IR）にエクスポートできます．変換と分析のパスは，DNNの効率的な表現を生成するのに役立ちます．最後に，バックエンドには，合成可能なアクセラレータディスクリプションを作成するコードジェネレータが含まれています．このコードジェネレータは，スタンドアロンのVivado IPIコンポーネントとして実装することも，ザイリンクスAlveoボードやPYNQエンベデッドプラットフォームなどのさまざまなシェルに統合することもできます．

さらに処理するには，最初にDNNモデルをFINNコンパイラのIRに変換する必要があります．フロントエンドステージは，PyTorchの説明をFINN-ONNXと呼ばれるIRに変換することでこれを処理します．

このIRは，DNNを表すためにprotobuf記述を使用するオープンソース交換フォーマットであるONNX に基づいています．いくつかの標準演算子が付属しており，ユーザーは独自の演算子を簡単に作成してモデルをカスタマイズできます．ノードはレイヤーを表し，エッジは1つのレイヤーからの出力を運び，別のレイヤーへの入力になります． ONNX表現をカスタマイズする機能は，アプリケーション固有のノードと属性を追加するためにフレームワークで使用されます．各ノードは，入力，パラメーター（重みとアクティブ化），および出力の量子化でタグ付けされ，量子化対応の最適化と，量子化された計算用に最適化されたバックエンドプリミティブへのマッピングを可能にします．コンパイラフロー中に，ノードは一連の変換パスを介してバックエンド固有のバリアントに変換されます．

FINNコンパイラの主な原理は，モデルのIRを変更または分析するグラフ変換と分析パスです．パスは，IRグラフを入力として受け取り，（a）DNNは，特定のパターンを探し，特定の方法でグラフを変更して変更されたグラフを出力するか，（b）DNNを分析してそのプロパティに関するメタデータを生成します．モデルを表現に変換し，そこからコードを生成し，最終的にハードウェアアクセラレータを生成するには，さまざまな変換を適用する必要があります．関連する主な変換を以下に要約します．

ネットワークのPyTorch記述はほとんど量子化されていますが，それでも，たとえば，再処理，チャネルごとのスケーリング，またはバッチノルムレイヤー．モデルからハードウェアアクセラレータを生成するには，これらの浮動小数点演算をマルチレベルのしきい値に吸収して，機能的に同一の整数演算のネットワークを作成する必要があります．これを達成するための変換は，Umuroglu and Jahreによって説明されているように，合理化と呼ばれます．合理化中に，浮動小数点演算は互いに隣接して移動され，単一の演算に折りたたまれ，後続のマルチしきい値ノードに吸収されます．

次に，グラフの高レベルの操作は，FINNHLSベースのハードウェアライブラリに存在するより単純な実装に下げられます．たとえば，畳み込みはスライディングウィンドウノードとそれに続く行列ベクトルノードに下げられますが，プーリング操作はスライディングウィンドウとそれに続く集計演算子によって実装されます．結果のグラフは，ハードウェアビルディングブロックに相当するものに変換できるレイヤーで構成されます．各ノードはVivadoHLS C ++関数呼び出しに対応し，そこからIPが使用されます．

レイヤごとのブロックは，Vivadoを使用して生成できます．各ハードウェアビルディングブロックで使用されるリソースは，FINNからVivadoに渡される特定の属性を介して制御できます．たとえば，乗算はLUTまたはDSPブロックを使用して実行でき，パラメータは分散RAM，ブロックRAM，またはウルトラRAMに保存できます．

最後に，フォールディングプロセスでは，各レイヤーにコンピューティングリソースを割り当て，並列度を微調整することで，バランスの取れたパイプラインで目的のスループットを実現します．再構成せずにレイヤーごとの特殊化を有効にし，遅延を最小限に抑えるために，FINNはFIFOチャネルと相互接続された専用のレイヤーごとのハードウェアを作成します．したがって，Lレイヤー間の最も外側のループは常に完全にパイプライン化されます．フォールディングを指定すると，ノードごとにリソース見積もりを作成できます．リソースを見積もるにはいくつかの方法があります． HLSレイヤーからIPブロックが生成される前でも，FINN-Rペーパーの概念に基づく分析モデルを使用して，レイヤーごとのリソースを見積もることができます． IP生成後にVivadoHLSから見積もりを抽出することもできますが，これらの結果は，合成の最適化により，最終的な実装のリソース使用量とは異なる可能性がある見積もりです．

バックエンドは，IRグラフとバックエンド固有の情報を使用して，展開パッケージを作成する責任があります．これも変換の概念を使用して実装されます．推論アクセラレーターを取得するために，レイヤー間にFIFOが挿入されます．これは，FINNコンパイラーによって自動的にサイズ設定できます．その後，単一のIPブロックがつなぎ合わされて合成されます．ステッチされたIPは，手動でシステムに統合することも，ターゲットプラットフォームの適切なシェルに挿入することもできます．ターゲットプラットフォームがAlveoカードの場合，デザインはVivadoデザインチェックポイント（DCP）としてエクスポートされ，続いてザイリンクスVitisオブジェクトファイルが生成されてリンクされます．

・ハード／ソフト共設計とFPGAベースシステムのまとめ

要約すると，CPUはCNN推論の最も一般的なソリューションですが，高出力です． GPUとDPUは最高のパフォーマンスを提供するため，GPUはエネルギーコストの点でより高価です． FPGAは，急速に変化するアプリケーションドメインにうまく適合する可能性のあるいくつかのトレードオフを提供します． FPGAは任意の精度と数値表現を採用できます．これにより，最大限の柔軟性が提供され，量子化による最適化が最大限に活用されます．一方，強化されたアプローチでは，デフォルトでサポートされる精度が高くなり，精度の低い変数を埋め込むことができます．さらに，空間データフローアプローチにより，はるかに低いレイテンシを実現できます．ただし，FPGAのプログラミングは複雑であるため，展開が制限されます．

hls4mlやFINNなどのツールは，MLドメイン用に特別に作成されたフレームワークであり，エンドユーザーのハードウェア生成プロセスを自動化することで，FPGAの関連する設計の複雑さを隠し，前述のエンドアプリケーションで使用できるようにします．

Beyond-CMOS ニューロモルフィックハードウェア

急速に成長している機械学習アプリケーションでは，効率的なハードウェア実装が急務となっています．取り組みのほとんどは，実装などのデジタルCMOSテクノロジーに焦点を当てています．

汎用TPU / GPU，FPGA，およびより特殊なMLハードウェアアクセラレータに基づいています．過去10年間のこのようなハードウェアプラットフォームのパフォーマンスとエネルギー効率の着実な改善は，非常に高度なサブ10 nm CMOSプロセスの使用と，回路，アーキテクチャ，およびアルゴリズムの全体的な最適化に起因しています．これには，たとえば，積極的な電圧供給スケーリング，非常に深いパイプライン，アーキテクチャでの広範なデータ再利用の利用，重みの精度の低下とアルゴリズムのアクティブ化が含まれます．その結果，3.4Mのパラメータに基づくMobileNetや推論ごとの300Mの乗算と加算の操作など，非常にコンパクトな最先端のニューラルネットワークを完全に1つのチップに組み込むことができるようになりました．しかし，これらすべての面で，進歩は飽和状態にあり，ムーアの法則の衰退に頼ることはできません．

一方，MLアルゴリズムはますます複雑になっているため，さらなる進歩が不可欠です．たとえば，今日の多くのMLタスクの最先端のアプローチであるトランスフォーマーネットワークは，数千億のパラメーターを持ち，推論ごとに数百兆の操作を実行できます．さらに，トランスの機能性能は通常，モデルサイズで向上します．このようなモデルのトレーニングには，膨大なデータセンター規模（キロTPU年など）のリソースが必要ですが，リソースに制約のあるエッジデバイスで推論を実行することは非常に困難です．

より効率的なハードウェアを構築する機会は，生物学的ニューラルネットワークからもたらされる可能性があります．確かに，最大のトランスネットワークの重みよりも1000倍以上多くのシナプスを持つ人間の脳は非常にエネルギー効率が高く，ニューロモルフィックハードウェアを開発する一般的な動機として機能すると考えられています． CMOSニューロモルフィック回路には長い歴史があります．ただし，ニューロモルフィックコンピューティングの可能性を最大限に引き出すには，生物学的神経システムのさまざまな機能のより効率的な実装を可能にする，CMOSを超えた新しいデバイスおよび回路技術が必要になる場合があります．

・Analog Vector-by-Matrix Multiplication

過去20年間の高密度アナロググレードの不揮発性メモリの出現により，ベクトルごとの乗算（VMM）のアナログ回路実装への関心が新たになりました．トレーニングまたは推論におけるニューラルネットワークの最も一般的で頻繁に実行される操作．最も単純なケースでは，このような回路は，マトリックス（シナプス）の重みをエンコードするための構成可能な抵抗として機能するメモリセルのマトリックスと，ニューロンの役割を果たす周辺センスアンプで構成されます（Fig 13）．入力ベクトルは，メモリマトリックスの行に印加される電圧としてエンコードされるため，仮想的に接地された列に流れる電流はVMMの結果に対応します．加算と乗算はそれぞれキルヒホッフの法則とオームの法則を介して物理レベルで実行されるため，メモリデバイスが高密度でコンダクタンスが調整可能（つまり，マルチステート）であれば，このようなアプローチは非常に高速でエネルギー効率が高くなります．エネルギー効率の一部は，計算中にチップを横切って，またはチップから出入りするデータの量（シナプスの重みに対応）を減らす「メモリ内」計算を実行することから得られます．このような通信オーバーヘッドは，最先端のデジタルCMOS実装のエネルギー消費を支配する可能性があります．

このような回路の実用化に向けた一般的な課題は，特に最も有望な新しいメモリ技術を使用する場合，メモリ状態を変更するために適用されるスイッチング電圧などのI-V特性の変動です．この課題に照らして，最も簡単なアプリケーションは，初期の発火率ニューラルネットワーク，つまり，段階的応答ニューロンを備えたいわゆる第2世代の人工ニューラルネットワーク（ANN）用の生息域外で訓練された推論アクセラレータです．このようなアプリケーションでは，新しい推論機能をプログラムする必要がある場合にのみ，メモリデバイスが頻繁に更新されません．

したがって，クロスポイントデバイスのコンダクタンスは，デバイスのバリエーションの書き込みスキームに対して，より低速でより耐性のあるもので調整できます．たとえば，ソフトウェアで重みが検出された後，各デバイスの固有のI-V特性に適応できるフィードバック書き込み検証アルゴリズムを使用して，メモリセルが1つずつプログラムされます．同じ理由で，スイッチング耐久性，つまりメモリデバイスを確実にプログラムできる回数，および書き込み速度/エネルギーはそれほど重要ではありません．さらに，多くのニューラルネットワークの推論におけるVMM操作は，精度を損なうことなく，中程度の8ビット未満の精度で実行できます．これにより，アナログプロパティの要件がさらに緩和され，I-Vの非理想性とノイズが増加します．

最も高度なニューロモルフィック推論回路は，より成熟したフローティングゲートトランジスタメモリ回路で実証されています．最近まで，このような回路は主に「シナプストランジスタ」で実装され，標準のCMOSテクノロジを使用して製造でき，いくつかの洗練された効率的なシステムが実証されました．ただし，これらのデバイスの面積は比較的大きく（> 103 F2，Fは最小フィーチャサイズ），相互接続容量が大きくなるため，時間遅延が大きくなります．最近の研究は，アナログコンピューティングアプリケーション用に再設計された，はるかに高密度（〜40 F2）の商用NORフラッシュメモリアレイを備えたミックスドシグナルネットワークの実装に焦点を当てています．

たとえば，修正されたNORフラッシュメモリ技術を使用して180nmプロセスで製造された100k +セルの2層パーセプトロンネットワークのプロトタイプが参考文献に報告されています．信頼性が高く，長期ドリフトと温度感度はごくわずかで，MNISTベンチマークセット画像の再現性のある分類は，忠実度が約95％，時間遅延が1 µs未満，パターンあたりのエネルギー消費量が20nJ未満です．

エネルギー遅延製品は，同様の忠実度で同じタスクを実行する最高の（当時の）28nmデジタル実装よりも6桁優れていました．

最近の理論的研究によると，ニューロモルフィック推論回路は，はるかに高密度の3D-NANDフラッシュメモリでも実装でき，最終的には1平方インチあたり10テラビットの密度にスケーリングすると予測されています．長期的には，おそらく最も有望なのは，金属酸化物抵抗変化型ランダムアクセス（略してReRAM，金属酸化物メモリスタとも呼ばれる），特に受動的に統合された（0T1R）技術の多様性に基づく回路です．実際，イオンスイッチングメカニズムにより，10 nm未満の寸法のReRAMデバイスは，優れたアナログ特性と年間スケールの保持を維持します．さらに，低温製造バジェットにより，複数のReRAMクロスバー回路のモノリシック垂直統合が可能になり，実効密度がさらに向上します． ReRAMベースのニューロモルフィック回路のデモンストレーションの複雑さのスケールアップは急速に進んでいます．ただし，ReRAMテクノロジはまだ改善の必要があります．デバイスの変動が大きいことに加えて，残りのもう1つの問題は書き込み電流と動作コンダクタンスが大きいことです．これは，周辺回路の大きなオーバーヘッドを減らすために，少なくとも1桁減らす必要があります．

ハードウェアアクセラレータをトレーニングするためのデバイス要件は異なり，はるかに厳格です．たとえば，重みは頻繁に更新されるため，長期間の保持は必要ありません．これにより，電子トラップ/デトラッピングスイッチングに基づく界面メモリスタや固体電解質メモリなどのアナログVMM回路で揮発性メモリを使用したり，コンデンサベースのメモリでクロスポイントトランジスタを通して電流を制御したりすることができます．ただし，最も困難な課題は，トレーニング操作に必要なはるかに高い計算と重みの精度，および重みの更新のための効率的なスキームの必要性です．これにより，デバイスのバリエーションを大幅に増やす必要があります．追加の関連要件は，書き込みパルスを適用したときのデバイスコンダクタンスの変化がその現在の状態（いわゆる更新プロパティの線形性）に依存してはならないということです．そうしないと，正確なコンダクタンス調整には，現在のデバイスの状態に基づいて一意の書き込みパルスを送信する必要があります．これは，高速（並列）の重み更新とはほとんど互換性がありません．

相変化メモリは，アナログVMM回路の可変抵抗器の候補としても調査されています．ただし，主な欠点は，時間の経過に伴う導電状態の大幅なドリフトです． 1T強誘電体RAMデバイスでは，高い書き込み耐久性，高密度（垂直3D-NANDのような統合構造），および長い保持力が実証されています．トレーニングおよび推論アクセラレータでのこのようなデバイスのアプリケーションには多くの期待がありますが，それらのアナログ特性はおそらくReRAMより劣っています．磁気トンネル接合メモリなどの磁気デバイスの重大な欠点は，オン/オフ電流比が小さく，実際のVMM回路には不十分であり，スケールダウンされたデバイスのアナログ特性が低いことです．

光を使用して高速で大規模なファンアウト相互接続や，乗算と加算の演算などの線形計算を実装する可能性が，フォトニックニューロモルフィックコンピューティングの研究の動機となっています．固定されたおよびプログラム可能な機能を備えたさまざまな実装フレーバーが，最近，現代のニューラルネットワークのコンテキストで提案されています．具体的には，畳み込みニューラルネットワークと同様のパターン分類推論を実行できる，特別に選択された透過反射特性を持つ領域（ニューロン）のメッシュである複数の3Dプリント光学層のシステムが報告されています．振幅エンコードされた入力でコヒーレント光を送信することにより，光の速度で有用な計算が実行されます．具体的には，光は光学システムを通過するときに回折および干渉し，最終的にパターンクラスに対応する出力層の特定の領域に向けられます．構成可能な重みを持つ光学ニューロモルフィックシステムが報告されています．入力は光のエネルギーでエンコードされ，重みはPCMデバイスの光減衰によってエンコードされます． PCMデバイスを介して光を通過させることにより，積が計算されるようにします．光の振幅で入力をエンコードすることが提案され，入力からの光は結合され，乗算を実行するための金属ヒーターを備えたマイクロリング共振器（MRR）に基づく周波数選択ウェイトバンクに渡されます．特に，MRRカップリング（つまり，重み）は，各MRRに供給される電流を調整することによって加熱によって制御されます．これらの再構成可能な実装では，生成物の蓄積（つまり，VMMでの合計操作）は，光検出器の光誘起電荷を統合することによって実行されます．重みと入力の両方がコヒーレント光の振幅でエンコードされるVMMを計算するための非常に積極的な時分割多重方式が提案されています．このようなスキームでは，入力光はnチャネルにファンアウトされ，ビームスプリッターを使用して光エンコードされたn個の重みと組み合わされ，n個のホモダイン光検出器に送信されてn個の積が並列に計算されます．マッハツェンダー干渉計メッシュに基づく全光学的フィードフォワード推論は，重み行列に単一値分解を利用します．ユニタリ行列変換は光ビームスプリッターと位相シフターで実装され，対角行列は光減衰器で実装されます．

原則として，単一の乗算と加算操作のサブaJエネルギーとサブpsレイテンシは，光コンピューティングで可能である可能性があります．ただし，主な課題は，光コンポーネントの寸法が非常に大きく，光ドメインとの間で変換する際のI / Oオーバーヘッドが非常に高いことです．電気ドメインへの変換に依存する設計は，電気通信のオーバーヘッドが大きいために光デバイスの統合密度が低いことによって特に影響を受けます．これは，（はるかに密度の高い）ReRAMベースの回路のシステムレベルのパフォーマンスを圧倒することが示されています．光学システムは，最終的には非常に広い（>>10,000）内積，および/またはI / Oオーバーヘッドを償却するための深い時分割多重化の利用から恩恵を受けるでしょう．ただし，電荷積分における非線形性の考えられる問題と，そのような広い内積計算の有用性は依然として不明です．

・Stochastic Vector-by-Matrix Multiplication

脳で行われる計算は本質的に確率的であり，例えば，同一の刺激を繰り返し提示すると，実質的に異なる神経反応が観察されます．このようなノイジーな操作をボルツマンマシンやディープ・ビリーフ・ニューラル・ネットワークなどの確率的なニューラル・ネットワークによって模倣されます．最も単純なケースでは，このようなネットワークは，確率的な点積を計算する2つのニューロンで構成されています．確率的な機能は，シナプス側でもニューロン側でも実現することができます．後者の場合，ニューロンはまず入力とそれに対応する重みのドット積を決定論的に計算します．その結果は，ある「確率的」な活性化関数に渡されます．例えば，シグモイド確率関数の引数として使用され，高い出力が得られる確率を決定します．ニューロンに対するシナプスの割合は100以上と大きいため，効率的な決定論的ドット積を効率的に実装することは，高性能な確率論的ニューラルネットワークを実現する上で非常に重要です．しかし，以前の研究では，最も単純な決定論的ニューロンであっても，かなりのオーバーヘッドが発生することがわかっています．例えば，あるニューラルネットワークモデルでは，面積の30%を占め，エネルギーの40%を消費することがわかっています．したがって，確率的なニューロンを効率的に実現することで，ニューロモーフィック・ハードウェアにもメリットがあります．

確率的な機能を実現するために，新興デバイスは大きく分けて2つの方法があります．メモリデバイスのI-V特性を動的または静的に利用することです．具体的には，前者の方法では，メモリの状態を本質的に確率的に切り替えることができます．例えば，MTJメモリでは，熱揺らぎによって低抵抗の並列状態と高抵抗の反並列状態が確率的に変化するため，スイッチング時の最終的な記憶状態の確率をスピントルク電流で制御することができます．．溶融クエンチによる原子構造の再構成は，本質的に確率的です．相変化メモリ(PCM)では，メルトクエンチによる原子構造の再構成は本質的に確率的です．これらの現象は，MTJやPCMのストキャスティック・ニューロンを実現するために提案された．2つ目のアプローチは，メモリデバイスの内在的・外在的な電流変動を利用する方法です．例えば，ReRAM デバイスのランダムテレグラフやサーマルノイズ，あるいはナノスケールのフローティングゲート・トランジスタのショットノイズなどです．このようなアプローチでは，ニューロンに流れるノイズの多い電流を，単純なラッチなどを用いて基準値と比較し，確率的な活性化関数を実装します．

前者のアプローチの最大の問題点は，多くのメモリの耐久性が限られていることと，繰り返し使用した場合に，ストキャスティック・スイッチング特性がドリフトしてしまうことです．確率的なスイッチングの特性は，スイッチングを繰り返すことで変化します．スケーラブルなストキャスティック・ドット・プロダクト回路を実現するためには，複数のメモリデバイス技術を統合する必要があります．例えば，ReRAMを用いた人工シナプスとMTJを用いたニューロンの統合などです．一方，ReRAMデバイスのみを用いたアナログ回路（Fig. 13）は，信号対雑音比（SNR）が非常に低いものの，第2のアプローチの確率的VMMを実現するために利用できます．さらに，このような回路では，読み出し電圧を調整することでSNRを制御することができます．このように，実効温度（シグモイド確率関数の傾き）を制御することで，ボルツマンマシンにストキャスティックアニーリングを実行時に効率よく実装することができます．2つ目の方法の欠点は，読み出し電流が少ないために動作が遅くなることです．これは，外部ノイズを利用することで解決できる可能性があります．最後に，ノイズの質が機能性能に与える影響も共通の関心事です．この問題はまだ体系的には研究されていませんが，真のランダム動作にはガウス型の熱雑音やショット雑音の方が有利なはずです．

・Spiking Neuron and Synaptic Plasticity

最近のアルゴリズムの進歩にもかかわらず，生物学的に最も妥当と思われるスパイキングニューラルネットワーク(SNN) は，単純なANNに比べて機能的に劣っているのが現状です．もし単純なANNの方が優れているとすれば，効率的なSNNハードウェアの開発は，脳とのインターフェースやモデル化を効率的に行う必要性から正当化されることになります．効率的なSNNハードウェアの開発は，脳とのインターフェースや脳のモデル化を効率的に行う必要性から正当化されます．その結果，より高度な人工知能アルゴリズムの開発につながる可能性があります．SNNのもう一つの興味深い特徴は，ローカルな重み更新規則です．シナプス前後のニューロンからの情報のみを必要とし，大規模なニューロモーフィックハードウェアにリアルタイムトレーニング機能を持たせることができる．大規模なニューロモルフィック・ハードウェアにリアルタイムの学習機能を持たせることができます．

最も単純なSNNモデルでは，情報はスパイク時間の相関でエンコードされ，ネットワーク機能はシナプスで定義されます．ネットワーク機能は，シナプスを通過するスパイクの相対的なタイミングに基づいて調整されるシナプスの重みによって定義されます．SNNでは，VMMに加えて，神経細胞が行うLIF（Leaky-Integrate-and-Fire）機能や，短期可塑性（STP），長期増強（LTP），スパイクタイミング依存可塑性（STDP）など，さまざまな種類のシナプス可塑性があります．LIFニューロンは神経細胞膜のダイナミックなプロセスを模倣し，シナプス可塑性は生物学的ネットワークの学習・記憶メカニズムを模倣しています．LIFニューロンは神経細胞膜の動的プロセスを模倣し，シナプス可塑性は生体ネットワークの学習・記憶メカニズムを模倣しています．例えば，STPは，短期記憶を実行するシナプス強度の一時的な変化です．シナプスの強さの調整がすぐに強化されなければ，記憶は失われ，シナプス荷重は元の平衡状態に戻ってしまいます．

一方，頻繁に繰り返されるスパイク刺激は，LTPメカニズムによる永久増強などの長期記憶を引き起こします．STDPは，ヘブ学習を時間依存に特化させたものです．そのSTDPの目的は，シナプスの前後のスパイクが期待される因果関係のある時間的順序で起こる場合にはシナプスの効率を強化し，そうでない場合にはシナプスの効率を弱めることです．

従来の回路技術では，大きなキャパシターが必要であるために，LIFニューロンを生物学的にミリ秒単位の集積時間でコンパクトに実装することは困難でした．この問題を解決するために，揮発性メモリを利用した回路が提案されている（フィラメント，界面，モット絶縁体などのスイッチングメカニズムを利用したものを利用した漏洩集積回路が提案されています．このような実装では，積分電流は揮発性メモリデバイスの導電状態で符号化されます．ニューロン・スパイキングの機能は，S型負性差動抵抗(NDR)を備えたしきい値スイッチング(揮発性)メモリデバイスで実証されました．NDR（negative differential resistance）のI-V特性を持つしきい値スイッチ（揮発性メモリ）を用いて，ニューロンのスパイク機能が実証されました．このアプローチの一般的な考え方は，抵抗-コンデンサ回路に接続されたS型（NDR）デバイスに基づく発振回路に似ています．

STPからLTPへの移行は，固体電解質デバイスでエミュレートされています．具体的には，短くて頻繁でない薄いフィラメントが形成されますが，このフィラメントは不安定ですぐに溶けてしまうため，短い記憶を表します．一方，書き込みパルスを繰り返し，あるいは長くすることで，より太く安定したフィラメントを形成することができます．これにより，LTPへの移行を模倣することができます．例えば，PCMや金属酸化物ReRAMを用いたSTDPウィンドウの実装は，シナプス前後の書き込み電圧パルスの形状を慎重に選択することで提案されています．

新しいデバイス技術に基づくいくつかの小規模なスパイキング・ニューロモーフィック・システムが実証されました．それらには，金属酸化物メモリを用いたSTDP機構による偶然性の検出や，拡散型メモリカンによる時間データ分類などがあります．しかし，このような先進的なハードウェアの進歩は，より単純なANNの推論アクセラレータに比べてはるかに遅れています．その主な理由は，このようなアプリケーションでは，新しいデバイスに要求される機能がより高いため，デバイスのばらつきがSNNの動作や性能に与える影響がより深刻であることです．例えば，SNNは，複数のデバイスのコンダクタンスを並行して更新するために，一定の大きさのスパイクに依存しています．そのため，I-Vのスイッチング電圧がわずかに変化しただけで，コンダクタンスの変化が大きくなり，STDPの特性が大きく変化してしまいます．一方で，前述のように，より単純なex-situトレーニングを受けたANNの実装は，より困難ではありません．このようなネットワークの書き込み振幅電圧は，コンダクタンス・チューニング時のフィードバック情報に基づいて，デバイスごとに独自に調整することができるからです．

急速単一磁束量子(RSFQ)を用いた超電導回路は，SFQ電圧パルスに情報が符号化されているため，スパイク回路に適しています．例えば，ジョセフソンジョセフソン接合型のスパイキング・ニューロンが50GHzまで動作することが示されています．しかしこのようなアプローチの歴史的な課題としては，製造技術が劣っていること，低温動作による応用の制限，そして，効率的なアナログメモリ回路がないことも挙げられます．フォトニック・スパイキング・ニューラルネットワークやハイブリッド超電導/オプトエレクトロニクス・ニューロモルフィック回路は，すでに議論されているフォトニック・ニューロモルフィック推論アプローチと同じ課題を共有しています．

・レザボア・コンピューティング

Google Neural Machine Translationモデルのようなリカレント・ニューラル・ネットワークは，固有の記憶特性を持つため，特に逐次データや時間データの処理に適しています．レザボアコンピューティング(RC)ネットワークは，効率的に学習するリカレントネットワークの特殊なタイプであり，大脳皮質の情報処理が動機となっています．RCネットワークには，スパイキングRCネットワークであるリキッドステートマシンや，エコーステートマシンなどがあります．RCネットワークの主な構成要素はリザーバーであり，入力を高次元の時空間表現にマッピングする非線形再帰ネットワークであり，以前の入力とネットワークの状態をフェージングメモリーする特性を持っています．もう一つの構成要素は，中間状態を出力にマッピングするリードアウト層です．リザーバーの接続はすべて固定されており，読み出し層の重みのみが学習可能です．その事と疎な中間表現のために，このようなネットワークの学習には，より高速でオンラインなアルゴリズムを採用することができ，これがこのアプローチの第一の強みとなっています．

読み出し層とリザーバーの両方を，ここで紹介するアナログVMM回路で実現することもできます．超伝導，磁気，フォトニックデバイスにおける非線形物理現象によって，リザーバーを実現する興味深いケースがあります．例えば，リザーバーを4つのMTJベースのスピン・トルク・オシレーター（STO）で実装したRCでは，音声母音認識が実証されました．このようなデモでは，音声の母音に対応する時間的な入力は，まず周波数領域に変換されます．これは，MTJデバイスに印加される対応するDCバイアス電流にマッピングされます．リザーバーは，STOの周波数の直流電流に対する非線形依存性と，MTJの自由層のスピンの履歴依存の過渡的な動きを利用しています．

様々なフォトニック・リザーバーが提案されており，例えば，時間遅延フィードバックのある光学系の過渡的特性を利用したり，導波路やスプリッター，コンバイナーを介して受動的に循環する光を重ね合わせ，電子領域に非線形変換することで，高次元の応答を実現することが提案されています．最近では，効率的で非常に高速なリザーバの実装のために超電導回路のダイナミクスが研究されています．具体的には，提案されているリザーバーは，以下をベースにしています．JJの連鎖によって形成されるジョセフソン伝送路（JTL）に基づいています．JTLの一方の端からの入力パルスは，SFQパルスを他方の端に伝搬するジャンクションの位相スリップの急速なカスケードを引き起こします．JJが互いの電流を変調することで，複雑な動的状態が実現します．

RCコンピューティングのアプローチには，いくつかの一般的な懸念事項があります．アルゴリズムレベルでは，RCは最先端のアプローチに比べて性能が劣っており，さらなるアルゴリズムの改善がなければ，このハンディキャップをオンライントレーニングの利点が補えるかどうかは不明です．様々なハードウェアの実装における主な懸念は，やはりデバイスのバリエーションに関連しています．例えば，同じ入力をしたときに，ハードウェアが再現可能な結果を出せるかどうか．磁気デバイスの場合，デバイス間の結合が制限されているため，リザーバの効果に影響を与える可能性があります．

・超次元コンピューティング / 連想メモリ

超次元コンピューティング回路は，最近，ReRAMとPCMデバイスで実証されました．超次元コンピューティングの低レベルの動作は，連想メモリやコンテンツ・アドレッサブル・メモリの動作と密接に関連しています．具体的には，このようなアプローチの中核となるのが，ハミング距離的に最も近いメモリ行エントリを出力する連想メモリアレイ回路があり，検索キーとなるバイナリ入力ベクトルにハミング距離的に最も近いメモリ行エントリを出力します．ハミング距離は，-1と+1の符号化による対称的な2進表現を仮定すると，ドット積と線形関係にあり，出力ベクトル長から入力ベクトル間のドット積を差し引いた値となります．したがって，超次元計算の重要な機能は，やはりVMM演算です．VMM演算が完了すると，その結果は，ソフトマックス関数をよりハードにした勝ち取り回路（ソフトマックス関数のハードバージョンです）に渡され，他のすべての出力を捨てて，最小のハミング距離を持つ要素を決定します．さらなる単純化では，VMMの入力と重みの両方が2値です．

原理的には，バイナリVMMは，完全なアナログバージョンよりも効率的にハードウェアに実装することができます．バイナリ・ニューラル・ネットワークと同様に，見かけ上のトレードオフは，超次元計算の機能的性能の低下です．超次元計算のもう一つの特徴は，ずっと多くの冗長メモリを持つことと引き換えに，高速な「ワンショット」または増分学習に適していることです．高速な「ワンショット」学習は，超次元コンピューティングに特有のものではないことに注意してください．例えば，連想ニューラルネットワークの学習に用いられるヘブの学習やその多くのバリエーションは，再帰的な形式を持っており，現在の重み値とネットワークに格納されている新しいパターンに基づいてのみ，重みを修正することができるという点で，自然と増分的になります．

まとめ

現在，多くの新しいデバイスや回路技術が，ニューロモーフィック・ハードウェアの実現に向けて検討されています．フローティングゲートメモリを用いたアナログインメモリコンピューティングを利用したニューロモーフィック推論アクセラレータは，おそらく最も普及に近いものでしょう．フローティングゲートメモリを用いたアナログインメモリコンピューティングによるニューロモーフィック推論アクセラレータは，技術の成熟度，アプリケーションの実用性，従来の（デジタルCMOS）回路実装と比較して競争力のある性能などを考慮すると，最も普及に近いと考えられます．多くの提案は，機能的に劣るアルゴリズムを対象としているため，他のニューロモーフィックなアプローチの性能を比較することは容易ではありません．MLのアルゴリズムが大幅に改善されたり，高性能・低精度のニューロモーフィック・ハードウェアの恩恵を受けられる新しいアプリケーションが登場したりしない限り，機能的な性能が劣っていることが他のアプローチの実用性を制限する可能性があります．ニューロモーフィック・コンピューティングのコンセプトを実現するための主たる挑戦は，継続して新しいデバイスの動作上の大きなばらつきです．

展望

本レビューでは，様々な分野で科学的発見を可能にする高速MLのエキサイティングなアプリケーションを紹介しました．この分野は急速に発展しており，多くのエキサイティングな新しい研究や結果が頻繁に発表されています．しかし，この分野は比較的若い分野であり，多くの可能性を秘めていると同時に，多くの分野で未解決の課題を抱えています．本レビューで紹介した以外にも，科学的なユースケースとそのオーバーラップについて議論することで，読者がさらなる応用を楽しみ，追求するためのインスピレーションを得られることを期待しています．続いて，高スループットかつ低レイテンシーの環境で動作する必要のある強力なMLアルゴリズムを開発するための技術の概要を説明しました．これには，システム設計とトレーニング，そしてそれらのMLモデルの効率的な展開と実装の両方が含まれます．ハードウェアへの実装については，現在の従来型CMOS技術と，より将来性のあるCMOS技術の2つのカテゴリーに分けて説明しています．従来型CMOSの場合，ムーアの法則の終焉を受けて，最近はML用に設計された先進的なハードウェアアーキテクチャに重点が置かれています．ここでは，一般的なハードウェア・アーキテクチャと新しいハードウェア・アーキテクチャの概要と，それらの長所・短所について説明しました．多数のハードウェアにとって重要な分野は，特定のハードウェアに対する所定のMLアルゴリズムのコードサインであり，そのアルゴリズムのアーキテクチャとプログラマビリティを含みます．特に関連性が高く重要なハードウェアプラットフォームの例としては，FPGAがあります．最後に，MLモデルを実装するための超効率的でエキサイティングな技術を提供するCMOS技術の先を紹介しました．これらの技術は推測の域を出ませんが，従来の技術に比べて桁違いの性能向上が期待できます．MLの学習・展開技術やコンピュータ・アーキテクチャは，いずれも非常に動きの速い分野であり，本稿でも追いつけないほどのペースで新しい作品が登場しています．両分野では新しい手法が次々と導入されていますが，特に重要なのは，さまざまなハードウェアに対する新しいアルゴリズムのコードデザインと，それらのアルゴリズムを展開するためのツールフローの使いやすさを理解することです．ここでの技術革新は，強力な新しいMLハードウェアの迅速かつ広範な導入を可能にします．CMOS技術を超えた場合には，技術の成熟度，コンピューティング・アーキテクチャへの統合，そしてそのようなデバイスのプログラミング方法を考慮するだけでなく，このような実用的な検討も重要です．近い将来，これらのトピックを再び取り上げ，アプリケーション，ML技術，ハードウェアプラットフォームがどれほど早く進歩するか，そして最も重要なことは，それらが合流することで科学におけるパラダイムシフトのブレークスルーが可能になるということです．