自己教師付き学習と統合学習による製造業のモデル汎化の最大化

Federated Learning 2023年12月07日

3つの要点
✔️ スマート工場実現の課題として、データのラベル付けと少ない負例データ、ドメインシフトがあります
✔️ ドメイン適応を伴う転移学習において、Barlow Twinsで訓練された特徴抽出器は、新たな故障を含む異なるプロセス・パラメータを持つ運用環境に転送する際に、教師あり分類器よりも優れた性能を示しました
✔️ さらに、分散学習のためのFederated Learning (FL)を組み込むことで、新たに出現する故障に対する一般化可能な表現を学習することができます

Maximizing Model Generalization for Manufacturing with Self-Supervised Learning and Federated Learning
written by Matthew Russell, Peng Wang
[Submitted on 27 Apr 2023 (v1), last revised 22 Sep 2023 (this version, v2)]
Comments: Accepted by arXiv
Subjects: Machine Learning (cs.LG); Signal Processing (eess.SP)

code：

本記事で使用している画像は論文中のもの、紹介スライドのもの、またはそれを参考に作成したものを使用しております。

概要

ディープラーニング（DL）は、手動で統計的特徴を設計することなく、生の状態監視データから故障を診断し、機械の健全性を評価することができます。しかし、既存のDL手法では、実用的な製造アプリケーションは依然として極めて困難です。

機械データは多くの場合、ラベル付けされておらず、ごくわずかな健康状態から得られたものです（例えば、正常な動作データのみ）。さらに、プロセス・パラメータが変化したり、新しい故障のカテゴリが出現したりすると、モデルはしばしばドメインのシフトに遭遇します。

従来の教師あり学習は、特徴空間を決定境界で分割するための豊富なクラスがあることに依存しているため、このような未知のターゲット・ドメインに汎化するコンパクトで識別的な表現を学習するのに苦労する可能性があります。ドメイン適応を伴う転移学習（Transfer Learning: TL）は、これらのモデルをラベル付けされていないターゲット・ドメインに適応させることを試みますが、新たな欠陥が出現した場合に存在しないかもしれない類似の基礎構造を仮定します。

本研究では、ソース・ドメインにおける特徴の一般性を最大化することに焦点を当て、ターゲット・ドメインにモデルをコピーするために重み転送を介してTLを適用することを提案します。具体的には、Barlow Twinsを用いた自己教師あり学習（SSL）は、データの意味的特性に着目することで、教師あり学習よりも健康状態を監視するためのより識別性の高い特徴を生成する可能性があります。さらに、分散学習のためのFederated Learning (FL)は、複数のクライアントマシンで情報を共有することにより、学習データの有効なサイズと多様性を効率的に拡大することで、汎化を改善する可能性があります。

その結果、Barlow Twinsは、元となる訓練データに明確なカテゴリがほとんど含まれていない場合、運動障害が出現するラベルのないターゲット・ドメインにおいて、教師あり学習よりも優れた性能を発揮することが示されました。また、FLを組み込むことで、マシン間で健康状態に関する知識を拡散させることができ、若干の利点が得られる可能性があります。

今後の研究では、このような現実的な製造シナリオにおけるSSLとFLの性能を引き続き調査する必要があります。

はじめに

スマート工場では、コストのかかるダウンタイムや修理を防ぐために機械の故障を早期に検出・診断することが重要です。この目的を達成するために、機械学習が大規模なデータセットから統計的パターンを発見し、状態監視と故障診断のための分類・回帰モデルを構築します。ディープラーニング（DL）は、複数のレイヤーを持つニューラルネットワークを使用して、振動信号などの生データから自動的に特徴を抽出し、従来の手動で設計された特徴からのパラダイムシフトを実現します。しかし、モデルが変化する工場環境に適応する能力に対する信頼が低いため、メーカーはこれらのツールの活用をためらっています。モデルの汎化能力を高めることで、変化するプロセス・パラメータ、新しい動作条件、機械間のばらつきへの耐性を構築し、信頼性を向上させることが求められています。

製造業における初期のディープラーニング（DL）研究は、状態監視データセットの分析において、サポートベクターマシン（SVM）などの従来の手法よりも優れていることを示しました。実験室の管理されたデータセットでは良好な結果が得られていますが、製造業におけるDLの広範な採用には多くの実用的な問題が存在します。画像分野のような大量かつ多様なデータとは異なり、故障診断では必要なデータ量と多様性が不足している場合が多く、特にデータセット、動作条件、機械を超えた汎化が困難です。実際の産業用データセットでは、故障例が少なく、そのほとんどがラベル付けされていないことが問題です。また、運転環境が動的であるため、新しいタイプの故障が予告なく発生し、既存のモデルでは誤分類される可能性があります。これらの課題を克服し、工場現場でのDLの信頼性を高めるためには、さらなる研究が必要です。

転移学習（Transfer Learning: TL）は、モデルの汎化に関する問題を緩和する方法です。TLの目的は、データやタスクが変更された際（例えば、新しい故障やプロセス・パラメータの変化など）に、既存のモデルを再利用することにあります。このような変更は、データの統計的特性に影響を与え、モデルが効果的に機能するための入力領域から外れる可能性があります。TLでは、ラベル付けされたソース・ドメインからラベル付けされていないターゲット・ドメインへのモデルの転送を行いますが、ターゲット・ドメインに新たな欠陥が発生した場合、ソース・ドメインのモデルの転送能力が制限されることがあります。さらに、ターゲット・ドメインが未知である場合や、トレーニング時に利用可能なデータ（ラベル付けされていないデータを含む）がない場合もあります。その場合、TLは利用可能なデータから可能な限り汎用性の高い表現を学習する必要があります。その後、このモデルはターゲット・ドメインに転送され、利用可能になるターゲット・ドメインのデータに基づいて微調整されます。この方法では、ソース・ドメインの条件と同じ関係を仮定せずに、ターゲット・ドメインのモデルを構築することが可能です。

教師あり学習は、ラベル付きデータに依存しており、トレーニング条件が限られていたり、ラベルが不足していたりする場合、実用的な状態監視には不適切な場合があります。これに対し、自己教師あり学習（SSL）は、類似の意味特性を持つ特徴をコンパクトなクラスタに分類する技術であり、ランダムな拡張を用いてモデルがカテゴリ内の変動を学習する方法を提供します。例えば、反転した信号と元の信号を同じ特徴にマッピングすることで、モデルは反転を無視するよう学習します。SSLはラベル不要であり、注釈なしの生の工場データからデータ中心の表現を学習するのに有効です。

SSLは状態監視モデルのブートストラップに適していますが、マシンフリート間での情報共有により、汎化能力をさらに向上させることができます。しかし、帯域幅の制約のため、フリートが連続してクラウドにデータを集約することは困難です。ここでフェデレーテッドラーニング（FL）が有効であり、分散データを利用してグローバルな情報を持つモデルを開発できます。この方式では、各クライアントマシンがローカルデータで学習し、生データではなくモデルをサーバーに定期的に送信します。サーバーからのグローバルモデルはクライアントマシンに配布され、情報が共有されます。FLは通信ネットワークを圧迫することなく、複数のクライアントの情報を統合し、有効なサイズと多様なデータセットを構築することが可能です。

コンディションモニタリングの文献には、モデルの汎化を最大化するためのSSLとFLに関するまとまった紹介がありません。本研究では、SSLとFLが、2つの補完的な戦略によって、工場現場におけるDLモデルの汎化、ひいては信頼性をどのように向上させることができるかを概説します： SSLはラベル付きデータを必要とせずに有益な表現を抽出し、FLはデータセットの有効なサイズと多様性を拡大します。本研究の貢献は以下の通りです：

1.SSLと製造業における関連研究の概要、

2.FLと製造業における関連研究の概要、

3.モデルの汎化を改善するためにSSLとFLを組み合わせるための理論的に動機づけられたフレームワーク、

4.モータの故障データセットを使用して、新たな故障と変化するプロセス・パラメータ下でSSLとFLを評価するケーススタディ。

理論的背景と関連研究

教師あり学習と転移学習

多くの要因が機械学習モデルの適用性とロバスト性を制限する可能性があります。製造業では、処理パラメータ、動作環境、および健康状態が変化すると、入力データの分布が予想される領域外にシフトすることにより、パフォーマンスに悪影響を及ぼす可能性があります。転移学習（Transfer Learning：TL）は、ソース・ドメインで学習したモデルを関連するターゲット・ドメインに適応または再利用することで、ターゲットタスクの大量のラベル付きデータの必要性を回避しようとするものです。

・自己教師あり学習

典型的な故障診断モデルは、重みθでパラメータ化された特徴抽出バックボーンG_θと、抽出された特徴からK個のクラス（例えば故障）の確率を予測する重みφを持つ分類ヘッドFφに分割することができます。ラベル付けされたデータがあれば、モデルパラメータは、クロスエントロピー損失（すなわちコスト）関数を用いた確率的勾配降下とバックプロパゲーションで最適化することができます：

分類精度を最大化するために重みを最適化することは、異なるカテゴリの特徴を分離する「決定境界」を描くようにモデルに教示します。しかし、プロセス・パラメータや動作環境の変化によって、入力データと特徴の分布が G_θ からシフトします。これらの新しい特徴は、分類器 Fϕによって学習された決定境界と一致しなくなり、未定義または一貫性のない動作を生じます。これは，教師あり分類器の汎化を損ないます。

・ドメイン適応による転移学習

転移学習（Transfer Learning: TL）は、ドメインシフト問題に対する一つの解決策です。ドメイン適応のために、既知のターゲット・ドメインからのラベル付けされていないデータは、G_θ が分類器 Fϕ のためのソース・ドメインとターゲット・ドメインの特徴の安定した、一致した分布を生成するように、教師付き学習プロセスを正則化することができます。ラベル付けされていないターゲット・ドメインのデータを含む更新された損失関数は、学習中に使用されます：

ここで、D(-, -) はソース・ドメイン特徴 G_θ(Xs) とターゲット・ドメイン特徴 G_θ(Xt) の間の分布の不一致を測定する関数です。λ係数は特徴正則化の強さを制御します。特徴抽出器G_θはソース・ドメインとターゲット・ドメインの両方から特徴量の一貫性のある分布を生成するので、故障分類器Fφはターゲット・ドメインの正確な予測を生成する可能性が高くなります。

製造業におけるD(-, -)の一般的な実装は、最大平均不一致（MMD）です。ソースとターゲットの特徴間の類似性を確保するためにMMDを使用し、異なる荷重とシャフト速度にわたるベアリングとギアボックスの振動データのTLを実証しました。柔軟なカーネルの実装により、実験室の故障データセットで示されたように、MMDを多項式またはコーシーカーネルと組み合わせることができます。深い特徴抽出器において複数のレベルでMMDを適用することで、機関車のベアリング故障診断、ベアリング故障の分類とローカライゼーションにおいて、ラボから実トランスファーへの性能向上を実現することもできます。

これは、D(-, -)の損失項を、ソースとターゲットの特徴を識別することを学習する別のニューラルネットワークDψで置き換えます。特徴抽出器G_θを訓練してドメイン識別器Dψを混乱させることで、特徴抽出器はソースとターゲットのドメインデータに一致する特徴を生成するように学習します。DANNは1次元CNN特徴抽出器を用いて、異なるベアリングデータセット間のTLを容易にします。興味深いことに、MMDとDANNの両方を組み合わせることが有益である可能性があり、データセット間のTLでも実証されています。

・重み移動による移動学習

ドメイン適応では、新しい欠陥が現れると問題に直面することがあります。特に、ターゲット・ドメインに新しい欠陥が含まれる場合、ソースとターゲットの特徴を一致させようとすると逆効果になることがあります。さらに、分類器も新たな故障を検出するために再調整する必要があります。そのため、転移学習（TL）では、ドメイン適応よりもソース・ドメインで学習された特徴表現の汎化を最大化する方向へとシフトしています。十分に一般的なこの表現を使えば、ターゲット・ドメインにネットワークの重みを転送し、新たな故障と既知の故障を区別することができます。ラベル付けされたソース・ドメインまたはラベル付けされていないターゲット・ドメインのデータがある場合、重み転送を介したTLは、将来の故障に対して識別性のある表現を事前に学習します。画像処理では、これにより膨大な画像データセットで学習したネットワークの低レベルで一般的な特徴を再利用できます。これらの特徴は、新しいカテゴリの画像に対して非常に識別性の高い特徴を生成することができます。事前学習済みの重みから始めることで、医療画像のようにデータが乏しい分野においても、信頼性の高い画像分類器をゼロから学習することなく、有用な特徴表現を生成することが可能です。

製造業の研究者は、事前学習済みの画像ネットワークを創造的に活用し、状態監視データセットを画像に変換しています。これらのネットワークは、高レベルのタスクが異なる場合でも、画像内の線や形状に関する有用な低レベル情報を抽出することができます。例えば、振動データを連続ウェーブレット変換（CWT）を用いて2D画像に変換すると、これらの事前学習済み画像ネットワークは、ラベル付きの製造データが限られている場合に、故障分類器のトレーニングのための即戦力となる特徴を提供できます。また、MMDのような技術を適用する前に、初期の特徴表現を提供することでドメイン適応を加速することも可能です。事前学習済み画像ネットワーク以外にも、TLを重み転送を通じて行うことで、ソースエンジンで劣化モデルをトレーニングし、その重みをターゲットエンジンに転送し、ターゲットの初期の劣化段階で微調整することにより、ターゲット航空機エンジンの劣化予測を改善することが示されています。しかし、高度に一般的な特徴抽出器を事前学習するために必要なラベル付きデータの欠如により、製造業における重み転送によるTLは多くの場合困難です。

自己教師あり学習

自己教師あり学習（SSL）は、ラベルが付けられていないデータを使用して特徴抽出ネットワークを訓練し、その後のタスクに適用することができます。大まかに言えば、SSLは、前提タスクや不変性に基づく方法を通じてデータに「自己監督」させ、入力例の有用なエンコーディングを学習させます。ラベル付きデータが不足しているが、ラベルなしデータが豊富な製造業において、SSLは変革的な可能性を持っています。このアプローチにより、既存の大量の未ラベルデータを活用して、効率的かつ効果的な特徴抽出を行い、さまざまな製造タスクに応用することが可能になります。

・事前学習タスクSSL

事前学習タスクの自己教師あり学習（SSL）は、自動生成されたラベルを使用して関連する問題に基づいてモデルを訓練します。事前学習タスクの例には、画像の回転を予測すること、画像内のパッチの相対的な位置を予測すること、または自然言語シーケンスの次の単語を予測すること（例えば、OpenAIのGPT-nモデル）などがあります。製造業やヘルスモニターの研究では、このアプローチのさまざまな適応が探求されています。一部の研究では、従来の教師なし技術を「自己教師あり」として再定義しています。例えば、カーネル主成分分析（PCA）を用いて正常データから学習した埋め込みは、工業用金属エッチングプロセスの故障検出に役立ち、「自己教師あり」として説明されました。同様に、ベアリング故障分類のための「自己教師あり」補助タスクとして深層オートエンコーダを訓練した研究、洗濯機の異常検出に同様のアプローチを採用した研究があります。別の研究では、付加製造におけるランダムに回転させたレーザーパウダーベッド融合プロセス画像の向きを予測し、これを前提タスクとして特徴づけました。しかし、下流タスクも向き予測であったため、これはデータ拡張を伴う事前学習に近いものであり、独自の事前学習目標とは異なります。真の事前学習タスクSSLは、故障情報に依存しない独自の事前学習タスクを通じて、ラベルのないデータから特徴を抽出します。例えば、モデルはラベルのない入力信号の統計的特性（平均、分散、歪度、尖度など）を予測することによって有用な特徴を学習することができます。さらに別の研究では、入力信号をランダムに歪ませ、その歪みを識別するモデルを訓練しました。これら3つのアプローチはいずれも、ベアリングの故障診断に有用な特徴を生成しました。したがって、手動ラベルを必要とせずに、事前学習タスクのSSLは将来のヘルスモニタータスクのためのモデルをブートストラップすることができます。

・不変性ベースのSSL

不変性ベースSSLは、前文タスクを使用する代わりに、データセットから "シード "例にランダムな変換を適用し、同じ "擬似クラス "に属する例のファミリーを作成します。その後、特徴抽出ネットワークは、擬似クラス内のすべての拡張された例から特徴を均質化するように訓練されます。対照的な損失関数は、各擬似クラスがコンパクトであり、他からよく分離されていることを促します。このプロセスを通じて、ネットワークはランダム化された属性を無視し、入力データをクラスタリングする意味的に意味のある方法に集中することを学習します（図1参照）。

図1：SSL技法は、他の擬似クラスからの分離を高めながら、拡張された特徴を同じ擬似クラスのメンバーに移動させようとします。

Invariance-basedSSLへの対照的なアプローチは、クラスタリングを確実にするために、他の擬似クラスの豊富な「否定的な」例を持つことに依存します。例えば、InfoNCEの損失関数を考えてみましょう：

ここで、nは正の例x+ 、n - 1の負の例（すなわち、他の擬似クラス）を含むバッチのサイズであり、s(-, -)は類似性メトリックです。否定的な例の数を増やすと、相互情報量（sim-, -）の下限が増加します。これにより、コンパクトな特徴クラスタが推奨されます。しかし、バッチサイズに制限があるため、十分な負例で効率的に学習することは自明ではありません。モメンタムコントラスト（Momentum Contrast）は、複数のバッチにまたがる特徴を集約することで、否定例の数を増やしました。エンコーダーは、より大きな負例特徴グループから現在のバッチを分離するために、対比的損失で学習します。モーメンタム・エンコーダーは、以前の複数のバッチからの負例の表現が安定したままであることを保証するために、潜在空間への以前の例の埋め込みを実行平均によって更新しました。

MoCo（Moment Contrast）に触発された多くの概念的に関連する開発が行われました。「A Simple Framework for Contrastive Learning of Visual Representations（SimCLR）」と「Bootstrap Your Own Latent（BYOL）」は、両方とも、少ない数または負例がなくてもうまく機能するMoCoスタイルのアーキテクチャの変更を提案しました。SimCLRは、コントラスト損失を適用する前に特徴をより大きな次元空間にマッピングする「プロジェクションヘッド」ネットワークという重要な貢献をしました。これは特徴自体が過度に均一化されることを防ぎます。X. Chen, K. Heによる研究は、Simple Siamese Representation Learning（SimSiam）として知られるさらに直接的なアプローチを提案しました。SimSiamは、二つの拡張からの特徴投影を統合する方法を学びながら、投影の一方からの勾配がエンコーダーの更新を防ぐようにしました。これは効果的に、一方の投影を固定しながら他方をこのアンカーに向かって動かすことを意味します。これは、大規模なバッチ、豊富な負例、またはモーメンタムネットワークがなくても効果的でした。コントラスト損失の問題を全面的に回避するために、Barlow Twinsは擬似クラスの例間で相関した特徴を学びながら特徴次元間の冗長性を抑制するクロス相関損失を使用しました（図2を参照）。その後、Variance-InvarianceCovariance Regularization（VICReg）はBarlow Twinsの一般化として、やや複雑な損失関数を導入しました。これらの方法は、コンピュータビジョンの問題に対してますます有用であることが証明されました。

図2：Barlow Twinsでは、各仮クラス内で相関があり、互いに独立した特徴投影を行うことで、表現の冗長性を低減しています。

製造業では、まず1次元のセンシングデータを2次元画像に変換することで、コンピュータビジョンによる不変性ベースのSSLを活用することができます。ラベルのないSimCLRは、回転、クロップ、アフィン変換などの画像補強を使用して、振動データから回転機械の識別可能な故障特徴を見つけることができます。BYOLを利用した手法は、短時間フーリエ変換（STFT）や連続ウェーブレット変換（CWT）などの方法で振動データを画像に変換した後、ベアリングの故障特徴を抽出しました。しかし、画像領域の技術を振動データに適用することは、ロバストで物理的に意味のある解釈を欠く可能性があります。したがって、状態監視に不変性ベースのSSLを適応させるための重要なステップは、生の時系列データ（例えば、振動や電流）に対して適切なランダム補強を設計することです。

・時系列データの補強設計

不変性に基づく自己教師あり学習（SSL）では、ランダムな拡張を慎重に選択する必要があります。これは、重要な意味情報を破壊しないためです。たとえば、高レベルの意味的ラベル（例えばベアリングの内輪の欠陥）は、単純な特徴分析（例えば正規化された振動振幅が0.6を超えること）に単純化することはできません。このような直接的でない相関関係を明らかにすることは、深層学習（DL）の使用を動機付ける理由の一つです。意味的に重要な入力属性を扱う場合、その属性を抽出して操作することは困難です。逆に、属性の操作が容易な場合、それは意味的にそれほど重要ではない可能性が高いです。効果的なランダム補強は、意味的に関連する例の表現を均質化するために、必ずしも複雑である必要はありません。既存の画像ベースのオーグメンテーションSSLの研究は、最先端の結果を得るために、平行移動、切り抜き、反転、回転、コントラスト、ぼかし、色歪みなどの単純な変換を使用しており、この理論を支持しています。1次元時系列データに対して同様のオーグメンテーションを設計することで、生のセンシング信号に対する不変性ベースSSLの可能性を解放することができます。

図3：意味的に無意味な属性を無作為化することで、オーグメンテーションはSSLに残りの意味的に意味のある特性を通して擬似クラスを識別させます。

複数の研究では、時系列データに対する可能な補強方法が検討されています。時系列データは時間的に関連しており、これを考慮していくつかの研究では、振動信号から連続する例のペアを生成し、不変性ベースの自己教師あり学習（SSL）に適用するための擬似クラスを作成しました。これには、時間的な歪みや振幅の歪みが含まれています。

例えば、MoCoを使用する研究では、ガウスノイズ、振幅スケーリング、ストレッチング、マスキング、タイムシフトといった補強が、ベアリングの初期故障を検出するための特徴抽出器の事前学習に用いられました。BYOLを採用した研究では、トランケーション（連続する領域のマスキング）、ローパスフィルタリング、ガウスノイズ、幾何学的スケーリング、ダウンサンプリングがラベル付けされていない生の振動データからベアリングの故障診断のための表現を学習するために使用されました。特に、トランケーションとダウンサンプリングが有効であることが示されました。

SimSiamを利用した研究では、切り捨て、ローパスフィルタリング、ガウスノイズ、時間反転などを使用して実施されました。また、モータ状態のデータセットを使用した研究では、ランダムな時間シフト、切り捨て、スケーリング、垂直反転を用いて、多チャンネルの振動と電流信号にBarlow Twinsを実装しました。ここでは、ランダムな時間シフトがモータの故障診断タスクに適した特徴を抽出する上で非常に重要であったことが示されています。

これらの研究は、1次元信号に対する不変性ベースのSSLにおいて、効果的なデータ補強の方法を実証しています。

フェデレーテッド・ラーニング

Federated Learning (FL)は、FedAvgアルゴリズムを介して、プライベートユーザーデータ上での予測ディープラーニングモデルの分散学習を容易にします。ユーザーのプライバシーを維持するために、ネットワークトレーニングはユーザーのデバイス上で実行され、更新されたモデルの重みとパラメータのみがクラウドに送信されます。FedAvgアルゴリズムでは、ネットワーク重みは、クライアントのデータをクラウドに送信することなく、グローバルモデルを作成するために一緒に平均化されます。これにより、クライアントは自分のデータに対するプライベートなコントロールを保持しながら、より一般化可能なモデルをトレーニングするために協力することができます。アルゴリズム1はFedAvgの概要を示しています。

・状態監視および故障診断用FL

製造業向けのFLの利点は、機密性の高い工場データをサーバーに公開することなく、複数のデータセットで学習できることです。このプライバシーの観点に動機付けられ、孤立したデータセットから故障診断モデルを構築するためのFLが提案されました。検証性能の低いクライアント・モデルは、グローバル・モデルを集約する際に無視され、ロバスト性が向上します。FLをピアツーピアに適応させた結果、次のような改善が見られました。

風力タービンと軸受の故障を検出するために、各ノードで局所的な学習を行います。また、異なる特徴サブセットを持つクライアントに対応するために、勾配木ブースティングに基づく垂直FLアルゴリズムを提案するベアリングの故障診断のためのFLの研究があります。残存耐用年数（RUL）アプリケーションのために、シミュレーションされたターボファン航空機エンジンの劣化データに基づいて、変圧器モデルの協調的学習のためにFLを実装されました。

・FLへのマルチ・パーティおよびシングル・パーティ・インセンティブ

プライバシーの問題だけでなく、FLは複数の製造業者からなる連合にも、単一の分散した製造業者内にもメリットをもたらします。アディティブ・マニュファクチャリングでは、FLがローカルに訓練されたクライアント・モデルよりも欠陥画像のセグメンテーションを改善することを発見し、性能の向上が、メーカーが既存の連合に参加する動機付けになるとともに、これらの連合が新しいクライアントを歓迎する動機付けになることが示されました。別の研究は、航空機メーカー間のプライバシーを維持しながら、ローカルに訓練されたモデルに対してモデルの性能を向上させるFLの能力をさらに裏付けています。メーカーがモデルポイズニングの可能性を回避するために競合他社とのフェデレーションを拒否したとしても、FLは、単一の製造エンティティが所有する分散データに対して通信効率の高いトレーニングを行い、分散センシングを最大限に活用するために必要なネットワークトラフィックを削減するという大きなメリットを提供します。しかし、マルチパーティパラダイムでもシングルパーティパラダイムでも、FLの実装は、協調的アプローチを最大限に活用しながら、クライアント間の不一致を処理しなければなりません。

・異種クライアント用FL

実用的なアプリケーションでは、クライアントは異なるタスクやデータ分布を持つ可能性があり、基本的なFedAvgは各メンバーにとって最適ではないが、プライバシーの利点のためには望ましいです。FLクライアントを事前に訓練されたグローバルな特徴抽出器で初期化することで、個別化されたダウンストリームタスクに必要な訓練時間を短縮することができます。ただし、このケーススタディでは、画像領域のタスクについてのみテストされています。同様に、パーソナライズされたFLアプローチは、特徴抽出器と分類器をローカルに最適化することができ、ローカルな分類器の重みとグローバルに最適化された重みの間のシフトにペナルティを与えることができます。これにより、クライアント間で重みを固定するようなハードな制約なしに、クライアントが情報を共有することができます。驚くべきことに、クライアントが異なる故障を観測している場合、回転機械クライアントが不均衡なクラスや非i.i.dクラスであっても、FLが回転機械クライアント間で分類器情報を共有できることが実証されました。また、各クライアント内にノイズを注入し、偽の擬似クラスを作成することで、モデル間のクラスをグローバルに整合させることができます。逆に、クライアントの入力分布が大きく異なる場合、単一のグローバルモデルは成功しないかもしれません。別の研究では、メンバーからの勾配更新をクラスタ化し、各サブグループ内で別々にFLを実行することを選択しました。実験では、ベンチマークデータとカスタムベアリング故障データセットで、このアルゴリズムを検証しました。しかしながら、異種FLにおけるこれらの研究は、各クライアントにおける大量のラベル付けされていないデータの問題への対処には至りません。さらに、観測されたクラスの数が極めて限られている場合、教師あり学習に頼ることは、学習した表現の識別性を妨げる可能性があります。

図4：FedAvgを使用したFederated Learningの概要

図5：SSLはコンパクト化と擬似クラスの分離を促しますが、教師あり表現は決定境界に依存します。

モデルの汎化を最大化する方法の提案

大量の多様なデータセットに対する教師あり学習は、汎化可能な特徴量を生成するかもしれませんが、限られたクラスの多様性では苦労するかもしれません。教師あり学習は、コンパクトなクラスタを明示的に奨励することなく、分類器の決定境界を通して特徴空間を形成します（図5参照）。訓練クラスが限られている場合、モデルには特徴空間を分割する決定境界がほとんどありません。このため、特徴が緩く構造化され、将来発生する故障の特徴が以前の健康状態の特徴と重複する可能性が高くなります。分散したマシンからのデータを集約することで、集中型モデルを改善することができますが、高速センシングストリームは帯域幅の制約によって制限される可能性があります。そこで提案手法では、SSLを採用して特徴空間の構造を改善し、FLを採用して通信ネットワークを氾濫させることなく有効なデータセットサイズを拡大します（図6参照）。これらの技術を組み合わせることで、データ中心の学習と情報共有が促進され、新しい運転条件や新たな故障に対する状態監視モデルの汎化が最大化されます。

図6：教師ありまたは自己教師ありの1次元CNN特徴抽出バックボーンから重みを転送する際に、出現する故障の識別可能性を比較するための提案手法。Federated Learningは、複数のクライアントマシン間で効率的に情報を共有するために使用できます。

バーロウ・ツインズ(Barlow Twins)

バーロー・ツインを使用したSSLでは、限定された判定境界で特徴を整理するのではなく、同じ擬似クラスからの特徴投影間の相互相関を最大化することで、よりタイトなクラスタを促します。状態監視の時系列信号から擬似クラスを構築するために使用される補強は、意味クラスを保持しながら、重要でない信号属性をランダム化する必要があります。提案されたオーグメントを拡張したアルゴリズム2は、擬似クラスを作成するためにBarlow Twinsで使用されるランダム変換の概要を示しています。

Barlow Twinsはまず、（アルゴリズム2に従って）入力バッチの2つの拡張バージョンX′とX′′の投影と、それらに対応する投影Z′＝Hψ（Gθ（X′））とZ′′＝Hψ（Gθ（X′′））を計算します。そして、投影の両方のセットは、バッチ全体で正規化されます：

次に、相互相関行列Rを計算し、バッチサイズで正規化します：

最後に、Rを使って損失関数を計算します：

ここで、λは独立性制約の強さを制御します。最初の項は、対角要素が1になるように促します。これは、個々の特徴がバッチ全体で高い相関を持つ（整列する）ことを意味し、適用されたランダム補強によって定義されるような期待される変動内のインスタンスが、類似の特徴投影にマップされる（すなわち、一緒にクラスタ化される）ことを意味します。第2項は、各特徴が残りの特徴から独立するように、非対角要素をゼロにします。これにより、複数の特徴が同じ情報をエンコードしないようにすることで、表現能力が向上します。この損失関数により、Barlow Twins特徴抽出器と投影ヘッドは、標準的な確率的勾配降下法とバックプロペーション法で学習することができる。図7は、状態監視データから特徴を抽出するための1次元CNNバックボーンGθ と、バーロウ・ツインズ投影ヘッドHψ のアーキテクチャを示します。

図7：1次元CNNバックボーン特徴抽出器Gθ、教師ありKクラス分類器Fφ,a、バーロー・ツインズ投影ヘッドHψのアーキテクチャ。

情報共有のためのフェデレーテッド・ラーニング

ほとんどの工場フロアには、稼働中それぞれ異なる健康状態を経験する複数の同様の機械があります。1台の機械からのデータには、ほとんど異なる状態が含まれていないかもしれないが、ネットワークの制約により、各機械がすべてのセンシングデータをクラウドにストリーミングして、統一されたデータセットを構築することができないかもしれません。マシン自体が地理的に配置されていなかったり、データ共有契約のない別々のメーカーに属していたりする場合もあります。これらの障害を回避するために、モデルはFedAvgでトレーニングすることができます（アルゴリズム1を参照）。各クライアントマシンはそのデータの完全な所有権を保持しながら、FLサーバー上のモデルの平均化を通じて間接的に新しい健康状態に関する知識を得ます。このグローバルモデルを介したクライアント間の間接的な情報共有は、TLの一形態と見なすことができます。各クライアントが更新されたグローバルモデルを受信すると、他のクライアントの観察と知識から恩恵を受けます。したがって、あるクライアントがある健康状態に関するトレーニング経験が不足していたとしても、他のクライアントがその健康状態に関するトレーニングを行っていれば、FLアルゴリズムは、この経験を知識のないクライアントに還元します（図8参照）。このように、FLはクライアント間でTLの利点を提供し、将来の障害状態に対する各クライアントの汎化を向上させる可能性があります。さらに、クライアントマシンは、更新されたモデルを1ラウンドにつき1回だけFLサーバーに送信するため、クラウドに送信されるデータの量と速度を大幅に削減できます。FLとSSLを組み合わせることで、DLは、ネットワーク通信を削減し、製造者のプライバシーを維持しながら、ラベル付けされていない分散学習データを使用して、現実的な状態監視シナリオで動作することができます。

図8：各クライアントが異なる条件を経験し、モデルの重みを平均化することで、この知識が他のクライアントに拡散され、データセットの多様性が最大化され、新たな障害に対するパフォーマンスが向上します。

実験

提案された主張を検証するために、2つのケーススタディが行われています。最初の研究は、教師あり学習または自己教師あり学習（SSL）を用いた事前訓練後の表現の一般化能力を、異なる数のクラスにおいて比較します。この研究は、事前訓練されたモデルがどの程度異なるクラスにまたがって効果的に機能するかを評価し、教師あり学習とSSLのどちらがより一般化可能な特徴を学習するかを検討します。

二番目の研究では、分散型トレーニングであるフェデレーテッドラーニング（FL）がモデルのパフォーマンスに及ぼす影響を、新たに出現する故障の状況下で調査します。この研究は、FLが各クライアントマシンで個別に学習されたモデルをどのように統合し、未知の故障に対するモデルの性能をどの程度向上させるかを探ります。

これらのケーススタディは、教師あり学習と自己教師あり学習、および集中型トレーニングと分散型トレーニングのアプローチの効果を具体的に比較し、これらの方法が実際の問題にどのように応用され得るかを示すものです。

モーターコンディションデータセット

どちらのケーススタディでも、図9 のSpec- traQuest Machinery Fault Simulator（MFS）から収集したモータ故障状態データセットを使用しています。12kHzのサンプリングレートで、直交して取り付けられた2つの加速度計が振動データを取得し、電流クランプが電流信号を測定します。正常（N）、異常ベアリング（FB）、曲がりロータ(BoR）、破損ロータ（BRR）、不整列ロータ（MR）、アンバランスロータ（UR）、位相損失（PL）、およびモータ異常の8つの状態について、60秒間の定常状態データが収集されます。

アンバランス電圧（UV）。各条件は、2000 RPMと3000 RPM、負荷0.06 N-mと0.7 N-mで実行され、合計32通りの健康状態とプロセス・パラメータの組み合わせがあります。簡単のため、各独自の組み合わせはxyで識別され、xは回転数パラメータを指定する2または3、yは高負荷または低負荷パラメータを指定する "H "または "L "です（例えば、3Lは負荷0.06N-mで3000回転を意味する）。その後、信号は[-1, 1]に正規化され、DL実験用に256ポイントのウィンドウに分割されます。

図9: モータの健全性状態データセットの収集に使用されるSpectraQuest機械故障シミュレータ。

転移学習実験

最初の実験セットは、SSLがより効果的なTL事前訓練法であるという主張を検証するものです。実験デザインは以下の仮定を反映しています：

1. ラベル付けされた学習データは、プロセス・パラメータのソースセットから利用可能

2. ラベル付けされていないトレーニング・データが、プロセス・パラメータのターゲット・セットから利用可能

3. 事前に訓練されたモデルは、配備された後に新しいタイプの故障に遭遇する可能性がある。

このシナリオから、3つの比較方法が導き出されます：

• 教師あり（ソース）：ラベル付けされたソース・ドメイン・データに対する教師あり学習

• バーロウ・ツインズ（ソース）：ソース・ドメイン・データに対する自己教師あり学習（ラベルを無視）

• バーロウ・ツインズ（ターゲット）：ラベル付けされていないターゲット・ドメインのデータに対する自己教師あり学習

3つの方法はすべて、図7に示す同じ1次元CNN特徴抽出バックボーンGを用います。教師ありネットワークはKクラス分類器Fϕ をバックボーンに追加し、Barlow Twinsは投影ヘッドHψ を追加します。そして、ネットワークFϕ とG_θ は、確率的勾配降下とバックプロパゲーションを用いて、(1)からクロスエントロピー損失で最適化されます。そしてBarlow Twinsモデルは、入力バッチ補強XJ とXJJ から、投影ZJ = Hψ (Gθ (XJ ))とZJJ = Hψ (Gθ (XJJ )) を生成し（アルゴリズム2を参照）、学習損失はλ = 0.01で(5)-(7)から計算されます。教師ありモデルと教師なしモデルはAdamオプティマイザと学習率0.0005で1000エポック学習されます。

各手法の表現の品質と汎化性を評価するために、事前訓練された各ネットワークの凍結された特徴は、SSLモデルを評価するための慣例に従って、8つのすべての健康状態（評価データセット）からラベル付けされたターゲット・ドメインデータにアクセスして、特権的な線形評価分類器を訓練するために使用されます。特権的なラベル情報へのアクセスは、この分類器が実際に訓練され、展開されることを妨げるが、基礎となる特徴表現の分離可能性を評価するために受け入れられている標準に従います。評価分類器は、凍結された特徴に対して75エポック学習され、テストセットの精度が表現の品質を判断するために使用されます。

新しい未知の故障の発生をシミュレートするために、ソース・ドメインとターゲット・ドメインの学習データセットは、ランダムに選択された2つ、4つ、または6つの健康状態に制限されます。評価データセットには8つの条件すべてが含まれるため、これはそれぞれ、事前学習後に6つ、4つ、または2つの未知のクラスに遭遇することに相当します。

ソース/ターゲット・ドメインの選択、トレーニングの健康状態、モデルの初期化によって引き起こされるばらつきを捕捉するために、3つの比較手法それぞれについて150回ずつ、合計450回の実験を行いました。

表1：トランスファー学習による健康状態セット

連邦学習実験

FL実験では、訓練条件が不連続なクライアント間でモデル情報を共有することで、将来出現する故障の識別可能性が向上するかどうかを判定します。

これを評価するために、2つのクライアントはそれぞれ、ランダムに選択された2つのモーター健全性条件を割り当てられる。各クライアントは、すべてのプロセス・パラメータの組み合わせ（すなわち、2L、2H、3L、3H）から、その2つの条件のローカル学習データを持ちます。FLサーバーは、ランダムな重みを持つ初期グローバルモデルを両クライアントに提供します。FLの各ラウンドにおいて、クライアントは、固有の2つの健康状態のセットでローカルモデルを訓練し、更新されたモデルをサーバーに返します。サーバーは重みを平均化し、次のFLラウンドに備えて新しいモデルをクライアントに再配布します（アルゴリズム1を参照）。

FL実験は1000ラウンド実行され、各クライアントは各ラウンドで20ローカルバッチを学習します。教師あり学習を行う場合、各クライアントは(1)のクロスエントロピー損失を用いて重みを更新します。Barlow Twins学習では、各クライアントは(5)-(7)の相互相関損失。教師あり学習とBarlow Twinsの両方が、図6に示すTLと同じネットワーク・アーキテクチャを使用し、Adamオプティマイザと学習率0.0002で学習されます。

4つのモデル構成（教師あり学習とBarlow Twins、それぞれFLあり、FLなし）のそれぞれを、5つのランダムシード（0～4）で訓練し、ランダム初期化によるばらつきを測定します。個々の健康状態による影響を排除するために、5つのユニークな訓練条件セットがテストされます（表2参照）。4つの方法、5つのシード、および5つの条件セットのすべての組み合わせにより、合計100のFL実験が行われます。

表2：学習型健康状態セット

結果と考察

その結果、バーロウ・ツインズは教師あり学習よりも汎化可能で転送可能な表現を生成することが示され、情報共有のためのFLがさらにパフォーマンスを向上させる可能性があることが示されました。

トランスファー学習の結果

表3と図10は、ラベル付きソース・プロセス・パラメータに対する教師あり学習、ラベルなしソース・プロセス・パラメータに対するBarlow Twins、そしてラベルなしターゲット・プロセス・パラメータに対するBarlow Twinsの比較結果を示しています。精度指標は、ターゲット・プロセス・パラメータの下での全8つの条件を含む評価データセットのテスト分割から計算されています。トレーニングにたった2つの条件が利用可能でも、Barlow Twinsは全8つの健康状態を示された際に93.5％の精度で分離可能な表現を生成します。同じシナリオでの教師あり学習の精度は83.9％に限定されます。図11は、教師あり学習に対するSSLの改善を強調する代表的な混同行列を示しています。たとえば、教師あり学習は軸のずれ(MR)とアンバランスロータ(UR)の状態を区別するのに苦労しますが、Barlow Twinsを使用すると、これらのカテゴリ内の精度がそれぞれ15ポイントと6ポイント向上します。さらに、Barlow Twinsはラベルのないターゲット・ドメインデータを利用して表現をさらに改善することができます—表3のBarlow Twins（Target）ですが、教師あり学習はラベルのないためこのデータを使用できません。興味深いことに、Barlow Twins（Target）はBarlow Twins（Source）に比べて明確な改善を示していません。これは、SSLが単一のソースセットのプロセス・パラメータから一般的な表現を見つけることができることを示しています。トレーニングに含まれる条件の数が増えると、教師あり学習とBarlow Twinsの性能の収束は、それぞれのアプローチの最適化目的によって説明されます。教師あり学習は、分類器のための意思決定境界に沿ってデータを分割しようとします。これにより、トレーニングクラスが識別可能であることが保証されますが、特徴クラスタのコンパクトさは保証されません。したがって、新たな故障の特徴がトレーニング中に見られた故障の特徴と重複する可能性があると考えられます。対照的に、Barlow Twinsは類似した入力インスタンスが相関して密接に一致する特徴を持つように促します。この特徴の類似性に重点を置くことで、新しい故障の特徴が既存のクラスタと重複する可能性を減少させる密なクラスタが生成されます。トレーニング条件の数が増加すると、教師あり学習によって作成される追加の意思決定境界が特徴クラスタのコンパクトさを自然に改善し、その評価精度をBarlow Twinsに近づけます。しかし、製造アプリケーションでは出現する可能性のある故障の数と比較してクラスの多様性が限られているため、これらの結果は不確実な運用環境において、教師あり学習から転送された表現よりもSSLベースの表現の一般的な優位性を示しています。

表3：転移学習の評価精度結果(%)

図10：トレーニング領域における故障数に対する8つのモーター条件すべてにおける重み伝達法の目標領域精度。

図11: 6つの出現条件を持つ新しいプロセス・パラメータ(3L→2H)にモデルを移行する際に、教師あり学習よりもBarlow Twinsを使用することの優位性を示す代表的な混同行列

フェデレーテッド・ラーニングの成果

表4と図12は、フェデレーテッドラーニング（FL）の結果を示しています。教師あり学習では、FLが組み込まれると新たに出現する故障の識別能力が顕著に向上します。FLがない場合、クライアント間の全体的な評価精度は67.6%に過ぎません。FLが導入されると、FedAvgサーバーを介して間接的に健康状態に関する情報が共有され、全体的な精度が73.7%に向上します。FL中に両方のクライアントがグローバルモデルを共有するため、精度はほぼ同一です。FLなしでトレーニングされた教師あり学習クライアントは、6ポイントの精度差を示します。Barlow Twinsは、FLが除外されても、すべての教師あり学習方法を上回ります。別々にトレーニングされたクライアントは、全体的な評価精度を82.4%に達します。FLとBarlow Twinsが組み合わされると、パフォーマンスは83.7%に増加し、すべての方法の中で最高の全体的な精度となります。教師ありの場合と同様に、FLはクライアント間の精度差を減少させ、3.3ポイントから0.1ポイントに縮小します。図13の代表的な混同行列は、FLが含まれるとクライアント1の改善を示しています。フェーズロス（PL）の精度は90.5%から97.8%に、ミスアラインドローター（MR）の精度は63.9%から71.4%に増加します。これらの結果は、個々のクライアントが限られた数の異なる健康状態を見る場合、FedAvgサーバーを介した間接的な情報共有が新たに出現する故障の識別能力を向上させる可能性があることを示しています。異なる健康状態のサブセットでトレーニングされたモデルを統合することにより、FLはトレーニングデータセットの多様性を増加させ、学習された特徴の一般化を改善することができます。今後の研究では、さらに多くのデータセットと健康状態の分割でSSLとFLをテストし、FLが特徴の一般化を改善するための価値を包括的に評価する必要があります。

表4: 連立学習の精度結果(%)

図12：すべての健康状態に関するクライアントの評価精度

図13: Barlow Twinsクライアント1のFLを含む利点を示す代表的な混同行列。クライアント1は{BoR, N}で訓練され、クライアント2（図示せず）は{BrR, FB}で訓練されました。

結論

この研究では、自己教師あり学習（SSL）と教師あり学習法によって学習された特徴表現の一般化能力を比較しています。重み転送の実験において、Barlow Twinsで訓練された特徴抽出器は、新たな故障を含む異なるプロセス・パラメータを持つ運用環境に転送する際に、教師あり分類器よりも優れた性能を示しました。トレーニングにたった2つの健康状態しか使用しない場合でも、ソース・ドメインからBarlow Twinsによって学習された特徴は、ラベル付きソース・ドメインデータでの教師ありトレーニングによって学習された表現よりも、評価分類器の精度が9.6ポイント高い結果をもたらしました。さらに、複数のSSLクライアントモデルは、FLを通じて情報を共有し、大量のデータをクラウドにストリームする必要なくパフォーマンスを向上させることができます。したがって、ラベル付きデータが多様でない大規模なラベルなしデータセットを持つ製造アプリケーションは、SSLとFLを使用して、新たに出現する故障に対する一般化可能な表現を学習することができます。条件間での新たな故障検出能力が向上することで、モデルは工場の現場により適したものとなり、実用的な状態監視の展開の信頼性が向上します。