最新AI論文をキャッチアップ

時系列での事前学習を自己教師対照学習で初めて現実化した時間-周波数整合性(TF-C)

時系列での事前学習を自己教師対照学習で初めて現実化した時間-周波数整合性(TF-C)

Time-series

3つの要点
✔️ NeurIPS 2022採択論文です。時系列データにおいて、様々な変化により学習したモデルがうまく適用できないことがあります。
✔️ このような課題に対して、TF-Cベースのモデルは時間空間と周波数空間でそれぞれ自己教師対照事前学習を行うことにより、ターゲット領域のデータを与えることなく、高精度のモデルを学習できることを示しました。
✔️ ファインチューニングを行うことにより、クラスタリングや異状検知など様々な後タスクに適応させることができます。

Self-Supervised Contrastive Pre-Training For Time Series via Time-Frequency Consistency
written by Xiang ZhangZiyuan ZhaoTheodoros TsiligkaridisMarinka Zitnik
[Submitted on on 17 Jun 2022 (v1), last revised 15 Oct 2022 (this version, v3)]
Comments: Accepted by NeurIPS 2022
Subjects: Machine Learning (cs.LG); Artificial Intelligence (cs.AI)

code:  

本記事で使用している画像は論文中のもの、紹介スライドのもの、またはそれを参考に作成したものを使用しております。  

概要

時系列の事前学習は、時間的ダイナミクスのシフト、高速で進化するトレンド、長距離および短周期の効果など、事前学習とターゲットドメインの間のミスマッチの可能性があり、下流タスクの性能低下を及ぼす時系列独自の課題を持っています。ドメイン適応法はこれらのシフトを緩和することができますが、ほとんどの手法はターゲットドメインから直接例を必要とするため、事前学習には最適ではありません。

この課題を解決するためには、異なる時間的ダイナミクスを持つターゲットドメインに対応する必要があり、事前学習時にターゲットの例を見ることなくこれを行える方法が必要です。

他の領域でのモダリティと比較して、時系列では、同じ例の時間ベースの表現と周波数ベースの表現は、時間周波数空間において近くに位置することが予想されます。このため、時間-周波数一貫性(TF-C)はすなわち、時間ベースの近傍表現が周波数ベースの近傍表現に近い形で埋め込まれることであり、事前学習には望ましいと考えられます。

TF-Cをきっかけとして、著者らは、自己教師信号を時間成分と周波数成分の間の距離として表現し、それぞれを対照的推定によって個別に訓練する分解可能な事前訓練モデルを定義します。8つのデータセットで新方式を評価しました。

8つのSOTA手法との比較実験により、TF-Cは、1対1の設定(例えば、EMGデータでEEGプレトレーニングモデルをファインチューニングする)において平均15.4%(F1スコア)、1対多の設定(例えば、手の仕草認識または機械の故障予測のいずれかでEEGプレトレーニングモデルをファインチューニングする)において8.4%の精度でベースラインを上回り、実際のアプリケーションでの幅広いシナリオでの性能向上が期待できます。

はじめに

表現学習により時系列解析は大幅に進歩しましたが、時系列データに対する一般化可能な表現の学習は依然として基本的に困難です。表現生成により得られる利点は数多くありますが、中でも特に事前学習機能は実用上重要です。事前学習の中心は、多様なデータセットの時系列をどのように処理すれば、異なるデータセットから得られる新しい時系列に対する一般化を大幅に改善できるかです。あるデータセットでニューラルネットワークモデルを学習し、それを新しいターゲットデータセットに転送して微調整を行うことで、つまりそのターゲットデータで明示的に再学習することなく、結果として、ターゲットデータセットに合わせた最先端のモデルと少なくとも同程度の性能が得られることが期待されます。

しかし、残念ながら、期待された性能向上は、様々な理由(例えば、分布のずれ、事前学習時に不明な対象データセットの特性など)で実現されないことが多く、時系列の複雑さによりさらに困難になります。このような時系列の複雑さにより、事前学習のための知識伝達の有用性を制限されます。例えば、ほとんどが低周波成分(滑らかなトレンド)の多様な時系列データセットでモデルを事前学習しても、高周波成分(過渡的なイベント)の下流タスクでは良好な移行につながらない場合があります。このような課題を検討することで、どのような帰納的バイアスが時系列の一般化可能な表現を促進することができるかを知る手がかりを得ることができます。

また、事前学習ではターゲットとなるデータセットが利用できないため、事前学習モデルは、以前に見たことのないターゲットデータセットに対して真である潜在的な特性を捉えることが求められます。この問題意識の核心は、事前学習とターゲットデータセットで共有され、事前学習からファインチューニングへの知識伝達を可能にする特性というアイデアです。コンピュータビジョン(CV)では、初期神経層がエッジや形状など、画像のスタイルやタスクに関係なく普遍的な視覚要素を捉えるという知見によって、事前学習が推進されています。自然言語処理(NLP)では、異なる言語間で共有される意味論と文法の言語原理によって、事前学習の基盤が与えられています。しかし,前述のように時間的な複雑さがあるため,時系列に対する事前学習のためのそのような原理はまだ確立されていません。さらに、教師ありの事前学習は、大規模な注釈付きデータセットへのアクセスを必要とするため、豊富なラベル付きデータセットが少ない領域での利用が制限されます。例えば、医療分野では、大規模なデータのラベル付けはしばしば実行不可能であり、高価でノイズが多い場合があります(ECG信号が正常なリズムを示すか異常なリズムを示すかなど、専門家が真実のラベル付けについて意見が異なる場合があります)。

そこで本論文では、ラベル付きデータセットの不足に制約されない自己教師あり学習法を採用します。著者らは、時間-周波数整合性(TF-C)をモデル化することにより、時系列における自己教師付き事前学習のための戦略を導入します。TF-Cは、同じ時系列サンプルから学習した時間ベースの表現と周波数ベースの表現が、異なる時系列サンプルの表現よりも時間-周波数空間において互いに近いはずだと規定します。具体的には、時間ベースの表現を生成するために、時間空間における対照学習を採用します。並行して、周波数スペクトルの特徴に基づく一連の新しい補強を提案し、対照的なインスタンス識別によって周波数ベースの埋め込みを生成します。これは、豊かなスペクトル情報を活用し、時系列における時間-周波数の一貫性を探るために、周波数に基づく対照的な拡張を開発した最初の研究です。事前学習の目的は、新しい整合性損失を用いて、時間ベースの埋め込みと周波数ベースの埋め込みの間の距離を最小化することです(図1(a))。この自己教師損失は、事前学習モデルを最適化し、潜在空間における時間領域と周波数領域の間の一貫性を強化するために用いられます。モデルパラメータに符号化された学習された関係は、ファインチューニングモデルを初期化するために転送され、関心のあるデータセットにおける性能を向上させます(図1(b))。 

図1 a. 時間-周波数整合性(TF-C)の図解。時系列サンプルxTiの時間ベースの埋め込みzTiと周波数ベースの埋め込みzFi、およびxTiの拡張から学習したは、潜在的な時間-周波数空間において互いに近いはずです。 b. 時系列のTF-C特性を利用して、小さなシナリオ固有のデータセット上でΦにファインチューニングされるパラメータΘの事前訓練モデルFを最適化します。

関連研究 

時系列に対する事前学習 時系列に対する自己教師付き表現学習や画像に対する自己教師付き事前学習に関する研究はありますが、これら2つの分野の交差点、すなわち時系列に対する自己教師付き事前学習は、まだ未解明です。時系列では、どのような合理的な仮定が事前学習とターゲットデータセットを橋渡しすることができるかは明らかではありません。したがって、CVやNLPにおける事前学習モデルは、データのモダリティの不一致のために時系列には直接適用できず、既存の結果は改善の余地があります。Shiらは、自己教師付き時系列事前学習のために明示的に設計し、局所的・大域的な時系列パターンを捉えているが、設計された予習タスクがなぜ一般化可能な表現を捉えることができるのかについては説得力がありません。時系列の文脈で転移学習を適用した研究はいくつかありますが、どの概念特性が時系列の事前学習に最も適しているか、なぜ適しているかについての基礎はまだありません。このギャップに対処するため、著者らは、異なる時系列データセットに不変であるように設計されたTF-Cが、一般化可能な事前学習モデルを生成できることを示します。

学習中にターゲットデータセットにアクセスする必要があるドメイン適応とは異なり、事前学習モデルはファインチューニング用データセットにアクセスする必要がありません。そのため、事前学習の恩恵を受けるためには、汎化可能な時系列特性を特定する必要があります。さらに、自己教師あり領域適応では、ターゲットデータセットにラベルを必要としないが、モデル学習のためにラベルを必要とします。これに対し、TF-Cは事前学習時にラベルを必要としません。

時系列を用いた対照学習 対照学習は、自己教師学習の一般的なタイプであり、正のサンプルペア(元の拡張と、同じ入力サンプルの別の代替拡張/ビュー)がより近づき、負のサンプルペア(元の拡張と代替入力サンプル拡張)がより離れるように、入力を埋め込み空間にマッピングするエンコーダを学ぶことを目的としています。時系列データにおける対照学習は、時系列データの重要な不変性特性を捕らえる拡張を特定するのが難しいこともあり、あまり研究されていません。例えば、CLOCSは隣接する時間セグメントを正のペアとして定義し、TNCは重なり合う時間近傍が類似の表現を持つと仮定します。これらの方法は、時間的不変性を利用して、対比損失を計算するために使用される正のペアを定義しますが、変換不変性(例えば、SimCLR)、文脈不変性(例えば、TS2vecおよび TS-TCC)や増強などの他の不変性も可能です。本研究では、複数の不変性を利用して多様な拡張を生成する拡張バンクを提案し、事前学習モデルに豊かさを付加します。重要なのは、時系列の周波数スペクトルに摂動を与え(例えば、周波数成分の追加や削除、振幅の操作など)、モデルを局所的な周波数変動にさらすことでより良い表現を学習する、周波数ベースの拡張を提案することです。以前の研究では、CoSTは周波数領域を通して逐次信号を処理しますが、拡張は依然として時間空間で実装されています。同様に、BTSFは周波数領域を含むが、そのデータ変換はインスタンスレベルのドロップアウトを使用して時間領域でのみ実装されています。知る限り、これはコントラスト学習に周波数不変性を活用するために周波数スペクトルを直接変化させる最初の研究です。さらに、2つの対照的なエンコーダにTF-Cを適用する事前学習モデルを開発しました。 

問題定式化

事前学習データセットのラベルなし時系列サンプルが与えられ、サンプルxpretiはKpretチャンネルとLpretタイムスタンプを持ちます。は、ファインチューンです。それぞれがKtune個のチャンネルとLtune個のタイムスタンプを持つ、ラベル付き時系列サンプルのファインチューニングデータセットとします。さらに、すべてのサンプルxtuneiはラベルyi∈{1,.C}を伴います。ここでCはクラスの数です。は入力時系列サンプルを表し、はxiの離散周波数スペクトルを表します。

問題(時系列のための自己教師対照事前学習) N個のサンプルを持つラベルのない事前学習データセットDpretと、M個のサンプルを持つターゲットデータセットDtuneが与えられます( )。目標は、Dpretを用いてモデルFを事前学習し、Dtune上でモデルパラメータをファインチューニングすることにより、ファインチューニングされたモデルが全てのxtuneiに対して一般化可能な表現を生成するようにすることである。 

事前学習には、ラベルのないデータセットDpretのみが利用でき、ファインチューニングには、小さなラベル付きデータセットDtuneが利用できます。つまり、ラベルのない時系列データセットDpretでモデルFを事前学習し、その最適化されたモデルパラメータΘを、データセットDtuneを用いてF(-,Θ)からF(-,Φ)へとファインチューニングをします。Φはファインチューニングされたモデルパラメータを表しますす。なお、この問題設定(すなわち、Dpretはターゲットデータセットに依存しない)は、ファインチューニングデータセットDtuneが事前学習中にアクセスされないため、ドメイン適応とは異なります。その結果、事前学習されたモデルは、再学習することなく、多くの異なるファインチューニングデータセットで使用することができます。

時間-周波数一貫性(TF-C)の根拠 中心的なコンセプトは、時系列データセット間で保存される一般的な性質を特定し、それを用いて効果的な事前学習のための転移学習を導くことです。時間領域は、センサーの読み出しが時間とともにどのように変化するかを示すのに対し、周波数領域は、信号が全スペクトルにわたって各周波数成分内にどの程度存在するかを示します。周波数領域を明示的に考慮することで、時間領域だけでは直接捉えられない時系列の挙動を理解することができます。しかし、既存の対比法は、時間領域のモデリングにのみ焦点を当て、周波数領域を完全に無視しています。時間領域と周波数領域は同じデータの異なるビューであり、フーリエや逆フーリエなどの変換を使用して相互変換することができるため、高容量メソッドの場合、そのアプローチは十分であると主張することができます。信号処理理論に基づく2つのドメインの関係は、時系列分布に関係なく有効な不変性を提供するため、事前学習のための誘導バイアスとして機能することができます。この不変性を表現学習のレンズを通してアプローチし、次に時間-周波数整合性(TF-C)を定式化します。TF-C特性は、すべてのサンプルxiについて、同じサンプルの時間ベースの表現と周波数ベースの表現、およびそれらの局所的拡張が、潜在空間において互いに近接しているような潜在的な時間-周波数空間が存在することを仮定しています。

表現上の時間-頻度整合性(TF-C)xiを時系列とし、FをTF-Cを満たすモデルとします。すると、時間ベースの表現と周波数ベースの表現、およびxiの局所拡張の表現は、潜在的な時間-周波数空間において近接しています。

著者らの戦略は、データセットDpretを用いて、FのモデルパラメータΘ中にTF-Cを誘導し、それを用いてDtune上でターゲットモデルを初期化し、下流の予測のための一般化可能な表現を生成することです。TF-Cの不変的な性質は、DpretとDtuneの間に大きな不一致(時間的ダイナミクス、意味的な意味など)がある場合でも、このアプローチによって橋渡しができることを意味し、時系列に対する一般的な事前学習のための手段を提供するものです。

TF-Cを実現するために、モデルFは、時間エンコーダGT、周波数エンコーダGF、時間ベースの表現と周波数ベースの表現をそれぞれ同じ時間-周波数空間にマッピングする2つの空間横断プロジェクタRTとRFの4つの構成要素を備えています(図2)。この4つの構成要素により、時間ベースの埋め込みと周波数ベースの埋め込みが接近するように、xiを潜在的な時間-周波数空間に埋め込む方法が提供されます。

図2 TF-Cアプローチの概要 TF-Cの事前学習モデルFは、時間エンコーダGT、周波数エンコーダGF、2つの異空間プロジェクタRTとRFの4つのコンポーネントからなる。入力時系列xiに対して、このモデルは時間ベースの表現(すなわち、入力xiとその拡張版のそれぞれと周波数ベースの表現(すなわち、入力xiとその拡張版のそれぞれ)を生成する。TF-C特性は、潜在的な時間-周波数空間における時間-周波数ベースの表現の整列を促進することによって実現され、Fをこれまでにないターゲットデータセットに転送するための手段を提供する。

提案手法

 次に、開発した自己教師型対照事前学習モデルFのアーキテクチャを示します。

タイムベースコントラストエンコーダ

与えられた入力時系列サンプルxiに対して、時間ベースの拡張バンクを通じて拡張セットを生成します。各要素は、時間的特性に基づいてxiから拡張されます。ここで、時間ベースの拡張バンクには、ジッタリング、スケーリング、タイムシフト、および近隣セグメントが含まれ、これらはすべて対照学習でよく確立されているものです。著者らは、(単一のタイプの拡張ではなく)多様な拡張を生成するために拡張バンクを開発し、モデルを複雑な時間的ダイナミクスにさらすことで、より頑健な時間ベースの埋め込みを生成します。

入力xiに対して、ランダムに拡張サンプルを選択し、サンプルを埋め込みにマッピングする対照的時間エンコーダGTに送り込みます。を得ます。GTを通過した後のの埋め込みは、の埋め込みに近く,別のサンプルから得られる の埋め込みからは離れていると仮定します。

対照的な時間損失 正のペア内の類似度を最大化し、負のペア()内の類似度を最小化するために、距離関数dとして、対照学習で広く用いられているNT-Xent (正規化温度スケールクロスエントロピー損失) を採用します。 時間ベースの対照エンコーダの損失関数を以下のように定義します:

ここで、sim(u, v) = uT v/ ‖u‖ ‖v‖ はコサイン類似度を表し、は i = j のとき 0、それ以外は 1 となる指標関数、τはスケールを調整する時間パラメータです。xj∈Dpretは、異なる時系列サンプルまたはその拡張サンプルを指します。この損失関数 は、時間エンコーダGTに対して、正のペアに対してはより近い時間ベースの埋め込みを生成し、負のペアに対しては互いに離れた埋め込みを押し出すように促します。

周波数ベースの対照エンコーダー

時系列サンプルから変換演算子(例えば、フーリエ変換)を通して周波数スペクトルを生成します。時系列の周波数情報は普遍的であり、古典的な信号処理において重要な役割を果たしますが、時系列の自己教師付き対照表現学習においてあまり研究されていません。ここでは、周波数スペクトルの特徴に基づきに摂動を与える拡張法を開発し、周波数に基づく表現の生成方法を示します。

周波数スペクトルのすべての周波数成分は、対応する周波数と振幅を持つ基底関数(例えば、フーリエ変換のための正弦波関数)を示すので、周波数成分を追加または削除することによって、周波数スペクトルを摂動させます。周波数領域での小さな摂動は、時間領域での時間的パターンに大きな変化をもたらす可能性があります。摂動された時系列が元のサンプルに似ていることを確認するために(周波数領域だけでなく時間領域でも;図6)、摂動に小さな量Eを使用します(Eは操作する周波数成分の数を表しています)。周波数成分の除去では、ランダムにE個の周波数成分を選び、その振幅を0にします。周波数成分の追加では、α Amより振幅が小さいものの中からランダムにE個の周波数成分を選び、その振幅をα Amにします。Amは周波数スペクトルの最大振幅、αは摂動された周波数成分のスケールを調整するためにあらかじめ定義された係数です(本論文ではα=0.5)。周波数拡張バンクを通じて、に対する拡張セットを生成します。上述したように、BFには2つの拡張方法(すなわち、周波数成分の除去または追加)があり、です。

周波数エンコーダGFを利用して、周波数スペクトルを周波数ベースの埋め込みにマッピングします。周波数エンコーダGFは、元の周波数スペクトルと、わずかに乱れた周波数スペクトルに対して同様の埋め込みを学習できるものとします。そこで、正のペアを、負のペアをとします。

対照的な周波数損失

サンプルxiの周波数ベースの対比損失を次のように計算します:

予備実験では、τの値は性能にほとんど影響しないことがわかり、すべての実験を通じて同じτを使用します。LF,iは、周波数スペクトル摂動に対して不変な埋め込みを生成する周波数エンコーダGFをもたらします。

時間-周波数の整合性

学習された埋め込みがTF-Cを満たすように促すために、整合性損失項目LC,iを開発します:与えられたサンプルに対して、その時間ベースの埋め込みと周波数ベースの埋め込み(およびそれらの局所近傍)は、互いに近いと仮定します。埋め込み間の距離が測定可能であることを確認するために、時間空間からを、周波数空間からを、それぞれ射影器RTとRFを通して、時間-周波数合同空間にマッピングします。具体的には、各入力サンプルxiに対して、という4つの埋め込みを持ちます。最初の2つの埋め込みは時間的特性に基づいて生成され、後の2つの埋め込みは周波数スペクトルの特性に基づいて生成されます。

TF-Cに従った時間-周波数空間の埋め込みを強制するために、時間ベースの埋め込みと周波数ベースの埋め込みの間の距離を測定する一貫性損失LC,iを設計します。ここでは、を用いて、と の間の距離を表現します。同様に、 を定義します。

次に、 の3つの埋め込みを伴う を詳細に観察してみましょう。ここで、 と は元のサンプル( )から学習し、 は拡張された から学習します。したがって、直感的には、 と比較して に近いはずです。この相対的な関係から、よりも小さい を学習するよう、提案モデルを促します。トリプレットロスに触発されて、著者らはを一貫性損失LC,iの項として設計しました。δは負のサンプルを遠くに保つための与えられた定数マージンです。この項は、を小さくし、 を相対的に大きくするようにモデルを最適化します。同様に、 は  および  よりも小さくなるはずです。まとめると、サンプルxiの整合性損失LC,iを次のように計算します:

ここで,Spairi は,時間ベースの埋め込みと周波数ベースの埋め込み間の距離を表します。各ペアにおいて、元のサンプルの代わりに増強されたサンプルに由来する埋め込みが少なくとも1つ存在します。δはあらかじめ定義された定数です。全てのトリプレットロス項目を組み合わせることで、LCはモデル最適化において、時間ベースの埋込みと周波数ベースの埋込みの間の整合性を捉えるよう、事前学習モデルに促します。なお、式3では、異なる時系列サンプル間の損失を明示的に測定していませんが、STFiとSpairiの計算において、サンプル間の関係は暗黙的にカバーされます。

実装と技術的な詳細

事前学習における全体的な損失関数は3つの項を持ちます。まず、時間ベースの損失LTは、時間的な拡張に不変な埋め込みを学習するようモデルに促しますす。第二に、周波数ベースのコントラスト損失LFは、周波数スペクトルベースの拡張に不変な埋め込みを学習するよう促します。第三に、整合性損失LCは、時間ベースの埋込みと周波数ベースの埋込みの間の整合性を保持するようにモデルを導きます。まとめると、事前学習の損失は以下のように定義されます:

ここで、λは対照的損失と一貫性損失の相対的重要度を制御します。すべての事前学習サンプルでLTF-C,iを合計することにより、総損失を計算します。実装では、対照的な損失はバッチ内で計算されます。問題定義から、学習したいモデルFは、ニューラルネットワークGT、RT、GF、RFの組み合わせです。事前学習が完了したら、モデル全体のパラメータを保存し、F(-, Θ)と表記します(Θは学習可能な全てのパラメータを表します)。サンプルxtuneiが提示されると、ファインチューニングされたモデルFは以下のように連結によって埋め込みztuneiを生成します:

ここで、Φはファインチューニングされたモデルのパラメータです。

実験

開発したTF-Cモデルを8つの多様なデータセットで10のベースラインと比較します。時系列分類タスクは、1対1および1対多の伝達学習セットアップの文脈で調査しました。また、クラスタリングや異常検知などの下流タスクでもTF-Cを評価しました。

データセット (1) SLEEPEEGは197人の個人から収集された371,055個の単変量脳波(EEG;100Hz)を持ちます。各サンプルは、5つの睡眠段階のうちの1つと関連付けられています。(2) EPILEPSYは、500人の被験者の脳活動を1チャンネルのEEGセンサー(174Hz)でモニターしたものです。被験者がてんかんを発症しているか否かを2値で判定します。(3) FD-A は,故障検出を目的とした機械システムの転がり軸受の振動信号を収集します。各サンプルには5,120個のタイムスタンプと3つの機械装置の状態のうち1つを示すインジケータがあります。(4) FD-B は、FD-Aと同じ設定であるが、転がり軸受は異なる作業条件(例えば、回転速度が変化する)で実行されました。(5) HARは、6つの日常活動から10,299個の9次元サンプルを用意しました。(6) GESTUREは、加速度センサで記録された8つのハンドジェスチャから収集された440サンプルを含みます。(7) ECG は、人間の生理学に基づき4つのクラスに分類された8,528個のシングルセンサーECGレコーディングを含みます。(8) EMGは、筋疾患を示唆する3クラスラベルを持つ163個のEMGサンプルで構成されています。 

ベースライン 10個のベースライン手法を検討しました。これには8つの最先端メソッドが含まれます: TS-SD, TS2vec, CLOCS, Mixing-up, TS-TCC, SimCLR, TNC, そしてCPCです。

実装 エンコーダGTとGFのバックボーンとして、2つの3層1次元ResNetを使用します。データセットには長い時系列が含まれており(FD-AとFD-Bのサンプルは5,120の観測値)、予備実験ではResNetがTransformerの変種より良い選択肢であることを確認しました。RTとRFには2つの完全連結層を使用し、パラメータは共有しません。周波数拡張ではE=1、α=0.5、損失関数ではτ=0.2、δ=1、λ=0.5を設定しました。

結果 1対1の事前トレーニング評価

セットアップ 1対1評価では、1つの事前学習用データセットでモデルを事前学習し、1つのターゲットデータセットでのみファインチューニングに使用します。

シナリオ1(SLEEPEEG → EPILEPSY): 事前学習はSLEEPEEGで行い、ファインチューニングはEPILEPSYで行います。どちらのデータセットもシングルチャンネルEEGを記述していますが、信号は頭皮の異なるチャンネル/位置からのもので、異なる生理学(睡眠とてんかん)を追跡し、異なる患者から収集されたものです。

シナリオ2(FD-A → FD-B): データセットには、回転速度、負荷トルク、半径方向の力など、異なる作業条件で動作する機械装置を記述します。

シナリオ3(HAR → GESTURE): データセットには異なるアクティビティが記録されています(6種類の人間の日常活動 vs 8種類のハンドジェスチャー)。両データセットとも加速度信号を含むが、HARは9チャンネル、GESTUREは1チャンネルです。

シナリオ4(ECG→EMG): どちらも生理的なデータセットですが、ECGは心臓からの電気信号を記録するのに対し、EMGは神経が筋肉を刺激したときの筋肉の反応を測定します。

上記4つのシナリオにおける事前学習用データセットとファインチューニング用データセットの間の不一致は非常に大きく、時系列データセットにおける様々なバリエーション(意味、サンプリング周波数、時系列長、クラス数、システム要因(例:デバイスや被験者数))をカバーしています。さらに、ファインチューニングに利用できるサンプル数が比較的少ない(EPILEPSY:60、FD-B:60、GESTURE:480、EMG:122)ため、セットアップが困難です。

結果 4つのシナリオの結果を表1および表4-6に示します。全体として、TF-Cモデルは24のテスト(4つのシナリオの6つのメトリクス)のうち16で勝利し、他の8つのテストでのみ2番目に良いパフォーマンスであることがわかりました。すべてのメトリクスを報告しますが、以下ではF1スコアについて述べる。平均して、我々のTF-Cモデルは全てのベースラインに対して15.4%という大きなマージンを出しています。最強のベースラインは様々ですが(シナリオ2のTS-TCC、シナリオ3のMixing-upなど)、TS-Cモデルは全てのシナリオで最強のベースラインを1.5%上回っています。具体的には、表1(HAR→GESTURE、シナリオ3)に示すように、TF-CはF1スコアで79.91%の最高性能を達成し、最良のベースラインTS-TCC(74.57%)に対して7.2%のマージンを獲得しました。シナリオ3では、モデル化が困難な複雑なデータセット(HARは6クラス、GESTUREは8クラス)が含まれていることが一つの原因であると考えられます。シナリオ3の複雑さは、他のシナリオの性能(±90%)に対して、全てのモデルの性能(±80%)が低いことから、さらに検証されました。

表1 1対1の事前学習評価(シナリオ3) HARで事前学習を行い、その後GESTUREでファインチューニングを行います。

表4 1対1設定(シナリオ1)での性能:SLEEPEEGで事前学習、EPILEPSYでファインチューニングを行います。

表5 1対1設定での性能(シナリオ2):FD-Aで事前学習、FD-Bでファインチューニングを行います。

表6 1対1設定(シナリオ4)での性能:ECGで事前学習、EMGでファインチューニング

結果 1対多の事前トレーニング評価

セットアップ 1対多評価では、1つのデータセットで事前学習を行い、その後、複数の対象データセットでファインチューニングを行うことで、事前学習を一からやり直すことなく、独立して評価します。8つのデータセットのうち、SLEEPEEGは最も複雑な時間的ダイナミクスを持ち、かつ最も大きなデータセット(371,055サンプル)です。そのため、SLEEPEEGで事前学習を行い、EPILEPSY、FD-B、GESTURE、EMGで事前学習済みのモデルを別途ファインチューニングします。

結果 結果を表2に示します。脳波信号対振動、加速度対筋電図では共通点が少ないため、一対一の評価よりも転移学習の効果が薄れると予想されます。下位3ブロック(SLEEPEEG → {FD-B,G ESTURE,E MG})では、事前学習とファインチューニングのデータセットが大きく異なっています。ギャップが大きいとベースラインの性能が低下するのは当然ですが、TF-Cモデルはギャップが大きいデータセット間での知識伝達に対する耐性が顕著に向上しています。注目すべきは、TF-Cを用いた提案モデルが、3つのチャレンジングな設定において、18設定中14設定で最高の性能を獲得したことです。これは、TF-C仮定が時系列において普遍的であることを示しています。。本モデルは、ファインチューニング用データセットと類似した大規模な事前学習用データセットが存在しない場合に、普遍的なモデルとして機能する大きな可能性を持っています。さらに、TF-CはKNNやRandom Init.(事前学習なし)を常に上回ります。

表2 1対多の事前学習評価 SLEEPEEGで事前学習を行い、その後、EPILEPSY、FD-B、GESTURE、EMGで独立したファインチューニングを行います。1対多の事前学習評価。SLEEPEEGで事前学習を行い、その後、EPILEPSY、FD-B、GESTURE、EMGで独立したファインチューニングを行います。

切り分け研究

効果的な事前学習を行うために、モデルコンポーネントがどの程度関連しているかを評価します。表9(SLEEPEEG → EPILEPSY)に示すように、LC、LT、LFを削除すると、性能劣化(精度)が発生することがわかりました。性能の向上が、どのような一貫性を測定する第3の損失項によってのみもたらされるものではないことを検証するために、一貫性損失LCを、時間空間内の一貫性を測定する損失項(LTT-C)または周波数空間内の一貫性を測定する損失項(LFF-C)に置き換えました。その結果、TF-Cモデルの一貫性損失はLTT-CとLFF-Cを上回りました。

表9 切り分け評価 (SLEEPEEG → EPILEPSY)

下流タスクの追加: クラスタリングと異常検知

クラスタリングタスク SLEEPEEG → EPILEPSYを例に、TF-Cのクラスタリング性能を評価します。具体的には、ファインチューニングでztuneiの上に、Epilepsyには2つのクラスがあるため、K-means (K=2) を追加しました。評価指標は一般的に使われているものを採用しています: シルエットスコア、調整済みランド指数(ARI)、正規化相互情報(NMI)です。表7は、TF-Cが最強のベースライン(TS-TCC)を大きく上回るクラスタリングを達成したことを示しています(Silhouette scoreで5.4%)。これは、TF-Cが事前学習で得た知識により、より特徴的な表現を捉えることができることを示しており、上記の分類タスクにおけるTF-Cの優位性と一致しています。

表7 下流クラスタリングに関する性能 SLEEPEEGデータセットで事前学習を行い、その後、EPILEPSYで独自にファインチューニングを行いました。2つの非移植ベースのベースライン(Random Init.とNon-DL)、分類タスクのコンテキストで最もパフォーマンスの高いベースライン(すなわち、TS-TCC)、2つの新しいモデル(TNCとCPC)を含む5つのベースラインと比較しました。

異常検知タスク サンプルレベルの異常検出タスクにおいて、TF-Cがどのように機能するかを評価します。ここでは、観測レベルの異常検知ではなく、サンプルレベルの異常検知に取り組むことに留意します。グローバルなパターンに基づき、前者はローカルなコンテキストを重視する(BTSF やUSAD のように)サンプル内の異常値観測の代わりに異常時系列サンプルを検出することを目的とする。具体的には、FD-A→FD-Bのシナリオにおいて、FD-Bの小さなサブセットを1,000個のサンプルで構築し、そのうち900個は損傷していないベアリングから、残りの100個は内側または外側に損傷のあるベアリングからです。破損していないサンプルは "正常 "とみなされ、内側/外側の破損したサンプルは "外れ値 "とみなされます。ファインチューニングでは、学習した表現ztuneiの上に1クラスSVMを使用した。実験結果(表8)は、提案するTF-Cが5つの競合ベースラインをF-1 Scoreで4.5%上回ったことを示します。この結果から、提案するTF-Cは異常なサンプルに対してより敏感であり、機械装置の異常状態を効果的に検出できることがわかります。

表8 切り分け評価 (SLEEPEEG → EPILEPSY)

まとめ

本研究では、時系列データセット間の知識伝達を支援するメカニズムとして、時間-周波数整合性(TF-C)を導入した事前学習アプローチを開発しました。このアプローチでは、自己教師付き対照推定を用い、事前学習にTF-Cを導入することで、潜在空間において時間ベースの表現と周波数ベースの表現とその局所近傍を近づけます。

限界と今後の方向性 TF-C特性は、多様な時系列データセットに対する事前学習のための普遍的な特性として機能します。また、時間的自己回帰過程などの追加的な一般化可能な特性も、時系列に対する事前学習に役立つと思われます。さらに、本手法は規則的にサンプリングされた時系列を入力として想定していますが、不規則な時系列を埋め込むことができるエンコーダ(RaindropやSeFTなど)を使用することにより、不規則にサンプリングされた時系列も扱うことができます。周波数エンコーダの入力  については、リサンプリングや補間によって規則的にサンプリングされた信号を得る方法、規則的または非一様な FFT 演算を使用する方法などがあります。さらに、TF-Cの埋め込み戦略と損失関数は、局所的な文脈を利用するタスク(例:予測)よりもグローバルな情報を活用する分類に有利です。その結果、TF-Cアプローチは、分類、クラスタリング、異常検知などの幅広い下流タスクで優れた性能を発揮することがわかりました。

友安 昌幸 (Masayuki Tomoyasu) avatar
JDLA G検定2020#2, E資格2021#1 データサイエンティスト協会 DS検定 日本イノベーション融合学会 DX検定エキスパート 合同会社アミコ・コンサルティング CEO

記事の内容等について改善箇所などございましたら、
お問い合わせフォームよりAI-SCHOLAR編集部の方にご連絡を頂けますと幸いです。
どうぞよろしくお願いします。

お問い合わせする