時系列の対照学習での自動ビュー学習 LEAVES

Time-series 2023年02月10日

3つの要点
✔️ 対照学習でデータ拡張を行う際に、ポリシーやパラメータのチューニングに時間がとられるという課題がありました
✔️ 時系列データに対して、自動的に学習ビューを生成する手法LEAVESが開発されました
✔️ SOTA手法を含むベースラインよりも、合理的なビューの発見や下流タスクの実行に有効であることが確認されました

LEAVES: Learning Views for Time-Series Data in Contrastive Learning
written by Han Yu, Huiyuan Yang, Akane Sano
(Submitted on 13 Oct 2022)
Comments: Published on arxiv.
Subjects: Machine Learning (cs.LG); Artificial Intelligence (cs.AI)

code：

本記事で使用している画像は論文中のもの、紹介スライドのもの、またはそれを参考に作成したものを使用しております。

概要

ラベルのないデータから表現を学習できる自己教師付き学習法である対照学習は、有望な手法として発展してきました。対照学習の多くの手法は、元の信号とは異なる見方を生成するデータ拡張の手法に依存しています。しかし、対照学習において、より効果的なデータ補強法のためのポリシーやハイパーパラメータのチューニングは、しばしば時間とリソースを消費するものです。研究者たちは、特に画像データにおいて、ある入力信号に対して新しいビューを自動的に生成するアプローチを設計してきました。しかし、時系列データに対するビュー学習法はあまり開発されていません。本研究では、対照学習における時系列データのビュー生成を自動化するためのシンプルかつ効果的なモジュール、時系列データのためのビュー学習(LEAVES)と名付けたモジュールを提案します。提案モジュールは、対照学習における敵対的学習を利用して、拡張のためのハイパーパラメータを学習します。複数の時系列データセットを用いて、提案手法の有効性を検証します。実験の結果、提案手法は、手動で調整した拡張に基づく対照学習手法やSOTA手法を含むベースラインよりも、合理的なビューの発見や下流タスクの実行に有効であることが実証されました。

はじめに

対照学習は、画像（Chen et al., 2020; Grill et al., 2020; Wang & Qi, 2022）や時系列データ（Mohsenvand et al., 2020; Mehari & Strodthoff, 2022）などの様々な下流タスクに対するモデルの頑健性を改善するために広く適用されてきました。開発された対照学習法の中で、データ拡張は、プレテキストタスクのための元の入力のビューとして、異なる破損した変換を生成するのに不可欠な役割を果たします。例えば、Chenら（2020）は、同一サンプルからの拡張ビューの一致度を最大化してモデルを事前学習するSimCLR法を提案し、ラベル付けデータが圧倒的に少ない画像分類において、従来の最先端手法を大幅に上回わりました。しかし、データ拡張法の選択は通常経験的であり、最適化されたデータ増強法のセットをチューニングすることは、自動化検索アルゴリズムを使用しても数千GPU時間のコストがかかります（Cubuk et al.、2019）。したがって、新しいデータセットに対してどのように効果的にビューを生成するかは未解決のままです。

人工的に生成されたビューを使用する代わりに、研究者は入力サンプルに対して最適化されたビューを生成するための深層学習手法のトレーニングに力を入れています（Tamkin et al.、2020；Rusak et al.）これらの方法は、画像データセットに対して適度に破損したビューを生成し、満足のいく結果をもたらします。例えば、Tamkinら（2020）は、画像に対するオーグメンテーションを生成するために、対照学習における敵対的に訓練された畳み込みモジュールであるViewMakerを提案しました。しかしながら、前述のViewMakerのような手法は、時系列データにそのまま利用すると馴染まない可能性がある。主な課題は、時系列信号の場合、大きさ（空間的）を乱すだけでなく、時間的な次元も乱す必要があることです Um et al.(2017); Mehari & Strodthoff (2022) 。一方、画像ベースの手法は、入力データに適度なノイズを加えることで空間的な領域を乱すことしかできません。

本研究では、また、生成されたビューに滑らかな時間的摂動を導入するために、TimeDistortと名付けた時系列データの微分可能なデータ拡張技術を提案します。Fig. 1は、ViewMaker (Tamkin et al., 2020)と我々の手法により生成した心電図(ECG)のビューの例です。Fig. 1(a)では時間的位置が擾乱されておらず、元のECG信号の平坦な領域（ECG fiducialとしてのT-P間隔）が完全に歪んでいることが分かります。ViewMakerと比較して、提案するLEAVESは空間と時間の両方の領域で元の信号を歪ませることができ、より重要なことは、時系列データにおいて過度の摂動により無傷の情報が失われるリスクを低減することです。実験と分析の結果、提案するLEAVESは、（1）SimCLRやSOTA法を含むベースラインを上回り、（2）SOTA法と比較して、時系列データにおいてより合理的なビューを生成することが示されました。

手法

対照学習は自己教師付き学習の一つであり、同じ入力の変換の表現が似ていることを促し、異なるサンプルの組からその違いを学習するものである。本研究では、シンプルで実績のある対照学習法であるSimCLR (Chen et al., 2020)を採用します。Fig. 2に事前学習アーキテクチャの概要を示します。まず、微分可能なLEAVESモジュールを導入し、より困難ではあるが、入力に忠実なビューを生成することができます。LEAVESモジュールはSimCLRフレームワークに接続され、対比学習のための異なるビューを生成します。LEAVESは敵対的な方法でエンコーダと一緒に学習されます。

LEAVES

対照学習システムに簡単にプラグインできる軽量なコンポーネントであるLEAVESモジュールを提案します。このモジュールは、ジッターTJ、スケールTS、マグニチュードワープ（MagW）TMW、並べ換え（Perm）TP、そして新たに提案する時間歪み（TimeDis）TT Dといった一連の微分可能データ補強手法から構成されています。例えば、TJ TPは、入力データにジッターノイズを加えて変換した後、並べ替えを行うことを表しています。このように、提案モジュールは、view ˆ X を次のように生成します。

ここで、σは、元のサンプルに対する破損の強さを制御するデータ増大法のハイパーパラメータを表します。例えば、σJはジッタリングノイズを生成するための標準偏差の値を表します。本モジュールの目標学習パラメータは、拡張手法のσである。このパラメータを学習することで、本モジュールは複数の拡張手法を組み合わせてビューを生成する戦略を学習します。式1のXに適用する拡張の順番は、ハイパーパラメータと拡張のビューが独立しているため、意図的に調整しません。例えば、適用するScale演算は、Jitterで生成したビューには依存しないためです。

・時系列データに対する微分可能なデータ拡張機能

LEAVESには、広く使われているいくつかのデータ拡張法が選択されています。例えば、Jitter、Scale、MagWは元の信号の大きさを摂動し、一方、Time Warping (TimeW) (Um et al., 2017)とPermは時間的位置を破損させるものです。増強法の詳細な説明は、Appendix A.1 に記載されています（原論文参照）。

これらの拡張アルゴリズムでハイパーパラメータを最適化するためには、学習過程で勾配をこれらのパラメータに伝搬させることが必要です。しかし、これらの拡張手法は、ランダムな値の描画、インデックス付けなどの非微分化操作に基づいています。そこで、インデックス付け操作により勾配を取り出すことが困難なため、TimeW法を除き、それらの手順を微分可能にするために再パラメータ化トリック（Jang et al.2016; Maddison et al.2016）を適用しました。そこで、時間情報を滑らかに歪ませるための代替手段として、TimeDis増強法を提案します。Fig. 3は、時系列サンプルに対する6つの拡張手法の例を示しています。生成された破損が合理的であることを保証するために、マグニチュードに基づく方法Jitter、Scale、MagW、Kにおけるσ値の最大値をPermにおける最大セグメントとして、アップバウンドηでノイズを制約しています。

・TimeDis

この方法は、原信号のサンプリングされる位置の確率を生成するために、滑らかな確率分布に依存する。M個のガウス成分を持つ再パラメータ化ガウス混合モデルを∑M i φiN (μi, σ2 i ) として利用し、-1〜1の位置インデックスλ∈RN×C×Lを生成します。Fig. 4はTimeDisを用いた例です。生成された位置指数のうち、-1は原信号の最初の時間ステップ（位置1）に対応し、1は最後の時間ステップ（位置L）に対応します。そして、λを用いて原信号Xをview ˆ Xとしてアフィン化すると、λのインデックスが密な位置ではサンプル間の間隔が緩くなり、λのインデックスが疎な位置では対応する間隔がタイトになることがわかります。

敵対的トレーニング

表現学習では、エンコーダーによって抽出された表現をzと定義します。SimClRのフレームワークでエンコーダが抽出したN組の表現を（zi，zj），{i，j}∈［1，N］とすると、表現の組間の一致度を最大化する損失関数は次のように定義できます。

ここで、s(zi, zj)はziとzjの間の余弦類似度、1k6=iはk 6=iの場合に1に等しい指標関数、τは温度パラメータを示し、本研究では0.05として固定しました。

Fig. 2に示すように、LEAVESとエンコーダは相反する方向に最適化されています。エンコーダの目標がLの最小化であるのに対し、LEAVESモジュールはLの最大化を望んでいます。敵対的な学習方法を活用することで、LEAVESモジュールは元の信号をできるだけ困難に歪ませ、エンコーダはまだビューペアからそのままの情報を引き出せるよう設計しています。このシナリオでは、エンコーダは最も破損したビューに対してトレーニングすることでロバストとなります。SimCLRフレームワークを学習した後、エンコーダ構造で学習したモデル重みは、下流のタスクで教師あり学習のためのモデル重みを初期化するために使用されます。

評価

提案手法を評価するために、無呼吸、睡眠段階、不整脈、人間活動を検出するアプリケーションのために、Apnea-ECG (Penzel et al., 2000), Sleep-EDFE (Kemp et al., 2018), PTB-XL (Wagner et al., 2020), PAMAP2 (Reiss & Stricker, 2012) をそれぞれ含む4種類のパブリック時系列データセットで実験を行います。各データセットについて、提案モジュールとエンコーダの事前学習を行い、下流タスクのためにエンコーダの微調整を行います。比較のため、(1)教師ありResNet-18、(2)ランダム拡張を用いたSimCLR、(3)一次元の時系列入力を取り込む再現ViewMakerネットワークの3つのベースラインを実装します。

単一リードの心電図による睡眠時無呼吸症候群の検出

Apnea-ECGデータセット(Penzel et al., 2000)は、人間の睡眠時無呼吸症候群の症状と心臓活動（ECGでモニター）の関係を研究しており、Physionet(Goldberger et al., 2000) からアクセスすることが可能です。オリジナルリリースのPenzelら(2000)の設定に従い、100Hzの心電図を1分単位で用いて、apeaが発生するかどうかの2値ラベルを検出し、訓練セットと試験セットにそれぞれ17233と17010サンプルを設定しました。対照的事前学習段階では、ノイズ閾値δをJitter、Scale、MagWで0.05、MをTimeDisで12、KをPermで5と設定しました。エンコーダの事前学習には学習率1e-3で100エポック、下流タスクの微調整には学習率1e-3で30エポックを使用しました。

Table 1 に睡眠時無呼吸症候群の検出に関する評価結果を示します。同じデータセットに対するSOTAに続き、モデルの性能を測る指標として、患者に対して無呼吸を診断する能力を評価する感度（Sen.）と特異度（Spec.）を用いました。提案モデルとベースラインモデルを比較したところ、LEAVESはSen.とSpec.の両メトリクスにおいてベースラインより高い性能を示すことが確認されました。また、SimCLRとViewMakerはともに教師ありベースラインを上回り、SimCLRはViewMakerより若干高い性能を示しました。SOTAと比較すると、提案手法はSen.スコアは競争力があるが、Spec.スコアが相対的に低いことが分かりました。これは、ノイズの多いサンプルのフィルタリングやデータの前処理などの設定が異なることが原因であると考えられます。ベースラインの教師あり構造は(Chang et al., 2020)と同様であるが，我々の教師ありベースラインの結果はSOTAよりもSpec.が低かったです。

EEGによる睡眠段階分類

脳波（Electroencephalography）は、人間の脳活動を監視するために不可欠な信号です。100Hz Fpz-Cz EEG信号の全夜睡眠記録を含むSleep-EDF (expanded) (Kemp et al., 2018) datasetでテストしました。Supratak & Guo (2020)に従い、5つの睡眠ステージに注釈された42308個の30秒サンプルを抽出しました。対照的事前学習段階では、ノイズ閾値δをJitter、Scale、MagWで0.05、MをTimeDisで10、KをPermで5としました。エンコーダの事前学習には学習率1e-3で100エポック、下流タスクの微調整には学習率1e-3で30エポックを使用しました。SOTAとの性能比較のため、評価指標として精度とマクロf1スコアを用います。

Table 2は、脳波信号を用いて睡眠段階を分類した場合の性能です。表から、提案手法はベースラインよりも優れた性能を持つことが分かります。また、SOTAと比較すると、精度、マクロf1スコアともに遜色ない性能を達成していることがわかります。しかし、SOTAと我々の研究で使用された実験設定が異なることを認める必要があります。しかし、SOTAとこの実験では、実験設定が異なっていました。例えば、前処理は一様ではなく、また、SOTA では 10 倍や 20 倍のクロスバリデーションが広く適用されているのに対し、ここでは被験者 ID に応じて検証セットを分割するなど、訓練/試験データセットの分割は普遍的なものではなかったのです。

IMUと心拍数を用いた人間活動検知

人間の活動は、ウェアラブルデバイスのデータを用いて検出することができます。PAMAP2 (Reiss & Stricker, 2012) では，3つの慣性計測ユニット (IMU) と心拍計のウェアラブルセンサーから収集したデータと人間の活動の関係を研究しています．実験では、100HzのIMUデータとアップサンプリングされた心拍データを使用しました。Moya Rueda et al. (2018); Tamkin et al. (2020)に従い、全18種類の身体活動のうち12種類を実験に使用します。対照的事前学習段階では、ノイズ閾値δをJitter, Scale, MagWで0.05、MをTimeDisで7、KをPermで5と設定しました。エンコーダの事前学習には学習率1e-3で100エポック、下流タスクの微調整には学習率1e-3で20エポックを使用しました。SOTAとの性能比較のため、評価指標として精度とマクロf1-scoreを使用しました。

Table 3 は PAMAP2 データセットを用いた人間の活動の分類における性能です。提案手法は全てのベースラインを上回り、同じトレーニング/テスト設定を共有するSOTAとして競争力のある結果を示しました（Moya Rueda et al., 2018; Tamkin et al., 2020）。Li & Wang (2022)が行った研究では、被験者依存の設定で70/30%のトレーニング/テスト分割戦略を用い、全研究の中で最も高い性能を達成しました。また、Table3は、原著（Tamkin et al., 2020）で報告された結果と、我々が再現した1D版の結果を比較したものです。時系列データをスペクトログラムに変換し、2D ResNetを活用した原著のモデル精度は、我々が実装した1D ResNet版の精度と非常によく似ています。

12リード心電図による不整脈の分類

不整脈は心血管系疾患の主な原因の一つであり，不整脈を検出することは臨床的に重要な展望を持ちます。PTB-XL(Wagner et al., 2020)データセットは、5クラスの不整脈ラベルを持つ100Hzの12リードと10秒の心電図21,837を含む大規模データセットです。原著(Wagner et al., 2020)で推奨されている訓練セットと試験セットの分割を踏襲しています。対照的な事前学習段階では、ノイズ閾値δをJitter、Scale、MagWで0.05、MをTimeDisで6、KをPermで5と設定しました。エンコーダの事前学習には学習率1e-3で100エポック、下流タスクの微調整には学習遅延1e-3で30エポックを使用しました。SOTAとのモデル性能の比較のため、評価指標としてAUCと精度を用います。

Table 4は、ECGシーケンスを用いて不整脈を分類した結果です。提案手法は、SupervisedベースラインとViewMakerベースラインを上回り、ランダム拡張を用いたSimCLRベースラインは提案手法より若干高い性能を示すことが分かりました。提案手法とSOTAを比較したところ、提案手法は( ́ Smigiel et al., 2021; Li et al., 2021)のようないくつかの教師あり手法よりも高いAUCを示すことが分かりました。興味深いことに、ECGcentered benchmark self-supervised learning workでここでの結果を比較すると、本論文の結果は彼らの実装したSimCLRよりもわずかに高いことを示しており、これも手動で調整した補強と比較して提案するLEAVESの有効性を示しているのかもしれません（Mehari & Strodthoff, 2022）。

議論

時系列データにおけるViewMakerフレームワークの適用や、ベースラインのSimCLRアルゴリズムを異なる増強ハイパーパラメータで微調整するなど、切り分け研究を紹介します。また、提案手法の学習ビューとLEAVESモジュールの複雑さについてさらに紹介します。

切り分け研究 : 時系列データにおけるViewMaker

本論文の研究は ViewMaker (Tamkin et al., 2020) に触発されたものです。ViewMakerのフレームワークをテストし、評価セクションに示すように改善が観察されました。しかし、時系列データに適用する際に、ViewMakerの限界も観察されました。Fig. 1 は、時間的な歪みと情報の保存における ViewMaker の限界の例です。生成されたビューの忠実度をさらに検証するために、NeuroKitパッケージ（Makowski et al., 2021）を用いたECG品質チェック法（Zhao & Zhang, 2018）を利用しました。Table 5はApnea-ECGデータセットに対する品質チェックの結果を示しています。ViewMakers法がECGのほぼ半分を「Unacceptable」に摂動し、ECG信号としてほとんど認識されていない信号を表していることが観察されます。このように、時系列データに適用した場合のViewMakerの限界は、本研究で提案する手法を開発する動機となりました。

切り分け研究 : SimCLRベースラインの微調整

対照学習において最適なデータ増強法を見つけることは、増強法の探索空間が通常巨大であるため困難です。本研究では、強いSimCLRのベースラインを学習するために、ベースラインSimCLRの増強手法の強度を調整しました。例えば、T (0.01) は Jitter, Scale, MagW, TimeW のσが 0.01, K = 5 であることを表しています。Table 6 は、チューニングの性能を、精度とマクロ f1 スコアの指標で示したものです。拡張手法の強度に影響を与えるハイパーパラメータを変更した場合、異なる評価結果が観測されました。PAMAP2のようないくつかのデータセットでは、異なるハイパーパラメータを用いても、近い性能を確認することができました。しかし、PTB-XLデータセットでは、モデルの性能はハイパーパラメータの影響をより強く受けるようです。例えば、σを0.05とした場合、σ=0.03のSimCLRと比較して、性能が大きく低下することが確認されました。このことから、適切な拡張を見つけることが対照学習に寄与し、一方、不適切な変換はモデルの性能を低下させる可能性があることがわかります。また、提案手法は、時系列データに対する適切な補強を、補強の探索に時間をかけることなく見つけることができるため、新しい時系列データや一般的に研究されていない時系列データを用いる研究者にとって有意義な手法であると考えられます。

拡張のためのハイパーパラメータの学習

微分可能な拡張ベースのアプローチを提案したことから、拡張を制御するハイパーパラメータは、モデルが学習するにつれて、学習プロセスとともに変化すると推測することができます。Fig. 5は、Jitter、Scale、MagW、Permの拡張に対するスカラーハイパーパラメータの変化を示しています。JitterとMagWのσ値は4つのデータセットすべてで増加し続けているのに対し、Scaleのσ値は減少する傾向を示していることが分かります。また、Permの最大セグメントKは、PTB-XLでは増加傾向を示し、PAMAP2データセットでは減少していることがわかりました。本研究では実施していないが、この現象は、このアプローチが異なるデータセットに対する教師あり学習においても適切なビューを見つけるのに役立つ可能性を示しています。応用例としては、Rusakら(2020)によるフレームワークのような、敵対的学習による教師あり学習フレームワークと我々の提案するモジュールを組み合わせることが考えられます。

時間と空間の複雑さ

LEAVESの目標最適化重みは拡張手法のハイパーパラメータであるため、提案手法はViewMakerなどの従来のSOTAと比較して、モデル空間の複雑さの点で有利です。例えば、我々が再現した1次元ViewMakerの構造では学習すべきパラメータが58万個あるのに対し、LEAVESは20個のパラメータを最適化してビューを生成します。一方、SimCLRにLEAVESを導入することによるレイテンシは無視できるほど小さいと言えます。AWS p3.2xlarge (dual NVIDIA V100 GPUs)の学習環境において、バッチサイズNを128とし、Sleep-EDFEデータセットを100エポック学習した場合、ベースラインのSimCLRは平均578.0秒/エポックであるのに対し、LEAVESを加えたSimCLRは390.8秒/エポックとなります。これは、LEAVESでは拡張機能がモデルの一部としてプログラムされているため、GPUを活用して計算を高速化し、ベースラインSimCLRよりもさらに短い学習時間を実現しています。

まとめ

本研究では、対照学習における時系列データに対するオーグメントを学習するための、シンプルかつ効果的なLEAVESモジュールを導入しました。提案手法は、敵対的な学習方法を用いて、対照学習におけるデータ補強手法のハイパーパラメータを最適化します。提案手法を4つのデータセットで評価した結果，ベースラインよりも性能が向上していることが確認できました。特に、ハイパーパラメータのチューニングを行わない場合、提案手法LEAVESはSimCLRのベースラインよりも4つのアプリケーションのうち3つで優れた性能を示しました。また、特にECG時系列データにおいて、SOTA研究と比較して、拡張ビューにそのままの情報を保存するという点で、本手法を用いることの優位性を実証しました。今後は、LEAVESにさらに拡張手法を導入し、モジュールの可変性を向上させ、教師あり学習における拡張のチューニングにおける可能性を探ります。また、より幅広い時系列データに本手法を適用していく予定です。さらに、LEAVESの解釈可能性を調査することも、対照学習におけるデータ拡張の方針をより理解するための興味深い方向性です、としています。

この記事に関するカテゴリー

友安昌幸 (Masayuki Tomoyasu): JDLA G検定2020#2, E資格2021#1 データサイエンティスト協会 DS検定日本イノベーション融合学会　DX検定エキスパート合同会社アミコ・コンサルティング CEO

最新AI論文をキャッチアップ

時系列の対照学習での自動ビュー学習 LEAVES

概要

はじめに

関連研究

拡張に基づく対照学習

自動拡張