複雑なチューニングなしに広い受容野で学習する時系列分類動的スパースネットワークDNS

Time-series 2023年05月26日

3つの要点
✔️ NeurIPS 2022採択論文です。煩雑なハイパーパラメータチューニングを行うことなく、様々な受容野をカバーする学習が可能な時系列分類用のスパース接続を持つ動的スパースネットワーク(DSN)を提案します。
✔️ 各スパース層のカーネルはスパースであり、動的スパース学習により制約領域の下を探索することができるため、リソースコストを削減することが可能です。
✔️ 単変量および多変量のTSCデータセットにおいて、SOTAと比較して50%以下の計算コストで最先端の性能を達成できることが示されました。さらに、提案するDSN手法は他のDST手法と容易に組み合わせることができ、有効性を示しています。これは、将来の優秀な手法との融合を示唆するものです。

Dynamic Sparse Network for Time Series Classification: Learning What to "see''
written by Qiao Xiao, Boqian Wu, Yu Zhang, Shiwei Liu, Mykola Pechenizkiy, Elena Mocanu, Decebal Constantin Mocanu
(Submitted on 19 Dec 2022)
Comments: Accepted at Neural Information Processing Systems (NeurIPS 2022)
Subjects: Machine Learning (cs.LG); Artificial Intelligence (cs.AI)

code：

本記事で使用している画像は論文中のもの、紹介スライドのもの、またはそれを参考に作成したものを使用しております。

概要

この論文では、ハイパーパラメータの調整を必要とせずにさまざまな受容野（RF）サイズをカバーして学習できる時系列分類（TSC）用の動的スパースネットワーク（DSN）を提案します。DSN モデルは、単変量 TSC データセットと多変量 TSC データセットの両方で、最近のベースライン手法よりも少ない計算コストで最先端のパフォーマンスを実現します。

はじめに

時系列データを収集する際には、サンプリングレートやレコード長などのさまざまなばらつきが原因で、時系列に隠されたさまざまなスケーリングされた信号を発見して活用することが課題となります。その主な理由は、サンプリングレートやレコード長など、時系列の収集時に自然に生じるいくつかの差異にあります。さらに、データ点の振幅オフセット、ワープ、オクルージョンも避けられません（Fig. 1参照）。そのため、特徴抽出に最適なスケールを決定することは困難ですが、TSCタスクでは重要です。主な解決策の1つは、時系列入力から有用な信号を無視しないように、できるだけ多くの受容野（RF）スケールをカバーすることです。

この論文では、より少ない接続数で密な相手と同等の性能を発揮できるスパースニューラルネットワークモデルに着想を得て、TSCタスクのために、大きくても動的なスパースカーネルを持つCNN層で構成され、様々なRFをカバーするという観点からスパース接続を自動学習できる動的スパースネットワーク（DSN）を提案しています。提案するDSNは、動的スパース学習（DST）戦略によって学習されるため、学習と推論にかかる計算コスト（例：浮動小数点演算（FLOPs））をも削減することが可能です。従来の動的スパース訓練法は、レイヤー単位で接続を探索するため、小さいRFをほとんどカバーできないが、ここではTSCのために、より細かいスパース訓練法を提案します。具体的には、各層のCNNカーネルはいくつかのグループに分割され、それぞれのカーネルはスパース訓練中に制約領域の下で探索することが可能です。

この論文の主な貢献は、ハイパーパラメータ調整を必要とせずにさまざまな受容野（RF）サイズをカバーすることを学習できる時系列分類（TSC）用の動的スパースネットワーク（DSN）の提案と、計算コストとメモリコストを削減するために動的スパーストレーニングによってトレーニングされるTSC用の新しいDSNモデルをネイティブに導入することです。提案された DSN モデルは、単変量 TSC データセットと多変量 TSC データセットの両方で、最近のベースライン手法よりも少ない計算コストで最先端のパフォーマンスを実現します。

提案手法

問題定義

定義1. (Time Series Classification (TSC))

TSインスタンスX＝｛X₁，．X_n}∈R^n×mとし、ここでmは変量数、nは時間ステップ数を示します。TSCは、クラスラベルy∈｛1、...．c}をc個のクラスから正確に予測します。mが1に等しいとき、TSCは一変量であり、そうでないときは多変量です。

定義2. (Time Series (TS) Training Set)

訓練セットD＝{ (X⁽¹⁾, y⁽¹⁾) , ...., (X^(N), y^(N))}とし、ここで、X(i)∈R^n×mは、ラベルy⁽ⁱ⁾∈｛1, .... , c}に対応して単変量あるいは多変量のTSインスタンスです。

ここでは、すべてのインスタンスはTSデータセットにおいて同じ数の時間ステップを持つことに注意してください。一般性を失うことなく、訓練セットが与えられた場合、TSCタスクのために、低いリソースコスト（メモリや計算など）で、適応的で様々なRFを持つCNN分類器を訓練することを目的とします。

適応受容野付き動的スパースCNNレイヤー

様々なRFをカバーする簡単な戦略は、各CNN層でマルチサイズのカーネルを適用することですが、これにはいくつかの制限があります。第一に、異なるTSデータセットからのTSインスタンスは、ほとんどの場合、同じ長さとサイクルを持たないため、事前知識があっても、すべてのデータセットに対して固定カーネル構成を設定することは困難です。第二に、大きな受容野を得るためには、一般的に大きなカーネルやより多くのレイヤーを積み重ねる必要があり、より多くのパラメータが導入されるため、ストレージや計算コストが増加します。

これらの課題に対処するため、提案する動的スパースCNN層は、適応的なRFを獲得するために学習可能な、大きいがスパースなカーネルを有しています。具体的には、第l層の入力特徴マップx^l∈R^c_l-1×h×w（hは一変量TSCの時1、c_l-1は入力チャンネル数）、カーネル重みΘ^l∈R^{c_l-1×cl×1×k}（kはカーネルサイズ、c_lは出力チャンネル数）が与えられ、提案するダイナミックスパースCNN層のストライド1及びパディングによる畳み込みを、次式により定式化します。

ここで、O_j∈R^h×wはj番目の出力チャネルにおける出力特徴表現を示し、Zは整数の集合を示し、I^l（-）．R^{c_l-1×cl×1×k} → {0，1}^{c_l-1×cl×1×k}は指標関数、I^l（Θ^l）_i，jは（i，j）番目のチャンネルのカーネルであるの活性化重みを示し、は要素和積を示し、-は畳み込み演算子を示しています。提案DSNの学習時に学習される指標関数I^l（-）は、を満足します。ここで0≦S＜1は疎密比です。はL0ノルム, N_l＝c_l-1×c_l×1×kを表します。 S＞0のとき、カーネルはスパースであり、動的スパースCNN層で大きなkを用いることで、計算量を減らして大きなRFが得られます。

Effective Neighbour Receptive Fieldサイズ

受容野は、CNNモデルの特徴が見ている入力中の領域として定義されます。連続する層の各特徴が見ている領域をNRF(Neighbour Receptive Field)と定義しています。具体的には、NRFのサイズは標準的なCNN層のカーネルサイズに相当します（dilationが1に等しい場合を考慮する）。ただし、カーネル内の最初または最後の重みが活性化されていない場合、提案された動的スパースCNN層のNRFサイズはカーネルサイズよりも小さくなります。例えば、∃_i ∈ {1, .... c_l-1}、j∈｛1，．c_l}、I^l（Θ^l）_{i，j，1，1}＝0またはI^l（Θ^l）_{i，j，1，k}＝0。Fig. 2に示すように、カーネルのeNRFサイズを、l番目のCNN層における最初の活性化重みと最後の活性化重みの間の距離として、

ここではカーネルの非ゼロ重みに対応するインデックスの集合を表します。明らかにとなります。

l番目の動的スパースCNN層のeNRFサイズセットはF^(l)と表記され、0≦min(F^(l))、max(F^(l))≦kを満たします。Fig. 2のl番目の層の場合を簡単に例にすると、F^(l)={0、1、2、3、4、5、6}とします。各ダイナミックスパースCNN層は1からkまでの様々なeNRFサイズに対応していると考えられます。グローバルな情報を期待する場合、I^l(-)はより大きなeNRFを得るために重みを分散して活性化し、入力特徴を選択的に利用することが出来ます。一方、局所的な文脈を捉える場合は、eNRFが小さくなるため、活性化される重みは集中する傾向にあります。k = 5を例にとると、I^l(Θ^l)_i,jはグローバルコンテキストでは[1, 0, 1, 0, 1]、ローカルコンテキストでは[0, 0, 1, 1, 0]となる可能性があります。このように、eNRFを適応的に調整することができます。

DSNのアーキテクチャ

提案するDSNモデルは、3つのスパースCNNモジュールで構成され、各モジュールは動的スパースCNN層と1×1 CNN層で構成されます。積層されたスパースCNNモジュールに続いて、追加の動的スパースCNN層、2つの適応的平均プーリング層、そしてDSNモデルの分類器として機能する1×1畳み込み層があります。全体的なアーキテクチャをFig. 3 に示します。

1×1畳み込みのeNRFサイズは常に1に等しいので、l番目のスパースCNNモジュールのeNRFサイズの集合S（l）は、動的スパースCNN層のそれと等しく、S^（l）は、0≦min（S^（l））、max（S^（l））≦kを満たす。そして、連続的に積まれた3つのスパースCNNモジュールのeNRFサイズ集合はRFによって、次のように記述することができます。

式(3)によると、複数のスパースCNNモジュールを積み重ねることで、RFのサイズを直線的に増加させることができ、l番目の動的スパースCNN層はS(l)のサイズだけ増加することがわかります。簡単のため、本研究では各ダイナミックスパースCNN層のカーネルサイズは一貫してkに設定されています。そして、RFはmax(RF) ≦ 3k - 2、0 ≦ min(RF)を満たします。したがって、スパースCNNモジュールのkを大きくすることで、スタックしたスパースCNNモジュールのeNRFサイズの幅を広げることができます。

DSNモデル用の動的スパース訓練

本節では、性能の良いRFを確保するために活性化させる必要がある重みを発見するための学習戦略を示します。つまり、提案するDSNの学習中に指標関数Il(-)をどのように更新するかを検討する必要があります。

DST法の主要な考え方に従って、カーネルをスパースに保つために、提案するDSNモデルをゼロからスパースに訓練する。設計上、訓練段階では、活性化された重みの総数がN_l(1 - S)を超えないようにしなければなりません。しかし、ここでは、特にスパース比Sが小さい場合、活性化された重みをレイヤーごとに発見するレイヤーワイズ探索方式のDST法では、小さなeNRFを捕らえることが難しいことを観察しました。この観察に基づき、各ダイナミックスパースCNN層のカーネルは、Fig. 4に示すように、異なるグループに分けられ、その対応する探索領域は異なる大きさです。DST法とは逆に、DSNでは、活性化された重みの探索は異なるカーネルグループで別々に行われ、これはよりきめ細かな戦略です。具体的には、第l層のカーネル重みΘ^l∈R^{c_l-1×c_l×1×k}を出力チャネルに沿ってN個のグループに分割します。すなわち、と、対応する探索領域。第l層の第iグループの探索領域は、このグループ内の各カーネルの最初の個の位置と定義されます。k=6、N=3を例にとると、最初のグループの活性化された重みはの各カーネルの最初の2つの位置の中にしかないが、最後のグループではカーネル全体の中にあります（Fig. 4に示すように）。このようにして、様々なeNRFをカバーし、探索空間を縮小することができ、探索効率を向上させることができます。

重み探索領域とスパース比Sが与えられたら、アルゴリズム1（原論文参照）に示すように、提案するDSNモデルを訓練します。活性化された重みは探索領域内で探索され、∆t反復ごとに更新されます。更新された重みの割合は、コサインアニーリングの関数f_decay (t; α, T)に従って時間と共に減衰し、以下のようになります。

ここで、αは更新された活性化重みの初期割合、tは現在の学習反復、Tは学習反復の回数です。したがって、t回目の反復の間、l番目の層のi番目のグループにおける更新された活性化された重みの数は、nであり、は領域において探索できる重みの数です。活性化された重みの更新中、まず，で決められた活性化された重みを刈り取り、続いてでランダムに新しい活性化重みを生成します。ここでArgTopK(v,u)はベクトルvのうち値の大きい上位u個の要素のインデックスを与え、RandomK（v，u）は、ベクトルvにおいてランダムなu要素のインデックスを出力し、は、を除く内の重みを示します。

活性化された重みの探索は簡単です。まず、大きさの小さい重みを刈り込むことは直感的です。なぜなら、大きさの小さい重みの寄与は重要でないか、あるいは無視できるからです。また、刈り込みの回復性を考慮し、刈り込まれた重みと同じ数の新しい重みをランダムに再生することで、より良い活性化重みの探索を実現します。このように、学習前後に重みを刈り込む方法と比較して、重みの探索は動的で可塑的です。

実験

データセット

各データセットの詳細は以下の通りです。

- UCR 85アーカイブの単変量TSデータセット：このアーカイブは、様々なドメイン（例：ヘルスモニタリングやリモートセンシング）から収集され、特徴的な特性を持ち、様々なレベルの複雑さを持つ85個の一変量TSデータセットで構成されています。トレーニングセットのインスタンス数は16から8926、時間ステップ分解能は24から2709の範囲です。

- UCIからの3つの多変量TSデータセット： EEG2データセットには、2つのカテゴリと64の変量からなる1200のインスタンスが含まれています。Human Activity Recognition (HAR)データセットは、6カテゴリ、10,299インスタンスからなり、変量数は9、Daily Sportデータセットは、19カテゴリ、9,120インスタンスからなり、変量数は45です。

実験設定と実装の詳細

最適化にはAdam optimizerを用い、初期学習率は3×10^-4、コサイン減衰は10^-4としました。16のミニバッチサイズで1,000エポック学習しています。カーネルグループの数Nは、小、中、大のeNRFをカバーするのに役立つ3つに設定されています。各設定を5回繰り返し、その平均結果を報告します。

結果と分析

単変量および多変量のTSCベンチマークにおける性能をTable 1-2に示します。単変量TSCでは、UCR 85アーカイブデータセットにおいて、より少ないパラメータ数（例えばParams 3）と少ない計算コスト（例えばFLOPs）で、ほとんどのケースで提案する手法がベースライン手法を上回っていることが分かります。多変量TSCでは、提案するDSN法はEEG2とHARデータセットでより良い性能を達成し、Daily SportではMLSTM-FCNが0.46%高精度でした。提案するDSNのリソースコスト（ParamsとFLOPs）は、ベースライン手法のリソースコストよりもはるかに小さいです。

感度分析

スパース比の効果

Table 3から、多変量TSデータセットにおいて、動的スパースCNN層のスパース比が最終的なテスト精度とリソースコストにどのように影響するかを知ることができます。ここでは、様々なスパース比（S∈[50%, 80%, 90%]）と密なDSNモデルの下でテスト精度とリソースコストのトレードオフを分析します。なお、密なモデルとは、カーネル全体が密に接続されたDSNモデルと全く同じように定義されています。モデルのパラメータが多ければ多いほど性能が向上するわけではないことがわかります。これは主に、パラメータを増やすとオーバーフィッティングにつながるためで、適切なスパース比であれば、目的の受容野を容易にカバーすることができます。EEG2データセットを例にとると、スパース率の減少に伴い、その性能は急激に低下していまする。このデータセットは、小さな受容野からの特徴量に期待するところが大きいと考えられます。実験によると、80%のスパース率は精度とリソースコストの間の良いトレードオフを反映しており、これはここでのDSNモデルの動的スパースCNN層のデフォルト設定です。

アーキテクチャーの効果

DSNのアーキテクチャが最終的な性能にどのように影響するかを示すために、TSCの評価に通常用いられる臨界差分図を採用して詳細に比較します。Fig.5から、4つの動的スパースCNN層と各層に177の出力チャンネルを持つDSNモデルは、他の構造よりも一貫して優れた性能を発揮していることがわかります。出力チャンネルを増やした提案モデルは、ネットワークの容量を維持するために重要であるようですが、他のモデルと比較して、より多くのパラメータとFLOPsを必要とします。このことは、精度と計算効率の間の興味深いトレードオフを浮き彫りにしています。実験によると、4つの動的スパースCNN層と各層の141の出力チャンネルを持つDSNモデルは、性能とリソースコストの間のトレードオフであり、これはここでのDSNモデルのデフォルト設定です。

カーネルグループの効果

Fig. 6に示すように、カーネル群を用いないDSNの学習は、小さなeNRFの捕捉に支障をきたし、EEG2のように局所的な情報を期待するデータセットにおいて満足な性能を保証することができません。また、スパース比Sを小さくすると、大きなRFが大部分を占める現象がより深刻になり、Table 4に示すように、グループありの訓練とグループなしの訓練の性能差が大きくなっています。カーネルをグループ化することで、すべてのデータセットで様々なRFカバー率や広告の精度を実現できます。

切り分け研究

動的スパース訓練の効果

さらに、DSN法における動的スパース訓練の効果についても研究しています。DSNを、活性化された重みの初期化後に訓練中にトポロジーを固定する静的な変形（すなわちDSNfix）と比較するためにアブレーション研究を実施しました。つまり、式(1)の指標関数I^l(-)は、学習中に更新されません。Fig. 7（a）に示す結果によれば、UCR 85アーカイブにおいてDSNモデルはDSNfixをほとんど上回っており、動的スパース学習によって学習されるのは、適切な活性化重みとその値であることが分かります。

他のDST手法でのケーススタディ

同様に、RigL のような他のDST手法の存在下でも、提案するDSN手法の有効性を分析しました。RigLはランダムに重みを成長させるのではなく、最も大きい勾配で重みを成長させます。Fig. 7（c）から、勾配に従って重みを成長させること（すなわちDSNgrad）は、UCR 85アーカイブのほとんどのケースで、OS-CNN法を上回ることができることがわかります。さらに，Fig. 7 (b) に示すように，DSNgrad はランダムに重みを成長させる方法 (DSNrand) と同等の性能を持つことが分かります．なお、DSNrandは、任意のタイミングで完全な勾配を計算する必要がないという理由で、本論文で提案する方法の主な設定です。まとめると、きめ細かいスパース戦略を持つ提案DSNは、既存のDST手法と容易に組み合わせることができ、将来的に他の先進的なDST手法と融合することでさらなる改善の可能性を示しています。

活性化重みの可視化

Fig. 8は、HARデータセットでスパース学習を行った後のDSNモデルの正規化活性化重みを示します。(a)、(b)、(c)は最初の動的スパースCNN層の3つのカーネル群の活性化した重みに対応し、図の各行は1つのカーネルを表します。各カーネルの重みはスパースであり、前に定義した制約領域内で活性化できることがわかります。

まとめ

この論文では、ハイパーパラメータの調整を必要とせずにさまざまな受容野（RF）サイズに対応できるよう学習できる時系列分類（TSC）用の動的スパースネットワーク（DSN）を提案しています。DSN モデルは、単変量 TSC データセットと多変量 TSC データセットの両方で、最近のベースライン手法よりも少ない計算コストで最先端のパフォーマンスを実現します。提案されたDSNモデルは、資源認識とTSCのさまざまな効果的な隣接受容野カバレッジとの間のギャップを埋めるための実行可能なソリューションを提供し、さまざまな分野の他の研究者に刺激を与える可能性を秘めています。

この記事に関するカテゴリー

友安昌幸 (Masayuki Tomoyasu): JDLA G検定2020#2, E資格2021#1 データサイエンティスト協会 DS検定日本イノベーション融合学会　DX検定エキスパート合同会社アミコ・コンサルティング CEO

最新AI論文をキャッチアップ

複雑なチューニングなしに広い受容野で学習する時系列分類動的スパースネットワークDNS

概要

はじめに

関連研究

時系列分類

スパース訓練

適応受容野

提案手法