Federated Learningのための堅牢な重み付け戦略の提案

Federated Learning 2024年04月29日

3つの要点
✔️ Federated Learningの重み付け方法の改善に関する研究です。統計的異質性やノイズデータの影響を考慮し、各ローカルモデルの一般化性能の上下限を重み付けに利用しました
✔️ 分散とバイアスのトレードオフに基づく一般化性能を分解。データ分布のシフトに対するロバストなモデルの性能を考慮しました
✔️ 実験結果により、提案された重み付け戦略がFederated Learningアルゴリズムの性能とロバスト性を向上させることが示されました

Aggregation Weighting of Federated Learning via Generalization Bound Estimation
written by Mingwei Xu, Xiaofeng Cao, Ivor W.Tsang, James T.Kwok
(Submitted on 10 Nov 2023)
Comments: Accepted on arXiv.
Subjects: Machine Learning (cs.LG)

code：

本記事で使用している画像は論文中のもの、紹介スライドのもの、またはそれを参考に作成したものを使用しております。

概要

Federated Learning（FL）では、通常、クライアントから集めたモデルのパラメータを、各クライアントのサンプル数に応じて重み付けして集約します。しかし、この単純な重み付け方法では、クライアント間でデータの統計的な偏りやノイズが存在すると、モデルの性能が低下したり、不公平な結果になったりする可能性があります。理論的な研究によると、分布の変化に対するモデルの汎化性能には上限があることが分かっています。このことから、連合学習における重み付けの方法を見直す必要性が生じています。

本研究では、従来の重み付け方法を、各クライアントのモデルの汎化性能の範囲を考慮した新しい戦略に置き換えることを提案します。具体的には、各通信ラウンドにおいて、現在のクライアントモデルの分布変化に対する2次モーメントの上限と下限を推定し、その範囲の差異を重み付けの集計比率として利用します。実験の結果、提案手法を用いることで、代表的なFLアルゴリズムのベンチマークデータセットにおける性能が大幅に向上することが確認されました。

この研究は、連合学習におけるモデル集約の重み付け方法に新たな視点を与えるものです。クライアント間のデータの偏りを考慮することで、より頑健で公平なモデルの構築が期待できます。今後は、様々な実世界のデータを用いて提案手法の有効性を検証していくことが重要だと考えられます。

はじめに

データマイニングと機械学習の分野において、データのセキュリティとプライバシー保護は非常に重要なテーマです。そこで注目されているのが、フェデレーテッドラーニング（FL）と呼ばれる分散型機械学習のフレームワークです。FLでは、複数のクライアントが協力してモデルを学習しますが、データを直接共有する必要はありません。クライアントとサーバー間ではパラメータの通信のみが行われます。近年、IoT、コンピュータビジョン、自動運転、医療など、様々な分野でFLの応用が進んでいます。

しかし、FLにおいては、クライアント間のデータの統計的な偏りが大きな課題となっています。これは、各クライアントが持つデータの分布が異なり、ノイズや不均衡が存在することを意味します。その結果、ローカルとグローバルの損失関数の最適化方向がずれてしまい、モデルの性能が大きく低下したり、収束が妨げられたりします。この問題に対処するために、通信量の増加が必要になることもあります。

これまでにも、FLにおける統計的な偏りの問題に取り組む研究が数多く行われてきました。主な目的は、モデルの乖離を抑えて、ローカルな更新がグローバルなモデルから大きく外れないようにすることです。例えば、FedProxは損失関数に正則化項を加え、SCAFFOLDはグローバルとローカルの制御変数を導入して乖離を軽減します。FedDynは、各クライアントに対して動的な正則化項を設けるという、異なるアプローチをとっています。

これらの研究では、クライアントのモデルパラメータをサーバーで集約する際に、各クライアントのサンプル数に基づく重み付けを行うのが一般的です。しかし、この単純な重み付け方法では、クライアント間の統計的な偏りによって、不公平な結果になったり、ロバスト性が損なわれたりする可能性があります。そのため、FLにおける重み付けの方法を見直す必要性が指摘されています。

機械学習の分野では、ノイズや不均衡なデータを扱う際に、重み付けが効果的かつロバストな学習手法として知られています。例えば、ノイズの少ないデータには大きな重みを、ノイズの多いデータには小さな重みを割り当てることで、モデルの学習を妨げるデータの影響を抑えることができます。また、不均衡なデータの場合は、少数クラスのデータに大きな重みを与えることで、学習の偏りを軽減できます。

しかし、FLにおいては、ノイズと不均衡が同時に存在するため、従来の重み付け手法では十分に対処できない可能性があります。FLの統計的な偏りの複雑さに対応するためには、より洗練された重み付け戦略が必要だと考えられます。今後は、FLの特性を踏まえた新しい重み付け方法の研究が期待されます。

動機

分布ロバスト性の分析において、シフトされた異質なデータ分布の一般化性能は境界付けることができ、モデルに依存しないトレーニングモデルの最悪ケースの性能をコントロールすることが可能です。具体的には、この一般化の境界はシフトされた分布の度合いと正の相関関係にあります。言い換えると、分布がより異質であるほど、一般化性能を正確に推定することが難しくなります。

これらの洞察に基づき、著者らはフェデレーテッドラーニングにおけるパラメータ集約のための新しい重み付け戦略を提案し、シフトされた異質な分布の境界不一致を活用します。境界不一致の推定は、クライアントのデータ分布内のトレーニング難易度を理論的に反映しています。境界不一致がより狭いほど、よりロバストなトレーニング性能となります。

この設定において、重要な異質性を示すシフトされた分布を持つクライアントは、サーバーとの大きな一般化不一致のため、小さな重み付けを割り当てるべきです。境界不一致を考慮することで、著者らの提案する重み付け戦略は、フェデレーテッドラーニングにおけるパラメータ集約のロバスト性と公平性を向上させることを目指します。

理論的には、一次原点モーメントと二次原点モーメントは、それぞれロバスト性損失関数の異なる形態の期待値ですが、主な違いは二次原点モーメントが1未満の損失値に対しては一次原点モーメントより平らであり、1を超える値に対してはより強い凸性を示すことです。Sharpness-Aware Minimization（SAM）の文脈では、平らな最小値が鋭い最小値よりも好まれると考えられています。これは、平らな最小値はより安定している傾向があるためです。FLのロバスト重み付けでは、二次原点モーメントを利用して、平らな最小値に収束させることを目指します。

したがって、一般化境界の推定の過程で、私たちは一般化境界のために二次原点モーメントを利用します。貢献。この論文では、サンプル比率に基づく重み付けに頼る代わりに、ローカルモデルの一般化境界の推定に基づく重み付けスキームを導入します。具体的には、前述の二次原点モーメントの優れた平坦性と凸性を利用して、一般化境界をユニークに推定します。境界不一致を計算することで、各通信ラウンドで集約重み付けを動的に調整し、トレーニングプロセスへのクライアントの参加をより公平にします。境界不一致がより狭いクライアントには、より高い均一性を示す高い集約重み付けが割り当てられます。

このワークの主な貢献は以下の通りです：

1) 分布ロバスト性の観点 : 著者らは、フェデレーテッドラーニングにおける集約重み付けアプローチを分布ロバスト性の観点から再考し、ローカルモデルのシフト分布の一般化性能を境界付けることができます。

2) 新しい理論的洞察 : 理論的には、損失関数の二次原点モーメントを利用し、これは一次原点モーメントと比較してより優れた一般化性能を示し、鋭い値での集約重み付けがゼロに近づくのを避けます。具体的には、データ分布のシフト下での一般化性能指標に上下限を設けます。ここでは、損失の二次モーメント、を使用します。バイアスとバリアンスのトレードオフ分析の観点から、この二次モーメントは、バイアスの二乗とバリアンスの合計に近似します。

3) ロバストな集約重み付け : 著者らは、フェデレーテッドラーニングにおける従来のサンプル比率重み付けの固有の不公平性に対処するための新しいアプローチを提案します。著者らの戦略は、一般化境界を推定し、統計的異質性の存在下で集約効率を向上させる境界不一致の重み付けスキームを実装します。著者らは、FedAvg、FedProx、SCAFFOLD、FedDynなどの一般的なフェデレーテッドラーニングアルゴリズムを使用して、著者らのアプローチを広範囲に評価しました。実験結果は、著者らの提案したアプローチによる顕著な改善を示しています。

予備知識

バイアスと分散のトレードオフ

機械学習において、訓練されたモデルの期待コストは、固有の目標ノイズ、二乗バイアス、および分散の3つの非負のコンポーネントに分割されます。バイアスと分散のトレードオフは、訓練されたモデルの予測の一般化を理解するのに役立つ統計ツールです。最適なトレードオフにより、過学習および過少学習を避けるより正確なモデルが得られます。トレーニングデータセット Dは、分布 P(X, Y) から抽出された独立かつ同一分布のサンプルで構成されます。ここで、xはテストサンプルを表し、yはその真のラベルを示します。h_D(x)は、データセットDにおける機械学習アルゴリズムによって学習された仮説を表し、h(x)は入力xに与えられる期待されるラベルを示します。期待されるモデル仮説は

として示され、期待されるテスト誤差は

によって表されます。バイアス-分散分解は次のようになります：

バイアス-分散分解の導出は付録Aにあります。実用的な応用では、ノイズ項は通常検出が難しいため、一定とみなされます。したがって、本論文では、期待されるテスト誤差を次のように近似します：

次に

l(Z) = hD(x) − y とすると、上記の方程式(3)は次のように書けます：

大数の法則によると、Nが十分に大きい場合、であり、バイアスはおよそ E[l(Z)] となります。簡単のために、期待されるテスト誤差を次のように書き換えることができます：

方程式(5)はまた、統計学における分散公式 V[x] = E[x2] − E2[x] も満たします。ただし、この方程式はバイアスと分散の両方を含んでいることに注意が必要です。

分布の頑健性分析

分布ロバスト性 分布ロバスト性最適化は、最悪のケースの分布に対して最適化することでモデルのロバスト性を向上させる手法です。このアプローチでは、入力として x ∈ X、出力として y ∈ Y を、共同データ分布 P(X, Y) から考え、h : X → Y を機械学習モデルとします。損失関数 L : Y × Y → R+ が与えられた場合、目的は次の式を最小化することです：

ここで、UP ⊆ P(X, Y) は不確実性確率分布のセットを表します。この最適化問題を解くことにより、十分なロバスト性を提供するモデルパラメータを取得することができます。分布ロバスト性フレームワークにおいて、Werberらは、データ分布の不一致によって生じる無知モデル間の一般化性能の不一致を調査しました。彼らは、モデル一般化性能の上限と下限を提供しました。Werberの論文の定理2.2と著者らの上述の分析から着想を得て、元のテキストで述べられている一次モーメントの代わりに二次原点モーメントの使用を拡張します。距離パラメータ ǫ を導入することにより、シフトされたデータ分布 Q における h のロバスト性能を制限する異なる方法を確立します：

ここで、Pは実際の分布を表し、B2Lは距離 ǫ と現在のデータ分布 P に依存する境界を表します。Hellinger Dist(, ) は、機械学習において2つの確率分布の類似性を定量化するために使用されるヘリンジャー距離を指します。E(X,Y)∼Q[L2(h(X), Y)] の上限と下限は定理3.1、定理3.2から導かれます。

定理3.1：シフトされた分布の下での無知モデルの一般化性能の上限：

L : Y × Y → R+ が非負の関数であり、ある M > 0 に対して sup(x,y)∈(X,Y) |L(h(x), y)| ≤ M と仮定すると、sup(x,y)∈(X,Y) |L2(h(x), y)| ≤ M2 となり、任意の確率測度 P に対して、ǫ > 0 に対して、次の式が成り立ちます：

ここで、λǫ = [ǫ2 (2 − ǫ2) (1 − ǫ2)2]1/2 であり、Bǫ(P) = {Q ∈P(X, Y) : H(P, Q) ≤ ǫ} は P を中心とする半径 ǫ のヘリンジャー球です。半径 ǫ は、

でなければなりません。

定理3.2：シフトされた分布の下での無知モデルの一般化性能の下限：

L : Y × Y → R+ が (X, Y) で非負の値を取る関数であるとすると、任意の確率測度 P に対して、ǫ > 0 に対して、次の式が成り立ちます：

ここで、λǫ = [ǫ2 (1 − ǫ2)2 (2 − ǫ2)]1/2 であり、Bǫ(P) = {Q ∈ P(X, Y) : H(P, Q) ≤ ǫ} は P を中心とする半径 ǫ のヘリンジャー球です。半径 ǫ は十分に小さい必要があります：

上記の定理3.1および定理3.2は、データ分布の不一致 ǫ の存在下での無知モデルの一般化性能の上限と下限を提供します。その上限と下限は期待値と分散の組み合わせです。これは、分散を正則化項として損失関数の二次原点モーメントの計算と見なすことができます。フェデレーテッドラーニングにおけるローカルモデルに関しては、上述の上限および下限を活用して、一般化性能の不一致の境界を推定することができます。

ロバストな重み付けによる連合学習

問題の提示 典型的なフェデレーテッドラーニングの研究において、集約中のローカルモデルへの重み付け比率は、原則に従って割り当てられます：∑K k=1 pk = 1、ここでpkは全トレーニングサンプルに対するローカルトレーニングサンプルの割合を表します。このアプローチは、各ローカルモデルの貢献が適切に考慮されることを保証します。しかし、異質なシナリオでは、ローカルモデル間でデータ分布が異なる可能性があり、サンプル比率に基づいて集約重みを決定する戦略は、異質なデータによって引き起こされる潜在的な悪影響を考慮に入れます。

バイアスとバリアンスのトレードオフは、二次原点モーメントが重要な統計指標、すなわちバイアスとバリアンスから成り、これらは学習モデルの精度と一般化能力について貴重な洞察を提供します。さらに重要なことに、先に述べたSharpness-Aware Minimizationの分析によると、二次原点モーメントはより良い安定性と凸性を示します。前述の分析に基づき、著者らの目標は、ローカルモデルの二次原点モーメントの上限と下限を推定することです。これらの境界は、分散ロバストな設定の下で得られます。これにより、モデルの重み付け集約性能に関する包括的な理解を得るとともに、潜在的な変動と不確実性を考慮に入れることを目指します。

問題の正式な提示は以下の通りです：パラメータ集約重み付けにおける異質なデータの悪影響を軽減するために、まず、データ分布の不一致を定量化するために定義された距離を割り当て、分布シフトの程度を表します。次に、ローカルモデルの一般化の上限と下限を推定します。最後に、一般化境界の不一致は、集約に使用される重み付けを決定するための基盤を提供します。

フェデレーテッド・ラーニング

一般的な連合学習。典型的なFL [1]では、学習目的は最適化関数として一般化できます：

ここで、Lkはk番目のクライアントの総学習損失を表し、hは学習モデルの仮説を表し、Kは学習に参加するローカルクライアントの数を表します。k番目のクライアントがnk個の学習データ{(xk,1, yk,1), (xk,2, yk,2), . . . , (xk,nk , yk,nk )}であるとすると、局所目的関数Lk(-)は以下のように定義できます：

ここで、L(, )は損失関数を表します。集約されたグローバルパラメータをサーバ側のクライアントに渡し、k番目のローカルクライアントhtk,eはEステップのローカル更新を行います：

最後に、大域モデルは局所学習より生成されます。

汎化境界推定

分布の頑健性分析をローカルモデルの境界推定に組み込みます。異種データのシナリオでは、上界と下界を使用することで、よりロバストで公平なクライアントのトレーニング性能の尺度が得られます。このステップはロバストな重み付け集約戦略において極めて重要です。上界については定理3.1、下界については定理3.2を基に、以下の定理を導きます：

定理4.1 シフト分布の下でのモデル性能の上界と下界は以下の通り：

各ローカルクライアントの実際のデータ分布に基づいて、汎化性能を推定するための上界と下界の概略を、定理4.1に示します。これらの境界は主に実際のデータ分布内の期待値と分散に依存します。これらの境界を推定するには、実際のデータ分布からサンプリングし、学習損失を考慮し、データ分布の不一致を定量化するために所定の距離を設定します。

FLに対するロバストな重み付け

本節では、定理4.1に基づくロバストな集計重み付け戦略を紹介します。サンプルの割合だけに頼るのではなく、著者らのアプローチは汎化境界の不一致を利用して、よりロバストで公平な重み付けスキームを実現します。Federated Learningの文脈では、各クライアント内のデータは各ラウンドの学習中も変化しないと仮定します。しかし、データ分布が多様な異なるクライアントは、同じモデルの仮定に従った場合、様々な汎化性能を示す可能性があります。式(16)と式(17)でそれぞれ定義されるように、上限をu、下限をlとすると、ある距離におけるj番目のクライアントの不一致度σは以下のように計算されます：

汎化境界の不一致に関するより多くの情報を得るために、複数の異なる距離値を設定し、近傍値として見ることができるそれらの境界の不一致を計算します。したがって、j番目の（j = 1, ... , K）クライアントの合計境界不一致ηjは次のようになります：

集計重み付けのt + 1番目のラウンドでは、次のように集計重み付けの定式化されます。

はロバスト加重を表します。著者らのロバスト加重戦略の枠組みは図1とアルゴリズム1に描かれています。ここで重要なのは、定理4.1の上界と下界の計算には異なる条件が含まれることです。その結果、直接的な式の推論や減算ができないため、上界と下界を別々に推定する必要があります。

図1. ロバスト集計重み付けの概要。各クライアントはモデルの汎化不一致度を推定し、学習と集計の重み付けを行います。

ロバストな集約重み付けアルゴリズム

前述のアルゴリズムの主要ステップを抽象化し、アルゴリズムプロセスの概要を示します。アルゴリズム1は、標準的な連合学習フレームワーク内でのロバストな集約重み付け戦略を提示します。このフレームワークは2つのステップから構成されています： ClientUpdateとServerExecute。また、本アルゴリズムの設定でも引き続き適用可能な4つの古典的ベースラインを紹介します。ClientUpdateステップでは、サンプルの比率を使用するのではなく、ローカルモデルパラメータを集約するための重み付けとしての推定境界の不一致に重要な違いがあります。ServerExecuteステップでは、サーバーは不一致とクライアントモデルを受信し、推定された境界不一致情報を組み込んだ新しい重み付けを用いて全てのクライアントを集約します。

実験

IIDデータセットと非IIDデータセットにおける境界の不一致

・実装

IIDおよび非IIDの両方のケースにおけるCIFAR10データセットの境界不一致推定の違いを調査します。IIDケースでは、トレーニングデータセットは各カテゴリからランダムに選択された2,000サンプルで構成され、合計20,000のトレーニングサンプルが含まれます。非IIDケースでは、トレーニングデータセットも20,000サンプルを含み、各カテゴリは以下のランダムサンプルサイズを持ちます：[913, 994, 2254, 2007, 1829, 1144, 840, 4468, 713, 4838]。すべてのケースで、テストセットは10,000サンプルで構成され、各カテゴリに1,000サンプルが含まれます。モデルとしてresnet20ネットワークを使用し、2つの損失関数を検討します：0-1損失とJSD損失。実験を通じて、64のバッチサイズで100回の通信ラウンドを行います。

・結果

図2では、トレーニング中の損失とテスト精度の傾向を示しています。結果は、モデルが非IIDケースに比べてIIDケースでより良いパフォーマンスを示すことを明確に示しています。図3では、0-1損失とJSD損失を使用して上限と下限を示し、青い線がIIDデータを、赤い線が非IIDデータを表しています。均等な間隔の10個の離散点で境界不一致の合計を計算します。0-1損失の場合、非IIDデータの総境界不一致は2.28であり、IIDデータの場合は2.10です。JSD損失の場合、非IIDデータの総境界不一致は2.38で、IIDデータの場合は2.16です。これらの知見は、IIDシナリオではデータが互いに類似しており同じ分布に従うため、予測結果の可能性の範囲が小さく、異なるモデルやアルゴリズム間の不一致の境界がより厳密になることを示しています。逆に、非IIDシナリオでは、データがより多様であり異なる分布に従う可能性があるため、予測結果の可能性の範囲が広がり、モデル間の不一致の境界がより緩くなります。

これらの結果から、異質なデータ分布のシフトは、その一般化パフォーマンスの境界の推定を通じて効果的に評価できることが認識されます。さらに、これらはロバスト集約重み付けに関する後続の実験に対する初歩的な理解を提供します。

図2：IIDおよび非IID CIFAR10データセットにおけるテスト精度とトレーニング損失。

図3:CIFAR10データセットにおける0-1損失とJSD損失に対する上下限不一致、青線がIIDデータ、赤線がNon-IIDデータ。IIDの方がNon-IIDよりも境界の不一致がきついことがわかります。

FLに対するロバストな集約重み付け

著者らの実験はFLにおける境界の不一致を使用することで、ロバストな集約の重み付けの有効性を検証することです。選択したベースラインはFedDynの論文に従ったもので、具体的にはFedAvg、FedProx、SCAFFOLD、FedDynを含みます。同じハイパーパラメータ設定の下で、サンプルの重み付けとロバスト集計の重み付けの割合を比較します。

・実験設定

データセット データの異質性を評価するために、Federated Learningの研究で広く使われている4つのデータセットを利用します： CIFAR10、MNIST、CIFAR100、EMNISTです。非IIDデータセットのより現実的なシミュレーションを作成するために、クライアントのクラスに不均一な分布を導入し、いくつかのクラスが欠落している可能性を許容します。この目的のために、非平衡ディリクレ分布からサンプリングします。各クライアントについて、ディリクレ分布からランダムベクトルpk ∼ Dir(α)を生成します。k番目のクライアントに割り当てられたデータセット内の各カテゴリcに属する画像の割合は、(100 - pk,c)%で表されます。実験では、対数正規分布のパラメータをアンバランスsgm = 0.9に、ディリクレ分布のパラメータをルールarg = 0.3に設定しました。さらに、実世界のシナリオでノイズの多いデータをシミュレートするために、ラベルの一部を0として割り当てることで、4つのデータセットに20%のノイズの多いデータを導入しました。

設定　全ての実験において、全てのクライアントが各ラウンドの通信に参加する、すなわち、各クライアントが訓練に参加する確率は1に等しいと仮定します。図4に示すように、異なるデータセットに対して、通信ラウンド数を[200,500,700]に設定します。重みの減衰は1e^-3に等しく、バッチサイズは50です。各クライアントにおいて、ローカルエポックは5、学習率は0.1。各データセットにおいて、それぞれ10、20、50、100、200クライアントで実験を実施。MNISTとEMNISTのデータセットでは、2つの隠れ層からなる完全連結ニューラルネットワークを用い、隠れ層のニューロン数はそれぞれ200と100。CIFAR10とCIFAR100データセットの実験では、(McMahan et al., 2017) で使用されたCNNモデルを使用し、2つの畳み込み層と64×5×5フィルタを含み、394と192のニューロンを持つ2つの完全接続層とソフトマックス層が続きます。

・モデルの性能に関する実験結果

全体的な概要 著者らは、4つの古典的なベースラインアルゴリズムに対して、ロバスト集約重み付け戦略と元のサンプル比率法の両方を適用しました。図4は、10、20、50のクライアントを使用し、ノイズデータを20%追加した際のテスト精度結果を示しています。図において、実線はロバスト集約重み付け戦略を、破線はサンプル比率戦略を表しています。すべての実験の対応するテスト精度は表1に示されています。表1では、Proptoはサンプルの比率を、Robustはロバスト集約重み付けを意味しています。表からは、著者らの戦略が一貫して元の戦略に比べて高いテスト精度を達成していることが明らかです。著者らの実験は、FedAvgおよびFedProxに対して顕著な性能改善を示し、SCAFFOLDおよびFedDynに対してもわずかな改善を示しました。これらの結果は、著者らのロバスト集約重み付けが、異質でノイズのあるデータを扱う際により公平でロバストであることを示しています。

図4:ディリクレ(0.3)を用いたCIFAR10, MNIST, CIFAR100, EMNIST , 0.9 ) . 通信ラウンドは、異なるデータセットに対して [200,500,700] に設定されています。

表I:ディリクレ(0.3,0.9)を使用したテスト精度。

テスト精度 具体的には、表1のフェデレーテッドラーニングテスト精度における実験データを観察すると、重み付け方法がFedAvgおよびFedProxのベースライン方法に比べて一貫して顕著な改善を達成していることがわかります。また、クライアント間のデータ分布のノイズデータの比率が高く、異質性が強い場合、FedAvgの改良である正則化項のFedProxは、安定的にFedAvgを上回ることはありません。SCAFFOLDおよびFedDynでは、すべてのクライアントとデータセットを考慮すると、全体の77.5%のテスト結果が元の方法を上回ります。MNISTデータセットではテスト精度が完全に元の方法を上回り、EMNISTでの失敗率は2.5%、CIFAR10では5%、最後にCIFAR100では15%です。この現象は、重み付け推定のバイアス補正を導入する際のトレーニングプロセスでのデータセットの異質性による次元の崩壊が原因で、いくつかの表現情報が失われ、無効な重み付けが生じ、モデルの性能が低下することに起因しています。優れた性能を持つFedDynにおいては、SCAFFOLD、FedProx、FedAvgでの新しい重み付けの導入にもかかわらず、元の重み付けモデルの性能に匹敵することは依然として困難です。FedDynのクライアント側でのグローバル最適へのモデルの収束戦略は、特定の優れたクライアントにおいて効果的な境界不一致を捉えることを困難にしますが、それでも優れた解決策です。

ロバスト性分析 上記の分析に加えて、著者らはロバスト集約重み付け戦略の性能を評価するためにロバスト性分析を行いました。実験結果は、著者らのロバスト集約重み付け戦略が、パラメータ集約中に異質なデータの高い割合を持つクライアントに小さな重み付けを割り当てることで公平性を促進することを示しています。特に、FedAvgおよびFedProxの場合、ロバスト集約重み付け戦略は顕著な精度の改善をもたらし、SCAFFOLDおよびFedDynに対してはわずかな改善を提供します。これらの結果の背後にある理由は、FedAvgおよびFedProxは異質なデータによるローカルモデルのバイアスの修正を十分に対処していない古典的な方法であるのに対し、SCAFFOLDおよびFedDynは異質なデータによるローカルモデルのシフトの最適化に焦点を当てているためです。SCAFFOLDおよびFedDynは精度を向上させますが、FedAvgおよびFedProxに比べてより多くのトレーニング時間を必要とします。著者らのロバスト集約重み付け戦略を取り入れることで、FedAvgおよびFedProxはSCAFFOLDおよびFedDynに匹敵する性能を達成しながら、計算時間を少なくすることができます。

通信とパフォーマンスのバランス 水平方向から見ると、4つのベースラインにわたる著者らの新しい重み付け方法と元の方法のテスト精度の差は縮小しています。例えば、FedAvgおよびFedProxとSCAFFOLDを比較すると、サンプル比率に基づく重み付けの実験では、FedAvgおよびFedProxは一貫してSCAFFOLDよりも大幅に性能が劣ります。しかし、境界不一致に基づく重み付けの実験では、アルゴリズム間の性能差が急速に減少し、少数のケースではFedAvgおよびFedProxがSCAFFOLDを上回ります。同様に、FedAvgおよびFedProxは境界情報を集約重み付けに取り入れた後、FedDynのモデル性能にわずかに後れを取りますが、サンプル比率重み付け方法と比較して差は大幅に小さいです。これは、通信および計算の制約が厳しいが精度要件がより緩いシナリオに特に適用されます。さらに、実験の安定性を評価するために、図5に示されるように、100および200のクライアントを含む追加実験を行いました。これらの実験で得られた結果は、10、20、50のクライアント実験で観察された改善と一致しています。より詳細な実験結果も表1に示されています。表1では、著者らの実験結果は、FedAvgおよびFedProxに対して顕著な精度の改善を示しています。ただし、著者らの重み付け戦略がすべてのフェデレーテッドラーニングアルゴリズムの精度を一貫して向上させるわけではないことに留意する必要があります。これは、SCAFFOLDおよびFedDynなどのFLアルゴリズムの安定性とトレーニングの過剰適合の潜在的リスクに起因する可能性があります。全体的に、実験結果は、特にFedAvgおよびFedProxのケースにおいて、著者らの重み付け戦略の有効性に対する説得力のある証拠を提供します。

・検査精度の分散分析

4つのベースラインと4つのデータセットに対して実験を行い、ランダムに10および100のクライアント数を選択し、モデル収束後のテスト精度の分散を計算します。これは表2に示されています。前の表の設定と同様に、Propto.はサンプル比率重み付け方法を表し、Robust.は著者らの新しい一般化境界推定に基づく方法を表しています。分散は、収束後に通信トレーニングに継続して参加するモデルのパフォーマンスに基づいて計算されます。

著者らはこの分析を行いますが、それは高いノイズ比率と強いデータ異質性を持つ環境では、SCAFFOLD 4のようないくつかの方法が収束後に顕著な振動を示し、モデルトレーニングの不確実性が増すためです。したがって、いくつかのベースラインのパフォーマンスの安定性を比較し、これは図4と図5で視覚的に観察することができます。具体的には、表2から、著者らの重み付け方法は元の重み付け方法に比べて、90.625%のケースで全体的に低いテスト精度の分散を持っていたことがわかります。FedAvgとFedProx方法のテスト精度の分散は、著者らの提案する重み付けスキームを使用することで、元のサンプル比率の重み付けに比べて減少しました。

FedDynとSCAFFOLD方法の場合、分散の一部だけが元の重み付け方法の分散を上回りました。これは、著者らの方法がほとんどの場合においてロバストなトレーニングを達成するが、いくつかの極端なシナリオでは失敗する可能性があり、さらなる探究が必要であることを示しています。

表Ⅱ：ディリクレによる検査精度の分散 ( 0.3 , 0.9 )

図5. ディリクレ(0.3, 0.9)を用いたCIFAR10, MNIST, CIFAR100, EMNIST.

FLにおけるノイジーデータとクライアントの割合の違い

ランダムに選択されたノイズデータの割合と参加クライアントの割合が異なる条件下で、著者らのロバスト集約重み付け戦略の有効性を検証するための実験を行いました。ノイズを導入するために、CIFAR10およびEMNISTデータセットに40%のノイズを加えました。参加クライアントの割合については、CIFAR10データセットでのトレーニングに参加するクライアントの割合をprob=0.7に設定しました。その他の実験セットアップは同じままです。

これらの実験の結果は図6、表3、表4にまとめられています。前述の実験の結果と比較して、著者らのロバスト集約重み付け戦略は、より高い割合のノイズデータを扱う場合や、クライアントの一部のみがトレーニングに参加する場合でも有効であることが観察されました。この戦略は、異なるシナリオにわたって一貫してテスト精度を向上させ、そのロバスト性と適応性を示しています。これらの発見は、高度にノイズの多いデータが存在する場合においても、著者らの集約重み付け戦略のロバスト性を強調しています。大量のデータが破損していても、またクライアントの一部のみがトレーニングプロセスに貢献している場合でも、その効果を示しています。

このような厳しいシナリオに適応する著者らの戦略の能力は大きな利点であり、現実世界の設定で信頼性の高い正確なモデルトレーニングを保証します。

図6 (a) CIFAR10におけるテスト精度(データノイズ40%、Dirichlet(0.3, 0.9))。(b)70%のクライアントが学習に関与し、Dirichlet(0.3, 0.9)を用いたCIFAR10のテスト精度。実線は重み付け戦略、破線は訓練サンプルの割合を重みとして使用した場合。

表3 40%のノイズデータに対するDirichlet(0.3, 0.9)のテスト精度。

表4 70%のクライアントに対するディリクレ(0.3, 0.9)のテスト精度。

結論

フェデレーテッドラーニング（FL）の分野では、従来のサンプル比率に基づく集約重み付け手法が、各クライアントのデータ分布の違いによって不公平な結果をもたらす可能性があると指摘されています。この問題に対処するため、研究者たちは新たな視点から集約重み付けの方法を見直しました。具体的には、各クライアントのローカルモデルの性能を考慮に入れるアプローチを提案しています。分布ロバスト性の分析を参考に、単にサンプル比率だけでなく、各ローカルモデルの決定境界の不一致度に基づいて重み付けを行う手法を導入しました。

この境界を求めるために、ロバスト性損失の二次モーメントを利用することで、一部のクライアントに極端に小さい重みが割り当てられることを避けつつ、より滑らかな境界の一般化を実現しました。この手法は、ノイズやクラスの不均衡といった実際のFLシナリオにおいて、より効果的であることが示されています。

さまざまな実験結果から、提案された重み付け戦略が既存のFLアルゴリズムの性能とロバスト性を大幅に改善することが明らかになりました。今後の研究課題としては、分布の異なるデータセットを用いたトレーニングにおいて、勾配集約のための自動的に適応する重み付け手法の開発が挙げられます。このような取り組みにより、フェデレーテッドラーニングの更なる発展が期待されます。