AIが解決する！EV大量普及時代の電力需給難題

Neural Network 2024年10月11日

3つの要点
✔️ EVネットワーク充電制御問題をDec-POMDPとしてモデル化し、DDPGベースの集中型・分散型マルチエージェント強化学習を適用しました。
✔️ 理論分析により、集中型手法がポリシーグラディエントの分散は大きいが、協調的学習により非定常性を緩和できることを明らかになりました。
✔️ シミュレーション評価で、集中型手法が充電コスト、充電パターン平滑性、公平性で優れ、大規模ネットワークにも適用可能であることを実証しました。

Centralized vs. Decentralized Multi-Agent Reinforcement Learning for Enhanced Control of Electric Vehicle Charging Networks
written by Amin Shojaeighadikolaei, Zsolt Talata, Morteza Hashemi
(Submitted on 18 Apr 2024)
Comments: 12 pages, 9 figures
Subjects: Artificial Intelligence (cs.AI)

code：

本記事で使用している画像は論文中のもの、紹介スライドのもの、またはそれを参考に作成したものを使用しております。

序論

電気自動車(EV)の普及が進むにつれ、ピーク時の電力需要が大幅に増加するおそれがあります。そのため、EVの充電を適切に制御し、ピーク時の電力使用を最小限に抑えることが重要な課題となっています。従来は、モデルベースの手法や単一エージェントの強化学習手法がEV充電制御に用いられてきましたが、不確実性への対処や、プライバシー、スケーラビリティの点で課題がありました。

そこで本論文では、多エージェント強化学習(MARL)に基づく分散協調型のEV充電制御手法を提案しています。提案手法の理論的分析と数値シミュレーションによる性能評価を行い、集中型手法の優位性を示すとともに、多数のEVユーザーが存在する現実的な状況でも有効に機能することを明らかにしています。

提案手法

提案手法では、図1に示すように、EVネットワークにおける各EVユーザーがスマートメーターに搭載された強化学習エージェントを持っています。このネットワークには2層があり、物理的な電力層と制御層から構成されています。

物理的な電力層では、すべてのEVが上流の電力網(ユーティリティ会社)に共有トランスフォーマを介して接続されています。制御層においては、各EVユーザーのスマートメーターに設置されたRLエージェントが、動的な電力価格と物理層の制約(共有トランスフォーマなど)に基づいて、EVの充電を効率的に管理・調整する役割を担っています。

具体的な制御戦略として、本論文では2つのマルチエージェントDDPG手法、集中型手法(CTDE-DDPG)と分散型手法(I-DDPG)を提案しています。

Independent DDPG (I-DDPG)

- 完全に分散型のアプローチ。
- 各エージェントが独自のアクター・クリティックネットワークを持ち、他のエージェントを環境の一部として扱う。
- 計算コストが小さく、ポリシーグラディエントの分散が小さいが、非定常性の影響を受けやすい。

Centralized Training Decentralized Execution DDPG (CTDE-DDPG)

- 学習時のみエージェント間で協調し、実行時は分散して動作する
- 各エージェントが中央集権型の価値関数を共有し、クリティックネットワークを集中化
- エージェント間の協調により非定常性の影響を緩和できるが、計算コストが大きく、ポリシーグラディエントの分散が大きい

図2に示すCTDE-DDPGフレームワークでは、学習フェーズでのみエージェント間で情報を共有し、実行フェーズでは各エージェントが独立して動作します。学習時には、すべてのエージェントの観測と行動にアクセスできますが、実行時にはそうした情報にアクセスできません。各エージェントはアクター・クリティックネットワークを持ち、学習ではアクターが局所観測に基づき行動を選び、中央集権型の価値関数である共通のクリティックネットワークによって評価されます。一方、実行時にはアクターが分散化され、局所情報のみから行動を決定します。

このように、CTDE-DDPGでは学習時の協調によりエージェント間の非定常性を緩和しつつ、実行時のプライバシーを保護することができます。一方のI-DDPGでは、エージェントがお互いに独立して学習・実行を行います。

実験

実験設定

IEEE 5バスシステムに基づくEVネットワークをシミュレーションし、最大20エージェント(EVユーザー)のシナリオを評価しました。充電フェーズは34ステップで構成されています。表Iには、DDPG のハイパーパラメータが示されています。

一般的な性能

図4は、10エージェントにおける平均バッテリー残量を示しています。この図から、どちらの手法もEVユーザーの要求を満たしていることがわかります。

協調的価値関数の影響

図5は、10エージェントにおける平均充電レートを示しています。I-DDPGでは振動的な充電パターンとなりましたが、CTDE-DDPGは平滑な充電パターンを示しました。式(21)で定義した総変動量(TVと呼ぶ)は、CTDE-DDPGで約36%小さくなりました。

図6は平均電力価格を、図7は1日あたりの平均充電コストを示しています。エージェント数が多くなるほど、CTDE-DDPGの方が低価格/低コストとなる傾向がありました。

収束性と公平性

図8は、平均エピソード報酬を示しています。両手法ともに同じポリシーに収束しましたが、分散が大きくなる傾向にありました。

図9は、最悪エージェントと最良エージェントの性能比率(公平性)を示しています。エージェント数が増えるとI-DDPGの公平性が低下する一方、CTDE-DDPGは良好な公平性を維持しました。

理論分析通り、CTDE-DDPGではポリシーグラディエントの分散が大きくなりましたが、協調的学習により非定常性を緩和できました。この協調が、充電パターンの平滑化、価格の安定化、公平性の向上に寄与しました。エージェント数が増えてもCTDE-DDPGは頑健なパフォーマンスを発揮しました。以上の実験結果から、CTDE-DDPGが分散協調型の充電制御手法として有効であり、大規模EVネットワークにも適用可能であることがわかりました。

結論

本研究では、EVネットワーク充電制御における集中型・分散型のマルチエージェント強化学習手法を提案し、その有効性を理論と実験の両面から示しました。提案手法は、協調に基づく効率的な充電制御を実現しつつ、実行時のプライバシーも保護することができます。また、大規模なEVネットワークにおいても頑健に機能することを確認しました。

将来的には、より複雑な環境や、他の制御目的への適用を検討する必要があります。また、理論的には、モデルのさらなる洗練と解析が求められます。