[FlagVNE] 用于虚拟网络嵌入的灵活、可通用的强化学习框架

网络和互联网架构 04/10/2024

三个要点
✔️ 基于行动的 VNE 双向 MDP 模型提高了解空间的可探索性。
✔️ 用于自适应行动概率分布生成和高学习效率的分层策略架构。
✔️ 基于元强化学习的学习方法和课程调度策略可高效学习多个特定规模的策略，并使其快速适应未知分布。

FlagVNE: A Flexible and Generalizable Reinforcement Learning Framework for Network Resource Allocation
written by Tianfu Wang, Qilin Fan, Chao Wang, Long Yang, Leilei Ding, Nicholas Jing Yuan, Hui Xiong
(Submitted on 19 Apr 2024)
Comments: Accepted by IJCAI 2024
Subjects: Artificial Intelligence (cs.AI); Networking and Internet Architecture (cs.NI)

code：

本文中使用的图片来自论文、介绍性幻灯片或参考这些图片制作而成。

介绍

网络虚拟化（NV）是一种创新技术，在 5G 网络和云计算等领域日益受到关注。NV 可通过网络切片和共享基础设施在同一物理网络上部署多个用户提交的虚拟网络请求（VNR），并满足不同的网络服务需求。

然而，这项引人入胜的技术的核心是虚拟网络嵌入（VNE），这是一个极具挑战性的组合优化问题：VNE 需要处理巨大的组合爆炸和差异化需求。虽然解决方案空间巨大，但根据用户服务的具体要求，不同 VNR 拓扑及其相关资源需求的整合也会发生动态变化。

近年来，强化学习（RL）已成为解决虚拟神经网络问题的一种有前途的方法。然而，由于单向行动设计和 "一刀切 "的学习策略所造成的局限性，现有的基于 RL 的 VNE 方法在可探索性和通用性方面受到了限制。

在本文中，我们为 VNE 提出了一个灵活多变的新 RL 框架 FlagVNE，旨在提高解空间的可探索性，为不同规模的 VNR 学习专门的策略，并实现对未知分布的快速适应。.这种创新方法将为复杂网络环境中的 VNE 开辟新的可能性。

拟议方法（FlagVNE）

图 2 是 FlagVNE 框架的概览。(a) 显示了通用学习方法，(b) 显示了基于行动的双向 MDP 建模和分层策略架构。拟议方法的主要组成部分包括

1. 基于行动的双向 MDP 模型 （图 2(b)）： - 提出了一种新的 MDP 模型，允许同时选择虚拟节点和物理节点。
- 这提高了代理探索和利用的灵活性，增加了对解决方案空间的探索。
- 设计了分层解码器和双层策略，以应对庞大而多变的行动空间。

2. 分级策略架构 （图 2(b)）：--分解为两个方面：虚拟节点的排序和物理节点的放置。
- 设计了具有两层策略（高层排序策略和低层放置策略）的分层解码器。
- 这样就能生成自适应行为概率分布并提高学习效率。

3. 基于元强化学习的多功能学习方法 （图 2(a)）：--提出了高效学习多种特定规模策略并使其快速适应新规模的方法。
- 在学习元策略后，针对每种 VNR 大小（包括未知大小）的特定大小策略都会得到快速微调。
- 使用课程调度策略逐步纳入大型 VNR，以减少部分最优收敛。

试验

图 3 显示了所有算法在不同流量吞吐量下的性能：随着 VNR 到达率的增加，所有算法的 RAC 都会下降，但 FlagVNE 总是能达到最佳性能。当资源竞争激烈时，FlagVNE 的改进效果尤为明显。

表 1 列出了消融研究的结果，表明 FlagVNE 的每个组成部分都对最终的性能提升做出了贡献。其中，基于元强化学习的学习方法和课程安排策略的有效性得到了证明。这些结果表明，FlagVNE 在提高可探索性和通用性方面表现出色。

结论

本文提出了一种新的 VNE RL 框架 FlagVNE，以提高可探索性和通用性。实验结果表明，FlagVNE 可用于复杂网络环境中的有效资源分配。未来，FlagVNE有望应用于更大型、更动态的网络场景，以检验其有效性。另一个有趣的方向是将 FlagVNE 应用于其他资源管理问题。

与本文相关的类别

Sasayama

赶上最新的AI论文

[FlagVNE] 用于虚拟网络嵌入的灵活、可通用的强化学习框架

介绍

相关研究

传统方法

基于学习的方法

拟议方法（FlagVNE）

试验

结论