姓名:穆宣羽;学号:21011210092;学院:通信工程学院
基于深度强化学习的自学习多目标服务协调
现代服务由相互连接的组件组成,例如服务网格(service mesh,服务网格是一个基础设施层,用于处理服务间通信。云原生应用有着复杂的服务拓扑,服务网格保证请求在这些拓扑中可靠地穿梭。在实际应用当中,服务网格通常是由一系列轻量级的网络代理组成的,它们与应用程序部署在一起,但对应用程序透明。)中的微服务或pipeline中的机器学习功能。这些服务可以按需扩展并跨多个网络节点运行。为了处理传入的流量,必须实例化服务组件,并将流量分配给这些实例,同时考虑容量、不断变化的需求和服务质量(QoS)需求。这一挑战通常通过专家设计的定制方法来解决。虽然这通常适用于考虑过的场景,但模型通常依赖于不现实的假设或在实践中不可用的知识(例如,先验知识)。我们提出了DeepCoord,这是一种新的深度强化学习方法,可以学习如何最好地协调服务,并面向现实假设。它与网络交互,并依赖于可用的、可能延迟的监测信息。我们的无模型方法适合各种目标和流量模式,而不是定义一个复杂的模型或算法来实现一个目标。Agent在没有专业知识的情况下进行离线训练,然后以最小的开销在线应用。与最先进的启发式算法相比,DeepCoord在真实网络拓扑和流量跟踪上显著提高了流量吞吐量(高达76%)和整体网络效用(超过2倍)。它还支持优化多个可能存在竞争的目标,学会尊重QoS要求,将其推广到不可见的随机流量场景,并扩展到大型真实世界的网络。