①在虚拟网络上设计和评价学习算法的动态资源管理

Design and Evaluation of Learning Algorithms for

Dynamic Resource Management in Virtual Networks

在虚拟网络上设计和评价学习算法的动态资源管理

Rashid Mijumbi, Juan-Luis Gorricho, Joan Serrat, Maxim Claeys, Filip De Turck and Steven Latr´e

Universitat Polit`ecnica de Catalunya, 08034 Barcelona, Spain

Ghent University 􀀀 Minds, B-9050 Gent, Belgium

University of Antwerp 􀀀 Minds, B-2020 Antwerp, Belgium

摘要：网络虚拟化作为解决当下互联网发展僵局的关键点相当受到关注。然而，网络虚拟化的成功将取决于如何有效地利用底层网络资源。所以在本文中，我们提出了一种基于机器学习的方法——虚拟网络资源管理。我们建议把底层网络建模作为一个分散的系统来提供自组织能力，并在每个节点的基板与基板连接节点介绍学习算法。我们提出了一个多代理学习算法，即在一个协调又分散的方式下进行基板的网络资源管理。这些代理的目的是以动态地分配网络资源虚拟节点和链接且使用评价性反馈学习的最优策略。代理确保在任何给定的时间都保留虚拟网络所需要的资源。模拟结果表明，我们的动态方法极大地提高了虚拟网络接受率及接受虚拟网络请求的最大数量在任何时候同时确保虚拟网络的服务质量要求,如丢包率和虚拟链路的时延不受影响。

关键词：网络虚拟化，动态资源分配，虚拟网络嵌入，人工智能，机器学习，强化学习，多智能体系统。

一. 引言

在研究界，允许灵活性和创新的网络虚拟化技术[1]作为在未来互联网的一种手段已经获得了重视。它提供了一种机制，即从一个或多个基板网络（SNs）允许多个虚拟网络（VNs）共享资源。这些资源对于任何给定的虚拟网络完全相互独立的，而且看起来好像他们属于不同的物理网络。虚拟网络运营商可以租用这些资源给其他虚拟网络，或用它们来提供服务给终端用户，使他们能够建立由终端用户需求驱动的、专业而灵活的网络。

网络虚拟化的一个关键方面是虚拟网络物理资源的分配。这包括嵌入虚拟网络到基板网络和管理分配资源的整个生命周期。虚拟网络嵌入(VNE)问题涉及嵌入虚拟节点及节点与链接的链接基质。效率和灵活性，最优的资源配置是网络虚拟化成功的基本要素。

虚拟网络嵌入是一个深入研究的问题[1]。然而，当下大多数解决方案执行静态植入，他们不考虑重新映射的可能性以及怎样调整资源分配更多的虚拟网络，甚至把动态虚拟网络嵌入的解决方案当做使用分配和链接一个固定数量的资源虚拟节点的方法。互联网流量不是静态的，特别是如果一个基板网络拒绝请求嵌入新的虚拟网络而选择保留资源虚拟网络轻载，这可能会导致整个网络资源的低效利用。

在本文中我们将提到，在一个给定的虚拟网络在其整个生命周期中，我们根据感知需求链接动态与自适应的资源分配给虚拟节点而不是分配固定数量的资源。自适应的资源包括仔细利用闲置虚拟节点和链路资源确保虚拟网络的请求在不被拒绝时，保留的资源已嵌入，此时请求是空闲的。为此，我们使用一个需求驱动的动态方法,分配虚拟资源节点和链接使用强化学习(RL)[2]。

本文的贡献是双重的：一个将资源分配给虚拟节点动态链接和一个初始化方案的分布式学习算法，使用偏差学习策略来提高算法的收敛速度。

剩下的文章组织内容分配如下：在第二部分我们介绍相关工作。第三部分在定义的动态资源分配问题的背景下讲述网络虚拟化。第四部分简要介绍了强化学习，第五部分我们提出强化学习部分中描述的方法。第六部分提出了评价建议的解决方案和结果的讨论。本文在第七节总结。

二. 相关工作

许多变体虚拟网络嵌入一直由不同学者提出问题。他们中的一些人提出了一种两个阶段之间的协调[4],比如[3]执行节点和链接嵌入两个不协调的步骤。一些人提出通过嵌入的解决方案基于多重代理系统(MAS)[5][6]，而[7]和[8]虚拟网络嵌入提出基于数学规划的解决方案。所有这些方法提出一个静态分配方案,一旦给定虚拟网络映射,分配不改变其整个生命周期。

有一个有限数量的分散和动态解决方案虚拟网络嵌入[1]。作者在[9]和[10]中研究植入问题当底层网络发生动态变化的时候。本文的方法与这些作品的不同之处在于,我们考虑在虚拟网络的实际载荷的变化,而不是改变基板网络。在[11],一个解决方案,认为动态要求嵌入/移除虚拟网络。作者的约束虚拟网络映射到底层网络分割的要求一个虚拟链接在多个基板链接。另一方面,[12]的提议是针对网络生存性,执行重植入失败在底层网络。这两种方法与本文的工作,我们的方法不需要改变虚拟网络植入。作者在[13]提出一个解决方案,旨在最小化拥挤的基板链接的数量进行链接迁移。但这是一个被动的解决方案,因为它只有一个嵌入策略不能请求基板网络进行分配一个生命周期。[14]提出的算法有效地使问题和嵌入生命周期请求提交给一个基于云计算的数据中心。作者要求互联网服务提供商提交新的请求修改现有的,只有一个这样的请求可以在给定的时间处理。[15]在一个相关的方法中,提出了一种迁移意识动态虚拟数据中心(VDC)嵌入框架还包括虚拟数据中心缩放以及动态虚拟数据中心整合,同时对接等。[16]提出一个执行重植入技术意识嵌入,嵌入式虚拟网络旨在改善以前的性能。我们的工作与以往的不同之处在于,我们的资源的仓位调整,积极的(不是植入失败引发的),自治(不是由用户或网络提供商)且不涉及任何重植入已经映射的请求。

大多数现有的工作动态资源管理都是基于三种方法:控制理论、性能动力学建模和工作负载的预测。[17]和[18]控制理论方法而[19],[20]是基于性能动态。作者在[21]和[22]使用工作负载预测。在本文中这些作品和工作之间有两个主要区别。第一个是使用多智能体强化学习而另一个是基于应用程序域。动态资源管理虚拟网络带来了额外的挑战,我们必须处理不同的资源类型(比如带宽和队列大小)不仅仅是分割成许多链接和节点,但也需要不同的服务质量保证。

总之,我们与上面提到的他们的方法之间的区别是，在我们的建议下，保留使用的资源虚拟节点和在整个虚拟网络的生命周期链接不是静态不变的。虚拟节点和链接是被监控的，根据他们的实际资源利用率将资源重新分配，在这种情况下未使用的资源是返回到基板网络供其他虚拟网络使用。我们还要注意，与所有其他的动态方法不同的是我们的方法不涉及虚拟节点的迁移和链接。

三. 问题描述

虚拟网络资源分配问题是由两个阶段组成的：VNE和动态资源管理。如图1所示,VNE包括嵌入VNs到SN和启动的虚拟网络提供者指定资源需求两个节点和链接到衬底网络提供商。虚拟网络资源需求的规范可以用加权无向图表示,这里,分别代表虚拟节点和链接的集合。每个虚拟节点有一个队列大小1和位置以及制约其位置的最大允许偏差每个为它指定的x和y坐标,而每个虚拟链接连接虚拟节点 i 和 j有一个最大延迟和带宽(数据速率) ,同样,一个衬底网络可以建模为一个无向图：Gs =(Ns, Ls),这里Ns和Ls代表衬底的节点和链接的集合,分别。每个基质链接连接基板节点u和v有一个 Duv延迟和带宽Buv,虽然每个基质节点有队列大小Qu和位置Pu(x,y)。

图1.虚拟网络资源分配

VNE问题涉及到每个虚拟节点的映射的一个可能的衬底节点组被定义为一组的所有底层节点u∈Ns有足够的可用队列大小和位于虚拟节点 i 的最大允许偏差。对于一个成功的映射,从相同的请求中每个虚拟节点必须被映射和任何衬底节点最多只能映射一个虚拟节点。同样,所有虚拟链接必须映射到一个或多个衬底链接连接节点到最后的虚拟节点已经映射为止。每个衬底的链接必须有足够的数据率来支持虚拟链接。此外,所有的衬底的总延迟链接用于给定虚拟地图链接不得超过指定的最大延迟虚拟链接。VNE已经超出了本文的范围。一些静态方法[3],[8]可以用于这步骤2。

第二阶段——这是本文工作的重点,是每个VN的成功嵌入,在这种情况下,资源分配/观察为嵌入式VN应该设法确保最佳整体资源SN的利用率。对于这个工作,我们模拟在虚拟网络传输数据包时VN资源的使用通过传输用户流量。用户流量用于此目的的特点讨论在部分五(A)。通过监测实际的使用,然后将资源分配给VN动态管理。然而这是认真执行,以确保服务质量参数例如丢包率和VNs的延迟不受影响。为此我们在第五部分提出我们的建议。

四．强化学习

RL技术是一个从人工智能[5]中一个代理放在一个环境从它得到数值奖励执行的操作。对于每个学习集[2],代理感知环境的当前状态和行动。行动导致环境状况的改变,这个改变的愿望是通过一个标量奖励传达到代理。代理的任务是在整个学习期间最大化的奖励它的实现 [2]。随着时间的推移它能学会做这件事,通过系统的试验和错误,由各种各样的学习算法引导[23]。这样一个Q-learning学习算法。这是一个时间的区别[2]，学习算法对于在每个可能的状态中采取最佳行动逐步构建信息。这是通过寻找一些长期最大化的政策措施的加固。学习策略定义了代理的方式表现在给定的时间。在这些状态[2]这是一个从感知到的环境状态到行动被采取的映射。在一个给定的状态要采取行动取决于Q-values Q(s,a)代表每个行动的愿望,a在该状态,s。因此,学习的过程需要不断更新这些值,直到他们引导代理人在任何可能的状态采取最好的行动 [2]。因此,每次学习事件之后,一个代理更新其Q-values使用(1)中的Q-learning规则。

这里是状态相应的到行为新的取值，是采取行为获得的奖励当状态和是下一状态采取行动造成的在状态中，这意味着Q(sn, a)是状态行动的相关值。和的参数分别被称为学习速率和折扣因素。的取值决定学习发生得有多快，当模型的重要性是与未来回报相比是即时回报的。

一般来说，在RL选择行为有许多可能的方式。两个常见的行为选择方法是e-greedy 和softmax。e-greedy中, 大多数时候贪婪的行动被选择,使用小概率——偶尔随机选择行动。这确保了许多学习集后,所有可能的行动将用高数目的时间来尝试,从而导致最优政策。Softmax不同于e-greedy随机选择行动的方式。权重分配给每个行动取决于他们的估算值。随机选择行动基于体重与之关联,确保最大的行动不太可能选择。当使用softmax,代理需要一个随机行动在状态s 概率P(a|s)方程(2)中被定义。

这里是一个积极的参数称为温度。高温导致的动作几乎是等概率的。

不止一个代理相互作用时,产生的系统称为多重代理系统(MAS)[5]。详细描述的建模在虚拟网络的动态资源管理的不同方面强化学习是第五节的主题。

五．RL动态资源分配的模型

虚拟网络的嵌入分配资源到虚拟节点和链接是基于VN的规范要求。停止在嵌入阶段将导致一个静态分配一个固定数量的底层网络资源被预留给每个虚拟链路和节点。这将导致在分配情况下利用基质网络拒绝新的VN请求，虽然已经嵌入的负载轻的请求。本文提出的方法是使用RL动态调整资源分配。为此,我们首先建模整个系统显示不同元素的交互,如图2所示。建模主要包括学习环境、学习算法和奖赏函数来评估代理的有效性的学习。

图2.强化学习模型

A.学习环境

学习环境包括所有代表底层的代理网络(多重代理系统)。特别的，每一个衬底节点和链接代表节点代理和一个链接代理，当Na和La分别是节点和链接的设置。节点代理管理节点队列大小而链接代理管理链接带宽。代理动态调整资源分配给虚拟节点和链接,确保资源未离开开工不足时,足够的资源可以为用户请求服务。我们考虑到每一个有衬底节点资源可用性、资源分配和利用所有虚拟节点映射到底层节点的信息。同样的，我们期待每一个有底层链接宽带、分配和利用这些资源所有的虚拟链接映射到它的信息。对于一个给定的虚拟链路映射到多个衬底链接，每一个代理协调它们，以确保它们的分配不冲突。

B.学习算法

1)政策:通过一个查找表实现的政策是,对于每一个国家,维护更新评估所有可能的行动。因为我们有9中可能的行动和512种可能的状态(如解释说在接下来的两个部分),我们的政策的大小9×512 = 4608 行为状态值。

状态：每一个代理的状态是一个向量S和每一个时期s∈S代表一个虚拟链接/节点映射到它的状态。在这个状态工作是离散的。我们认为每个虚拟节点的资源总需求或链接资源可分为至少8块,分别代表资源需求总量的12.5%。例如,一个虚拟节点可能分配12.5%,25%,37.5%,50%,62.5%,75%,87.5%和100%的总需求。这些仓位调整成功后执行嵌入是很重要的。因此,所有在嵌入总需求的基础上执行任何给定的虚拟节点或链接。

s∈S的状态是所有给定的虚拟资源代表3-元祖，，这里Ra是资源分配百分比，是未使用虚拟资源的百分比，是未使用底层资源的百分比。每3变量允许8个不同的状态,每个由3字节组成，例如[010]。基于这些值的当前值和指标之间的关系,例如,如果一个虚拟节点之间分配的总需求的37.5%和50.0%,然后Ra = 011。这些变量的完整设置如表I(a)所示,这对Ra，和是有效的。因此，每一个状态向量有9字节例如(001, 100, 111),这意味着我们有n = 2^9 = 512中可能状态。

行为：每一个代理的输出是向量A指明一个行为在每一个虚拟节点/链接到它的映射。一个代理可以选择增加或减少的资源(队列大小或带宽)分别分配给任何虚拟节点或链接。具体地说,如表I所示(b),在任何时候,每个代理可以选择1到9中可能的行动,a =(A0,A1,…,A8)中每一个在资源分配都将导致离散变化。3

表1.动作定义和多种状态

2)状态模型：模拟环境的状态模型。当提供衬底的一个给定的虚拟网络资源分配和利用水平i.e. 的值Ra, ，和，这状态模型返回状态s∈S。同样的，当提供一个给定状态和一个行为，这状态模型提供下一个状态。这些是在一般的衬底模型和虚拟网络资源，和不同可能的行为如何影响衬底资源配置虚拟网络的。

3)Q-Learning:在本文中,我们提出一个基于分散Q-Learning迭代算法来近似行为状态值,然后使用这些值来选择行为对衬底的分配资源到虚拟节点和链接。如算法14所示的学习算法是由三个主要步骤：初始化政策,政策更新和行为选择。我们简要描述每个下面的这些步骤。

C.奖励函数

当代理人采取行动,网络监控,记录链接延迟,丢包情况,虚拟和底层网络资源利用率,决定奖励。特别地,一些代理的奖励结果是一个向量R在每一个时期r(v)对应到虚拟资源所获得的分配，并依赖于资源分配比例Ra,资源利用百分比Ru，在情况下的链接时延和在中的丢弃包的数目。

这里, 和是常量，旨在调整变量Ru, 和对全局的影响。本文中，=100的值，=1000和=10的值被使用。这些值已经通过模拟来决定，例如，通过注意，的值大约100次多于(看图8和10)。因此，我们旨在扩展类似震级，这样他们可以对r(v)有相同的影响。和分别是链接代理表演和节点的措施。因此，对于，=0当对于，=0。奖励函数的目的是鼓励虚拟当资源利用率高时惩罚的丢弃包和有很高的时延。我们也分配一个惩罚性奖励-100资源分配到25%以下,以确保这是最低配置一个虚拟资源,因此避免副作用QoS在快速变化的情况下从极低到高VN加载。

政策的初始化

在学习开始之前，我们需要初始化的学习策略。一个可能的方法是将随机或常量值分配给所有状态和行动。然而，由于Q-learning需要访问所有行为状态对至少一次，以达到最优，使用随机或常数初始值可能导致收敛速度慢，特别是政策等速度行为状态值我们已经用在我们的方法中。这个想法开始于Q-table值，更容易代表代理的期待行为。因此，我们提出一个初始化方法，提高了收敛速度。我们使用方程(3)初始化每一个可能的行为状态值。

这里是常量旨在扩展Q(a,s)值所需的范围。方程(3)的公式是基于观察自由衬底和虚拟资源增加,因为我们从状态(000、000、000)移动到(111、111、111)。因此,方程(3)背后的基本原理是普遍的偏见代理增加资源分配到虚拟网络，当无论什么时候它发现自己处于接近(000、000、000)和减少分配在状态接近(111、111、111)。为此,我们代表每个状态s∈s整数[0,511]和所有的行动a∈A[0,8]。然后我们将整个状态空间划分为两个,这样在状态(0 - 255)一般代理分配更多的资源到虚拟网络,然后分配少一点在状态(256 - 512)。在图3中,我们将展示各自不同的可能的组合值。图所示,为同一状态(000、000、000),行动A0有一个 Q-value 0值而行动A8有 -20.4。该初始化方法的评价提出在部分六。

图3.政策初始化函数

政策更新

学习是逐步完善政策的想法，直到达到一个最优或接近最优的政策。这是通过每次学习时间后更新政策表来实现的。摘要政策表更新使用Q-learning方程(1)。

选择动作

一个代理可以选择一个9可能行动之外的行动。自适应行的第四节中描述的两种行为选择的方法取决与任务的性质，在本文中，我们在第六部分讨论评估他们对具体的学习任务，和各自的表演

时间复杂度

合作代理

当一个虚拟链接可以被映射到多个衬底链接，的代理支持给定虚拟链接必须合作才能避免冲突的资源分配。完成上述任务，我们允许代理交换消息。我们认为每个代理保持记录的其他代理和它管理给定虚拟资源的链接。这组合作代理动态变化为每个代理新的虚拟网络嵌入和旧的离开。以确保代理不执行冲突的操作,只有其中一个在任何给定的时间学习。这是通过启动学习过程在不同的时间每个代理的创建和此后定期进行学习。每次学习一集后,如果代理人需要改变配置,并考虑虚拟链路映射到多个衬底链接时,一个消息发送到所有其他影响衬底连接代理与拟议中的配置信息。这允许同步虚拟链路资源的分配。这是合理的,因为所有代理属于同一个组织(SN)和学习同样的政策,因为他们不能有相互冲突的目标。它会是有趣的考虑一个更高级的合作协议,允许代理接受或拒绝建议的其他代理的可能性,这将是理想的异构环境中的一个想法，这里代理属于不同的组织,从而具有不同的目标。

值得注意的是,一般来说,一个虚拟链路映射到2 - 3衬底链接。这意味着,在任何时候,一个给定的代理只需要大约1 - 2其他代理发送更新消息。我们认为这个数字更新消息是可控的,不会拥挤网络。此外,由于通信代理代表衬底的链接是一个简单的衬底路径的一部分,他们应该彼此连接,因此更新消息是局限于小区域甚至对大型网络的大小。

六．绩效评估

A．仿真设置

为了评价该方法的性能,我们添加了一个网络虚拟化模块[25]。表2显示了用于我们的模拟中的参数。方法是这样实现的,每次一个虚拟网络请求被接受的底层网络,创建的虚拟网络拓扑中,和一个交通应用程序启动虚拟网络传输数据包。本文使用的流量是根据实际交通痕迹互联网数据分析协作联盟匿名网络痕迹[26]。这个数据集包含匿名被动流量跟踪从互联网数据分析协作联盟的核心链路监控高速互联网骨干链接,主要用于研究网络流量的特点,包括流量和时间[26]。本文中使用的跟踪源收集2012年12月20日,包含3.5百万数据包。我们划分这些数据包在1000虚拟网络之间,所以,每一个虚拟网络收到约3500包。这些痕迹是用来获取数据包大小和时间之间的数据包到达每一个虚拟网络。作为数据包的源地址和目的是匿名,对于每个包在一个给定的虚拟网络,我们生成一个源和目标IP地址在NS-3使用均匀分布。

表2.NS3参数

基板和虚拟网络拓扑生成用[27]设置表3所示。模拟运行的Ubuntu 12.04 LTS虚拟机4.00 gb内存和3.00GHz CPU规范。基板和虚拟网络都在25×25的网格生成。基板节点的队列大小和带宽能力和链接以及虚拟网络之间都是均匀分布的要求值表4所示。延误是由闪亮的链接。每个虚拟节点允许位于一个均匀分布的距离以7.5 x < = 15的请求位置,以网格单元。我们假设虚拟网络请求到达后泊松分布平均速度每分钟1。每一个虚拟网络的平均服务时间为60分钟,假定遵循负指数分布。

表3. 闪亮网络拓扑生成参数

B.最初的评估

初始评估的目的是确定适当的行动为我们的任务选择方法,以及该政策的有效性初始化方案。这两种评价是基于代理行为的比较最优行为。我们定义了一个最优行动代理人的行动,将导致资源配置等于实际使用网络。因此这些评估的偏差,参照实际资源使用类似的网络,不是执行动态分配。

图4比较了选择动作方法e-greedy和softmax的性能。在这个任务中很明显，softmax性能优于e-greedy。性能的差异可以归因与是e-greedy这一事实，随机的行为选择时,最坏的可能的行动是一样可能会选择第二个最好的,然而softmax支持行动更好的价值。这也可以用来解释为什么softmax行为相比e-greedy更稳定。在图5中,我们展示的效果提出了初始化方法(基于softmax选择动作)。我们观察到一个初始化的政策需要约350,000年学习集少比随机政策趋同。这可以归因于代理没有探索所有可能的行动在所有国家初始化使一些行动比别人更有价值。对于这些评估以及那些在接下来的小节所使用的强化学习参数有：学习速度， = 0.8, 折现系数, = .1,和温度， = 1。我们的话,根据评估的结果在本节内,其余的模拟本文是基于一个初始化的政策和行动softmax选择方法。

图4.e-greedy和softmax的行为对比

图5.偏见政策初始化的影响

C.性能指标

我们评估我们的建议在两条战线上的性能;嵌入的质量,以及虚拟网络的服务质量。投机取巧的想法是使用虚拟网络资源不应该以牺牲服务质量期望的网络用户。

1)嵌入质量:这是评估使用的接受率和总瞬时接受虚拟网络。接受率是一个衡量长期的虚拟网络请求数量所接受的基板网络。总瞬时接受虚拟网络嵌入成本的衡量一个给定的底层网络,作为底层网络,导致较低的嵌入成本通常在任何时候更多的额外资源,因此可以有许多嵌入式虚拟网络在任何时候。

2)服务质量:我们使用封包延迟和下降率作为服务质量的指标。我们将封包延迟定义为一个数据包的总时间需要从源头到最终目的地。下降率的比率被定义为网络的数据包数量下降了发送的数据包的总数。如表二所示,我们的模型减少数据包的网络由于节点缓冲区溢出以及数据包错误。此外,更重要的是在某些应用程序中,我们定义了这两个参数的变化。抖动(延迟变异)被定义为延迟之间的差异在不同的时间段,而概率变化定义为包滴之间的变化在不同的时间段。更新的时间间隔测量对应于50个数据包的传输。

D．讨论的结果

仿真结果图6 - 11所示。从图6可以看出,动态比静态方法执行一个虚拟网络接受率。这可以归因于这样一个事实:在动态方法基板网络可用资源总是比在静态情况下,只有实际传输的数据包所需的资源分配和/或预留给虚拟网络。这进一步证实了图9显示,在任何给定的点一个基板网络,能够动态地管理其资源嵌入虚拟网络比静态的。

图7表明,静态方法是一般的丢包率常数(由于包错误以及缓冲区溢出),最初的动态方法是高,但逐渐减少。动态方法的表现不佳的模拟可以归因于这样一个事实:模拟初代理仍在学习时,虚拟节点队列大小分配不同节点缓冲区,导致更多的丢包情况。事实上,这个初始的数据包数量下降的速率影响整体下降率减少了对静态方法。这可以确认数据包通过观察实际的周期性下降如图10所示表明数据包的总数下降了两种方法相当接近尾声时的模拟。

同样,图8显示了数据包在动态方法最初有较高的延迟比静态方法。一次,原因是最初的学习阶段的代理。这又是通过观察证实,图11中的延迟变化容易收敛的静态方法。然而值得注意的是,与丢包率(图7),实际的延迟(图8)的动态方法最终收敛的静态方法。再一次,这可能会证实,收敛缓慢的下降率是由于初始包,因为初始数据包延迟不会影响其他数据包的延迟,但初始包下降仍在最后的下降率的因素。

但是我们考虑到它可能需要一个更高的学习集数量总体下降率在图7中最终收敛到的静态方法。这是因为我们使用学习策略与4608年行为状态值。通过这种高行为状态值的数量,代理需要大量的时间来学习最优政策。此外,它可以提高代理人的行为的准确性和精度更如果行为状态值增加。因此它应该最好使用函数近似或更紧凑的参数化函数表示模型代理的政策除了查表。在未来我们将更多探讨这种方法。

图6.VN接受的接受率

图7.节点包丢弃率

图8.链接包时延

图9.被接受的虚拟网络的数目

图10.不同节点包丢弃的速率

图11.不同链接包时延

表4. 衬底和虚拟网络属性

七.总结

本文提出了一种在虚拟网络资源里的动态方法的管理。我们使用一个分布式强化学习算法来动态地分配资源。我们还提出了初始化学习策略来提高学习算法的收敛速度。我们能够通过仿真表明我们的建议改善了虚拟网络的接受率,这将直接为基板网络提供商的收入，同时确保在代理使用了分配策略后,虚拟网络的服务质量是没有负面影响。

与此同时还有一些未来的研究方向可以考虑。实现我们的算法在实际网络可能会带来更多的问题，例如缓解分布式网络加载信息是否需要一个专门的网络之间的通信代理等等。今后,我们将研究这些问题，努力开发一个基于一个真正的代理原型的局域网代理开发平台。此外，动态虚拟网络资源管理在多域虚拟网络环境中可能会增加更多的挑战，因为它可能需要一个清晰的通信协议支持域间基质的通道，来实现协议之间竞争的代理。也可能做一些其他有趣的研究来提高代理商的学习政策，例如通过使用函数近似技术或者人工神经网络。

鸣谢及参考文献详见pdf文档。

课程设计总结

本篇论文主要讲述了在虚拟网络上设计和评价学习算法的动态资源管理，通过虚拟网络资源管理把底层网络建模作为一个分散的系统来提供自组织能力，并在每个节点的基板与基板连接节点介绍学习算法。在一个协调又分散的方式下进行基板的网络资源管理能够动态地分配网络资源虚拟节点和链接且使用评价性反馈学习的最优策略。动态方法极大地提高了虚拟网络接受率及接受虚拟网络请求的最大数量在任何时候同时确保虚拟网络的服务质量要求,如丢包率和虚拟链路的时延不受影响。而丢包率和时延则在某种程度上决定了信息的准确率和可信度。

虚拟网络资源分配问题是由两个阶段组成的：虚拟网络嵌入和动态资源管理。虚拟网络嵌入包括嵌入虚拟网络到基板网络和启动的虚拟网络提供者指定资源需求两个节点和链接到衬底网络提供商。而虚拟网络的嵌入分配资源到虚拟节点和链接是基于虚拟网络的规范要求。在这里，作者使用建模的方法来分析这两个问题，从上述文章中，我们可以清晰的看到，建模的整个系统显示不同元素的交互,建模主要包括学习环境、学习算法和奖赏函数来评估代理的有效性的学习。因此可以了解到本文的主要方法是用建模来分析数据从而得出结论和创新方法。

当使用一个分布式强化学习算法来动态地分配资源，且同时确保在代理使用了分配策略后虚拟网络的服务质量是没有负面影响的情况下，我们是否能认为该新技术或新理念是有利无害能够放心随意使用的呢？

丢包率和可信度还有新技术无可避免地让我们设想论文中所说的的虚拟网络和动态资源管理的发展会对当前网络大环境下的网络安全情况有怎样的冲击。正如论文总结中也有写到，动态虚拟网络资源管理在多域虚拟网络环境中可能会增加更多的挑战，因为它可能需要一个清晰的通信协议支持域间基质的通道，来实现协议之间竞争的代理。

新的通信协议的需求也会动摇原有协议的地位，或促进通信协议的升级，正如自从1997年IEEE802.11标准实施以来，先后有802.11b、802.11a、802.11g、802.11e、802.11f、 802.11h、802.11i、802.11j、802.11ac、802.11ad等标准制定或者酝酿，但是WLAN依然面临着带宽不足、漫游不方便、网管不强大、系统不安全和没有杀手级的应用等的局面。虚拟网络的发展和动态资源管理的发展也必须得由合理而严谨的通信协议来规范才能更好地保证公司或用户的通信安全、信息安全、网络安全。

综上所述，虚拟网络的发展和动态资源管理的发展对日后的网络发展是十分有用的，但目前为止技术还不是很成熟，有待研究和提高。而创新并不是一个想法就能完成的，在今后的研究学习中，分析一个问题，可以通过收集大量的可靠信息和数据，然后建模来分析这些数据和信息，得到结论，进而创新。通过本文观察建模是一个非常有效的手段，当然多看看新的国际论文和了解最新的网络信息也是一个创新的好途径。

①在虚拟网络上设计和评价学习算法的动态资源管理

推荐阅读更多精彩内容