·98 智能系统学报第6卷状态转移矩阵p:学习环境为单状态，

正在加载图片...

·98 智能系统学报第6卷状态转移矩阵p:学习环境为单状态，状态转移给它的任务增多而立即减小，从而引起传递策略的矩阵p(sls)=1. 改变将任务传递给别的邻居簇，这样就避免了任务回报函数r:这里的回报函数有2个，第1个是的堆积，整体上平衡了任务的分布立即回报，1=-1，表示的是将任务传递给簇的立即 task task task task 回报，或者说是惩罚，它存在的意义在后面将做出分 B 析；第2个是延迟回报r2=B”,其中B∈(0,1)为折算率，n为任务经过n次传递才被分配，n=0表示为图1信息链式反馈示意 Fig.1 Information chain feedback sketch map 任务在本地就被分配了，如果在任务的最大等待时因为任务最后的分配情况会沿着它所经过的所间内没有被分配，则n=∞，即T2=0. 有簇将信息逐级地反馈回去，因此称之为链式反馈定义好了以上各项之后，再定义值函数Q的更学习算法.从算法流程容易看出，此算法的特点在于新规则.它的更新规则是异步的，其中当任务j到达值函数的更新是异步的，这对平衡任务分布，提高学簇i时，更新规则为习速度和效果起到了重要作用. Q(a)←-Q(a)+r. 当任务被成功分配以后，此任务经过的所有 3实验结果及分析簇则按照更新规则： 3.1实验设计 Q(a)-Q(a)+r2 为了便于比较，实验完全采用文献[1]中的实来更新Q值. 验模型，模型如图2所示，图中圆圈内的数字表示为簇i对任务j的传递策略为簇的编号，相应的圆圈外的数字表示该簇所拥有的 argmax,Neighbors). (3) 节点数，每个节点都有2种资源：cpu和network,它式中：j为任务类型为专的任务，Neighbors为第i个们的初始值范围均为[50,150]，其中显示为带阴影簇的所有邻居簇。的4个簇6、7、10和11可以接受外部输入的任务，智能体之间任务传递策略的C℉学习算法流程所有的簇均可以接收内部簇之间传递的任务. 如下： 066-6-605-6 18 13 2116 19 15 t时刻，簇i有n个任务等待传递. 循环（循环次数为n): 1)对任一任务j按策略(3)传递到邻居簇'； 2)对簇'进行此任务的Q值更新，更新规则 6—⑤—④—③—1②@⑩—（⑨ 13 14 221611201519 为：Q(a)←Q(a)+r1; 图2实验模型 3)若任务j在簇被成功分配，则对任务j之前 Fig.2 Experiment model 经过的所有簇进行Q值更新，更新规则为：Q(α)←Q 假设所有任务的最大等待时间均为10，每种任 (a)+r2;反之，则将任务j放入簇'的等待传递队列；务类型可用集合(d。,dn,u,t,)表示，其中d。表示为 4)将任务j从簇i的等待传递队列中移除，对cpu的需求量；dn表示对network的需求量；u表由图1所示，假如任务task按照策略(3)如图示任务的效用率，.，表示任务的服务时间.假设d。、中实线方向进行传递，直到簇5才被成功分配，那么 dn、山服从泊松分布，5，服从指数分布，实验的任务类成功分配的信息将会按照虚线的方向反馈回给每个型有4种：此任务经过的簇，此信息具体的表现形式为B,也就 t1=(9,8,1,20),2=(15,48,6,35), 是相应簇的延迟回报2，不难看出，只有当任务在经 =(45,8,5,30),t4=(47,43,25,50) 历了次传递直到被分配以后，B的值才会反馈回另外，外部任务的到达也服从参数如下的泊松分给每一个它经历过的簇，因此这个回报是有延迟的，布：簇6：(4.5,0.5,2.5,1)，簇7：(3.5,0.5,2,0.5)，簇也就是说经过一段时间才会对Q值有所影响，引进 10:(4,2,0.5,1),簇11：(1.5,2.5,0.5,0.5). ,1立即惩罚函数以后，在某个时刻Q值会随着传递最后，实验采用了3种方法进行效果的对比，具

<<向上翻页向下翻页>>

点击下载：机器学习：面向资源分配问题的Q-CF多智能体强化学习