正在加载图片...
·98 智能系统学报 第6卷 状态转移矩阵p:学习环境为单状态,状态转移 给它的任务增多而立即减小,从而引起传递策略的 矩阵p(sls)=1. 改变将任务传递给别的邻居簇,这样就避免了任务 回报函数r:这里的回报函数有2个,第1个是 的堆积,整体上平衡了任务的分布 立即回报,1=-1,表示的是将任务传递给簇的立即 task task task task 回报,或者说是惩罚,它存在的意义在后面将做出分 B 析;第2个是延迟回报r2=B”,其中B∈(0,1)为折 算率,n为任务经过n次传递才被分配,n=0表示为 图1信息链式反馈示意 Fig.1 Information chain feedback sketch map 任务在本地就被分配了,如果在任务的最大等待时 因为任务最后的分配情况会沿着它所经过的所 间内没有被分配,则n=∞,即T2=0. 有簇将信息逐级地反馈回去,因此称之为链式反馈 定义好了以上各项之后,再定义值函数Q的更 学习算法.从算法流程容易看出,此算法的特点在于 新规则.它的更新规则是异步的,其中当任务j到达 值函数的更新是异步的,这对平衡任务分布,提高学 簇i时,更新规则为 习速度和效果起到了重要作用. Q(a)←-Q(a)+r. 当任务被成功分配以后,此任务经过的所有 3实验结果及分析 簇则按照更新规则: 3.1实验设计 Q(a)-Q(a)+r2 为了便于比较,实验完全采用文献[1]中的实 来更新Q值. 验模型,模型如图2所示,图中圆圈内的数字表示为 簇i对任务j的传递策略为 簇的编号,相应的圆圈外的数字表示该簇所拥有的 argmax,Neighbors). (3) 节点数,每个节点都有2种资源:cpu和network,它 式中:j为任务类型为专的任务,Neighbors为第i个 们的初始值范围均为[50,150],其中显示为带阴影 簇的所有邻居簇。 的4个簇6、7、10和11可以接受外部输入的任务, 智能体之间任务传递策略的C℉学习算法流程 所有的簇均可以接收内部簇之间传递的任务. 如下: 066-6-605-6 18 13 2116 19 15 t时刻,簇i有n个任务等待传递. 循环(循环次数为n): 1)对任一任务j按策略(3)传递到邻居簇'; 2)对簇'进行此任务的Q值更新,更新规则 6—⑤—④—③—1②@⑩—(⑨ 13 14 221611201519 为:Q(a)←Q(a)+r1; 图2实验模型 3)若任务j在簇被成功分配,则对任务j之前 Fig.2 Experiment model 经过的所有簇进行Q值更新,更新规则为:Q(α)←Q 假设所有任务的最大等待时间均为10,每种任 (a)+r2;反之,则将任务j放入簇'的等待传递队列; 务类型可用集合(d。,dn,u,t,)表示,其中d。表示为 4)将任务j从簇i的等待传递队列中移除, 对cpu的需求量;dn表示对network的需求量;u表 由图1所示,假如任务task按照策略(3)如图 示任务的效用率,.,表示任务的服务时间.假设d。、 中实线方向进行传递,直到簇5才被成功分配,那么 dn、山服从泊松分布,5,服从指数分布,实验的任务类 成功分配的信息将会按照虚线的方向反馈回给每个 型有4种: 此任务经过的簇,此信息具体的表现形式为B,也就 t1=(9,8,1,20),2=(15,48,6,35), 是相应簇的延迟回报2,不难看出,只有当任务在经 =(45,8,5,30),t4=(47,43,25,50) 历了次传递直到被分配以后,B的值才会反馈回 另外,外部任务的到达也服从参数如下的泊松分 给每一个它经历过的簇,因此这个回报是有延迟的, 布:簇6:(4.5,0.5,2.5,1),簇7:(3.5,0.5,2,0.5),簇 也就是说经过一段时间才会对Q值有所影响,引进 10:(4,2,0.5,1),簇11:(1.5,2.5,0.5,0.5). ,1立即惩罚函数以后,在某个时刻Q值会随着传递 最后,实验采用了3种方法进行效果的对比,具
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有