·240 智能系统学报第4卷机器Agent(machine

正在加载图片...

·240 智能系统学报第4卷机器Agent(machine Agent,MA)按照某种优先规则 1自适应多Agent动态调度模型对缓冲中的作业进行加工，并且每完成一道工序都 1.1多机动态调度问题要向JA报完工，以便JA将其后续工序添加到全局动态多机调度问题可以描述为：某车间或工厂缓冲中；如果发生设备故障等异常，MA将其缓冲中有加工设备若干台，生产作业随机到达，当某时刻调待加工作业退回给JA,由JA将其置于全局缓冲中度环境变化导致需要进行动态调度时，则生成新的重新分配. 预调度方案，并根据新的方案生产直到新的随机事外部动态满度环境件发生或者所有加工任务结束. 作业选择添加到达为了便于描述，某车间的加工设备集合为{M1, 作业作业分Agent 缓冲作业Agent M2,…,Mm},生产作业集合为{J,J2,…,Jn}.作业分配完工 J:到达的时间为T,截止时间为T,拖期完成时单机器报微障位时间的拖期惩罚为C.作业J:包含n:道工序，由机器机器于实际生产中加工设备具有一定的可替换性；因此缓冲缓冲工序Og有若干台可用机器集合，在机器M。上的加选择作业选择作业选择作业安排加T 安排加上事安排加下工时间用1表示.此外，工序O的时间要素可以用机器Agent 机器Agt 机器Agent 六元组[會，，，，，]表示，其中：會表示由作业到达时间推算出的工序最早可能开始时间，图1基于Q学习的多Aget动态调度机制 T表示由作业截止时间推算出的工序最迟必须结束 Fig.1 Q-learning based multi-agent dynamic scheduling 时间，T为每次预调度中工序的开始时间，T为每 mechanism 次预调度中工序的结束时间，为工序的实际开始 2 双层强化学习机制时间，T为工序的实际结束时间. 1.2建模针对上述调度机制，提出了一种基于Q学习的针对前述多机动态调度问题，建立了一个多A 双层强化学习机制，用于指导DA的机器分配和MA gent动态调度模型，模型中包括的几种主要Agent 的作业选择及其功能如表1所示。 2.1Q学习算法表1 Agent定义 Q学习算法最早由Watkins在1989年提出，是 Table 1 Agent definition 目前最有效的模型无关强化学习算法之一，其基 Agent种类功能本形式如式(1)~(2)所示：以最小化设备空闲、平均流经时间为机器Agent Q(s,a,)=r(s,a,）+y∑P(a)· 目标，调度缓冲区内任务 41后5 max(Q(s1,6)), (1) 以平衡设备使用、最小化作业的整体分配Agent Q(s,a,)=(1-a)Q(s,a)+a(r(s,a)+ 拖期值为目标，分配作业到合适机器 y max((s1,6)). (2) 管理作业，根据报完工情况和设备故作业Agent 式中：Q(s,a,)表示Agent在状态s,下采用动作a, 障情况调度后续工序进人全局缓冲所获得的总计期望奖惩，也称为状态-动作对值；如图1所示，这个动态调度模型的工作原理是： r(s,a,)表示Agent在状态s,下采用动作a,所获得如果某时刻有新作业到来，则动态生成非永久型的的即时奖惩；P41(a)表示在状态s,下采用动作a: 作业Agent(job Agent,JA),JA将作业的首工序添转入状态s,+1的概率；y为未来奖惩的折扣系数，有加到全局缓冲中；分配Agent(dispatching Agent, 0≤y≤1，y越接近于0，Agent越不考虑长远，更趋 DA)感知到全局缓冲中有工序进人则立即开始调于接收即时奖惩，y越接近于1，Agent则越具有远度，根据某种规则将作业分配到合适机器的缓冲中；见，能减少即时奖惩对学习策略的影响；b为状态

<<向上翻页向下翻页>>

点击下载：智能系统：面向多机动态调度问题的两层Q学习算法