图 2 协调层结构图 Fig. 2 Frame of the cooper

正在加载图片...

·236- 智能系统学报第3卷策略运动 23学习算法设计感知器选择策略n 控制针对以上分析，采用极小极大Q算法来设计协器层调层.通过最小化对方决策的奖赏来选择使己方获得最大奖赏的策略.其值函数如下学习器 v(s)=maxm in o.(s d.o). (3) d∈Doe0dD 协调层的Q函数Q。(sdo的更新规则为仿其环境 2(s d.o)-(1-a)e(s d.o)+ a(r(d.o.s)+Yv (s')). (4) 图2协调层结构图式中：s为当前的环境状态，d为己方在状态s下的 Fig 2 Frame of the cooperation layer 策略，D为己方策略集合，o为对手在状态s下的策略，O为对方策略集合，：为强化信号，s为新的环调层就可以学习到在具体情况下的最优策略境状态，a为学习率，Y为折扣因子 22状态空间的划分与状态映射函数具体学习过程如下由于足球机器人比赛环境复杂，形势瞬息万变， 1)观察当前状态s 如果状态集合设计得不合理，会使得Q学习状态空 2)通过以下方法选择一个动作d 间非常庞大，这将直接影响到强化学习算法的收敛 exp (Q(s d,)/T) 速度.因此设计合适的状态空间十分关键.针对这种 P(d,s)=- 5) ∑expQ(sd)/T) 情况，本文采用模糊化的方法把实际状态转化为模糊状态，从而一定程度上降低了状态空间的大小.以式中：T称作温度值.式(5)用来确定随机策略的随我方从左向右进攻为例，其结构图3所示.将整个场机度.这种方法被称作Boltamann:选择方法，也可采地划分为11个区间、7种状态，这样，状态空间即可用ε贪心策略等探测方法表示为S=底线有利边路有利、中路有利、中路相 3)观察新的状态s! 持、边路威胁、中路威胁、底线威胁人.以我方从左向 4)从环境中获得即时回报r 右进攻为例，其状态划分如图3所示 5)根据式(4)对状态s和动作d相应的Q值进底底行更新边路威胁边路有利 6)如果新的状态s满足结束条件，结束这次学威有胁利习：否则s→s,返回2) 24策略设计中路威胁中路相持中路有利策略设计分为己方策略D设计和对方策略O 设计.由于协调智能体的输出为决策子模块，这使得线威底线有策略维数大大降低.通过分析，本文设计了4个决策边路威胁边路有利子模块，即己方策略D=积极进攻，保守进攻，重叠防守，禁区防守.由于采用的是极小极大Q算图3状态划分图法，所以对方策略O={禁区防守，重叠防守，保守 Fig 3 Schematic diagram for state divison 进攻，积极进攻 25基于目标的奖赏函数设计在状态划分中，考虑3个主要的环境因素：1) 奖励函数是决定智能体执行特定动作后环境给球在场上的坐标位置P(xy以，依然将其模糊化：根它的强化信号.传统的Q学习中，如果决策目标达据图3，将球的位置状态模糊为7种状态h,k∈[1，成，则得到正的奖励m,反之则得到负的奖励-m. 72)球的速度v及运动角度0：3)对方球员在我如式(6)所示方球门附近的个数m.因此设计了把1)、2)、3)作已方进球为模糊模块的输入，输出为场上状态的映射函数，如 m, 对方进球，m>0: (6) 式(2 0. 其他 s(h,g0,nl=w·A(v·tan0+n. 2) 但是很多情况下，动作执行的结果很难在一开始式中：ω为模糊因子就看到例如，一个进球是由很多决策加在一起后执 1994-2009 China Academic Journal Electronic Publishing House.All rights reserved.http://www.cnki.net图 2 协调层结构图 Fig. 2 Frame of the cooperation layer 调层就可以学习到在具体情况下的最优策略. 2. 2 状态空间的划分与状态映射函数由于足球机器人比赛环境复杂 ,形势瞬息万变. 如果状态集合设计得不合理 ,会使得 Q学习状态空间非常庞大 ,这将直接影响到强化学习算法的收敛速度. 因此设计合适的状态空间十分关键. 针对这种情况 ,本文采用模糊化的方法把实际状态转化为模糊状态 ,从而一定程度上降低了状态空间的大小. 以我方从左向右进攻为例 ,其结构图 3所示. 将整个场地划分为 11个区间、7种状态 ,这样 ,状态空间即可表示为 S = {底线有利、边路有利、中路有利、中路相持、边路威胁、中路威胁、底线威胁 }. 以我方从左向右进攻为例 ,其状态划分如图 3所示. 图 3 状态划分图 Fig. 3 Schematic diagram for state division 在状态划分中 ,考虑 3个主要的环境因素 : 1) 球在场上的坐标位置 p ( x, y) ,依然将其模糊化 :根据图 3,将球的位置状态模糊为 7种状态 pk , k∈[ 1, 7 ]; 2) 球的速度 v及运动角度 θ; 3) 对方球员在我方球门附近的个数 n;. 因此设计了把 1)、2) 、3)作为模糊模块的输入 ,输出为场上状态的映射函数 ,如式 (2). s( pk , v,θ, n) =ω·pk ( v·tanθ+ n). (2) 式中 :ω为模糊因子. 2. 3 学习算法设计针对以上分析 ,采用极小极大 Q算法来设计协调层. 通过最小化对方决策的奖赏来选择使己方获得最大奖赏的策略. 其值函数如下 V (s) = max d∈D m in o∈O d∑∈D Qc (s, d, o). (3) 协调层的 Q函数 Qc (s, d, o)的更新规则为 Qc (s, d, o) ← (1 - α) Qc (s, d, o) + α( rc ( d, o, s) +γVc (s′) ). (4) 式中 : s为当前的环境状态 , d为己方在状态 s下的策略 , D为己方策略集合 , o为对手在状态 s下的策略 , O为对方策略集合 , rc 为强化信号 , s′为新的环境状态 ,α为学习率 ,γ为折扣因子. 具体学习过程如下 1) 观察当前状态 s。 2) 通过以下方法选择一个动作 d: P ( di | s) = exp (Q (s, di ) /T) a∑k∈A exp (Q (s, dk ) / T) . (5) 式中 : T称作温度值. 式 ( 5)用来确定随机策略的随机度. 这种方法被称作 Boltzmann选择方法 ,也可采用 ε2贪心策略等探测方法. 3) 观察新的状态 s′. 4) 从环境中获得即时回报 r. 5) 根据式 (4)对状态 s和动作 d相应的 Q值进行更新. 6) 如果新的状态 s满足结束条件 ,结束这次学习;否则 s→s′,返回 2). 2. 4 策略设计策略设计分为己方策略 D 设计和对方策略 O 设计. 由于协调智能体的输出为决策子模块 ,这使得策略维数大大降低. 通过分析 ,本文设计了 4个决策子模块 ,即己方策略 D = {积极进攻 ,保守进攻 ,重叠防守 ,禁区防守 }. 由于采用的是极小极大 Q 算法 ,所以对方策略 O = { 禁区防守 ,重叠防守 ,保守进攻 ,积极进攻 }. 2. 5 基于目标的奖赏函数设计奖励函数是决定智能体执行特定动作后环境给它的强化信号. 传统的 Q 学习中 ,如果决策目标达成 ,则得到正的奖励 m ,反之则得到负的奖励 - m. 如式 (6)所示 : rs = m , - m , 0, 已方进球; 对方进球 , m > 0; 其他. (6) 但是很多情况下 ,动作执行的结果很难在一开始就看到. 例如,一个进球是由很多决策加在一起后执 ·236· 智能系统学报第 3卷

<<向上翻页向下翻页>>

点击下载：智能系统：模糊Q学习的足球机器人双层协作模型