正在加载图片...
统的初始状态.作平均报酬序列Jx(o,f) ∑Vm(i,f),一般J(0,f)的极限未必存在 N+1如=6 所以常取其收敛子序列中极限的最大者,记为J(o,f),或极限中的最小者,记为J(o,f).用它们 作为目标函数.前者是以乐观的态度看待报酬,而后者是以悲观的态度看待报酬.在使用随机策略时,相 应地记为J(,丌),其中兀=(兀0,丌1…)兀n表示时刻n使用的随机策略而把 J(0)=supx(0,丌)作为最佳函数.这种平均准则常见于发展较为平稳的系统,例如通讯网络,而 累计总报酬准则,则常见于较快变化的系统,例如金融系统.轨道平均报酬准则的数学处理,通常比平均 累计总报酬准则情形要复杂 [注6]最一般的模型是策略的动作依赖历史情况的策略:设S与A仍都为有限集,又设随机变量 列{n}满足 Pm=50=051=4,…,5n=in)=P,(an) 其中an由下式递推地确 ao=fo(io) a,=f,(io,ao, i,a,,.,i-l,a-in) 这时的{n}不再是 Markov链,因为它依赖于所有的过去历史.而且此时an是一个依赖于{50,…,n} 的随机变量.如果我们仍记f=(n,n≥0,并称之为一个策略,那么对此模型也可类似地定义最佳策略及 最佳E一策略.事实上,对此模型可以证明:在很宽的条件下,定理16.8中的最佳 Marko策略也是这 里的策略类中的最佳策略.也就是最佳 Markov策略在以上定义的非马氏策略类中仍是最佳的.这就可以把 搜索最佳策略的策略类的范围大大地缩小了 [注7]在常见的实际模型中,有一类状态空间S是一个区间(端点可以为∞),动作集A=A2 是依赖状态x的一个有限区间.例如 (1) Ricker模型(合理捕鱼问题)设在时刻n湖中鱼的总量为5n·捕鱼的原则是,在有计划地 留下数量(随机的)a的鱼用以繁殖的前题下,求最大捕鱼量.假定鱼的数目与留下的数量受群体控制的 Ricker模型所制约 EniI=C a,e" 其中C1,C2为常数,{n}是独立同分布随机变量列.于是捕鱼量为g(5n,an)=5n-an中的 8n(x,a)=x-a与n无关,这时状态空间为S=[0∞),当状态确定为x时的动作集为447 统的初始状态. 作平均报酬序列 ( , 0 J i N f å= D + = N N 1 m 0 1 ) ( , 0 V i m f ) , 一般 ( , 0 J i N f ) 的极限未必存在, 所以常取其收敛子序列中极限的最大者, 记为 ( , 0 J i f ) ,或极限中的最小者, 记为 ( , 0 J i f ) . 用它们 作为目标函数. 前者是以乐观的态度看待报酬, 而后者是以悲观的态度看待报酬. 在使用随机策略时, 相 应地记为 ( , 0 J i p ) , 其 中 p p p p n ( , , ), = 0 1 L 表示时刻 n 使用的随机策略 . 而 把 0 J (i ) sup ( , ) p J i 0 p D = 作为最佳函数. 这种平均准则常见于发展较为平稳的系统,例如通讯网络, 而 累计总报酬准则,则常见于较快变化的系统,例如金融系统.轨道平均报酬准则的数学处理,通常比平均 累计总报酬准则情形要复杂. [注6] 最一般的模型是策略的动作依赖历史情况的策略:设 S 与 A 仍都为有限集,又设随机变量 列{ }n x 满足 P(x | 1 j n+ = x , , , ) 0 0 1 1 n n = i x = i L x = i ( ) i , j n p a n = , 其中an 由下式递推地确定: ( ) 0 0 0 a = f i , ..., ( , , , , , , , ) n n 0 0 1 1 n 1 n 1 n a f i a i a i a i = L - - . 这时的{ }n x 不再是 Markov 链,因为它依赖于所有的过去历史. 而且此时an 是一个依赖于{ , , } 0 n x L x 的随机变量.如果我们仍记 f=( , n f n≥0), 并称之为一个策略, 那么对此模型也可类似地定义最佳策略及 最佳e - 策略.事实上,对此模型可以证明:在很宽的条件下,定理16.8中的最佳 Markov 策略也是这 里的策略类中的最佳策略.也就是最佳 Markov 策略在以上定义的非马氏策略类中仍是最佳的.这就可以把 搜索最佳策略的策略类的范围大大地缩小了. [注7] 在常见的实际模型中, 有一类状态空间 S 是一个区间(端点可以为¥ ), 动作集 A = Ax 是依赖状态 x 的一个有限区间.例如 (1) Ricker 模型 (合理捕鱼问题) 设在时刻n 湖中鱼的总量为 n x .捕鱼的原则是,在有计划地 留下数量(随机的) an 的鱼用以繁殖的前题下,求最大捕鱼量. 假定鱼的数目与留下的数量受群体控制的 Ricker 模型所制约: n c an n n c a e 2 1 1 - + = h x , 其中 1 2 c , c 为常数, { } hn 是独立同分布随机变量列 . 于是捕鱼量为 g n an = n - an D (x , ) x 中的 gn (x,a) = x - a 与 n 无 关 . 这时状态空间为 S = [0,¥) , 当状态确定为 x 时的动作集为
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有