正在加载图片...
再取f厂m1使时刻m-1的报酬函数达到最大,即 8m(fm1()+∑P(m(O)gm()= maxell 8m-(,a)+∑ Ay, (a)g(I=8m-O) 然后,向后递推地取fk(1)使时刻k的报酬函数达到最大,即 g(,f()+∑P()g(= manas[gk(,a)+∑p(a)g((=g() 这样就得到了f={∫,…,∫m1,∫m}.现在证明它是最佳的 Markov策略.对于任意 Markov策略f=(fn,0≤n≤m),定义辅助 Markov策略f)={/f0;…,∫,∫1,…,fm}.用 后向数学归纳法可以直接验证以下不等式 J(μ0,f)≤J(μ0,f)(k≤m) 取k=0即得J(μo,f)≤J(μo,f).请读者自己补上这段验证 [注1]以上寻找f的方法,在计算机上实现十分简单.问题在于当行动集A较大 的时候,计算量会非常大,甚至难以在允许的时间内完成。于是代之以用E-最佳 Markov 策略. [注2]本定理可以推广到状态集S是为可数集,行动集A是紧集,而报酬函数 gn(,a)是有界连续函数情形 [注3]在状态集与动作集较为一般的时候,为了保证最佳策略的存在,纯策略类 就不够,必须考虑用随机策略类. 2.3无穷时段下的总报酬情形(m=∞的情形) 定理16.9如果报酬函数序列满足以下的衰减性质 ∑sp|gn(,a)|<∝ (16.7) 那么存在最佳 Markov策略f,(可以利用有限近似证明) 例16.1◎(折扣模型)在应用中常见例子为折扣报酬模型,即 8(i,a)=r"go(, a) 的情形,其中0<r<1是折扣因子,此时只要g0(,a)是有界函数,则条件(16.7)满足 定义16.11(平稳策略)如果 Marko策略f=(fn,n≥0)对于任意n满足 ∫n=f,则称为平稳 Markov策略 45445 再取 * m-1 f 使时刻m -1的报酬函数达到最大, 即 ( , ( )) ( ( )) ( ) max [ ( , ) ( ) ( )]( ( )) * 1 1 * 1 1 1 * * 1 * 1 1 g i f i p f i g j g i a p a g j g i m N j a A m ij m N j m m ij m m - D = Î - - = - - +å - = +å = 然后,向后递推地取 ( ) * f i k 使时刻k 的报酬函数达到最大, 即 ( , ( )) ( ( )) ( ) max [ ( , ) ( ) ( )]( ( )) * 1 * 1 * 1 * * g i f i p f i g j g i a p a g j g i k N j a A k ij k N j k k ij k k D = Î = +å + = +å = . 这样就得到了 f { , , , } * * 1 * 0 * m m f f f = L - . 现在证明它是最佳的 Markov 策略. 对于任意 Markov 策略 f=( n f ,0≤n≤m), 定义辅助 Markov 策略 f (k ) { , , , , , } * * 0 k k 1 m f L f f L f + D = . 用 后向数学归纳法可以直接验证以下不等式 J ( m0 ,f)≤J ( m0 ,f ) (k ) (k≤m). 取 k=0 即得J ( m0 ,f)≤J ( m0 ,f ) * . 请读者自己补上这段验证. [注 1] 以上寻找 f *的方法, 在计算机上实现十分简单.问题在于当行动集 A 较大 的时候, 计算量会非常大,甚至难以在允许的时间内完成。于是代之以用 e -最佳 Markov 策略. [注 2] 本定理可以推广到状态集 S 是为可数集,行动集 A 是紧集,而报酬函数 g (i,a) n 是有界连续函数情形. [注 3] 在状态集与动作集较为一般的时候, 为了保证最佳策略的存在, 纯策略类 就不够,必须考虑用随机策略类. 2. 3 无穷时段下的总报酬情形 (m = ¥的情形) 定理16.9 如果报酬函数序列满足以下的衰减性质 å < ¥ ¥ =0 , sup | ( , ) | n i a g n i a , (16.7) 那么存在最佳 Markov 策略 f * . (可以利用有限近似证明). 例16.10 (折扣模型) 在应用中常见例子为折扣报酬模型,即 ( , ) ( , ) 0 g i a r g i a n n = 的情形,其中0 < r <1是折扣因子.此时只要 ( , ) g0 i a 是有界函数, 则条件(16.7)满足. 定义16.11 (平稳策略) 如果 Markov 策略 f=( , n f n≥0)对于任意n 满足 0 f f n = ,则称为平稳 Markov 策略.
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有