正在加载图片...
统在时刻n所处的(随机的)状态.于是系统在时刻m前所得的平均累积报酬为 E∑g(nan)·它就是需要优化的目标函数 动作an的选取,直接影响了在时刻n以后此 Markov链的样本的走向{n,…,5m) 般地,动作an依赖于系统的发展历史,即依赖于{0,a0251,a12…,5n-,am125n}.这里 我们简单地限制在时刻n所采取的动作只依赖于当时所处的状态,也就是假定an只是5n的 函数,即an=fn(n)(其中fn:42,3→{a)2a2},是根据所处的状态选取的动作,即 在时刻n所采取的策略).我们先以m=1为例,看如何求得最高的平均累积报酬.也就是 让ao=J(50),a1=f(51),要选取函数(映射)J0,f1,使 (0,f1)=Eg(50,f0(50)+Eg(51,f1(51) 取到最大值.注意 E8(50,f6(50)=∑g(,f6() 而采取了动作a0(=f0(50))后,非时齐的 Markov链5n从时刻0到时刻1的转移矩阵应该是 P(J0(50),于是 P(51=)=∑P2(G() 从而 Eg(5,()=∑g(,f(P(1= 412g(,f()P(f() 也就是 (G,)=∑8(,()1+∑∑Hg(,f(DP2(6(0) 由此式看出,若要选取策略(,∫)使(J,f)的值为最大,需先选取f1使g(j,f()最 大.对此我们观察到 (j=1)g(1a()=2>=g(1a(2)440 统在时刻 n 所处的(随机的 )状态.于 是系统在时刻 m 前所得的平均累积报酬为 ( ( , )) 0 å= m n E g x n an . 它就是需要优化的目标函数. 动作an 的选取,直接影响了在时刻 n 以后此 Markov 链的样本的走向{ , , ) n 1 m x L x + . 一般地, 动作 an 依赖于系统的发展历史, 即依赖于{ , , , , , , , } 0 a0 1 a1 n 1 an 1 n x x x x L - - . 这里 我们简单地限制在时刻n 所采取的动作只依赖于当时所处的状态,也就是假定an 只是 n x 的 函数, 即 ( ) n n n a = f x (其中 n f :{1,2,3} { , } (1) (2 ) ® a a ,是根据所处的状态选取的动作,即 在时刻n 所采取的策略).我们先以 m = 1为例,看如何求得最高的平均累积报酬.也就是 让 ( ) 0 0 0 a = f x , ( ) 1 1 x1 a = f , 要选取函数(映射) 0 1 f , f , 使 ( , ) ( , ( )) ( , ( )) 0 1 0 0 0 1 1 1 V f f = Eg x f x + Eg x f x D 取到最大值. 注意 å= = 3 1 0 0 0 0 ( , ( )) ( , ( )) i i Eg x f x g i f i m . 而采取了动作 ( ( )) 0 0 0 a = f x 后,非时齐的 Markov 链 n x 从时刻 0 到时刻 1 的转移矩阵应该是 P ( ( )) 0 0 f x ,于是 ( ) ( ( )) 0 3 1 1 P j p f i i ij i x å m = = = . 从而 å= = = 3 1 1 1 1 1 1 ( , ( )) ( , ( )) ( ) j Eg x f x g j f j P x j ( , ( )) ( ( )) 3 1 1 0 3 1 åå= = = j i ij i m g j f j p f i . 也就是 V( f 0 , f 1 ) = å + = 3 1 0 ( , ( )) i i g i f i m åå= = 3 1 1 0 3 1 ( , ( )) ( ( )) j i ij i m g j f j p f i . 由此式看出, 若要选取策略(f 0 , f 1)使 ( , ) 0 1 V f f 的值为最大,需先选取 1 f 使 ( , ( )) 1 g j f j 最 大. 对此我们观察到 (1, ) 2 3 ( 1) (1, ) 2 (1) (2) j = g a = > = g a
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有