正在加载图片...
矩阵是不同的,它们依赖初始分布μ及各个时刻的策略映射序列{f”,n≥0}·我们记 f={n,0≤n≤m} (16.2) 并称它为一个策略,于是,使用它得到的平均累计报酬为En∑g(5n()注意,对 于非时齐的 Markov链n的轨道(50,…,n}而言,我们采取的行动列为 J后(50)…,fn(m).由于我们的行动列只依赖于 Markov链当前所处的状态,这样的特殊 策略f={n=fn(*)0≤n≤m}也称为 Markov策略,这时动作an=fn(n)是随机的.在 Markov链的初分布为μo时,我们将f在时刻m取得的平均累计报酬记为J(μo,f) (,f)=E|∑gn(5n,f5,) 在系统的初始状态为i时,平均累计报酬为J(i,f)=E∑gn(n,f(5n)·(有时在 总报酬中,除了累计报酬外,还要加上一个终止报酬h(m),此时 (Ho,f)=ER 2g,(5n,//(5n )+h(5m) 而其数学处理是完全一样的) [注]以上考虑的是纯策略,更为灵活的是使用混合策略,也就是随机策略,它以给定的概率分 配取动作集A中的不同动作,抽象地可以看成一个取值于A的概率向量(概率分布)μ.这时的动作集A 就用取值于A的全体概率向量组成的集合(记成∏I)所代替.注意,我们可以认为Ac∏,因为纯策略 是一个特殊的随机策略.在随机策略类∏中考虑累计报酬,其每一步计算都应作相应的改变.在使用随机 策略时的最佳报酬函数相应地为。m(),其中 m()=sp,E|∑g5 而丌=(兀0,兀1…)兀n表示时刻n使用的随机策略.可以证明,当gn(i,a)=g(,a)(不依赖n)时 Vn关于k满足一个 Bellman型向后递推公式 Vk.m()=sup s , [g(i, a)+2Pu(a)Vk+m()]443 矩阵是不同的,它们依赖初始分布m0及各个时刻的策略映射序列{ f n ³ 0} n, .我们记 f { f ,0 n m} = n £ £ D , (16.2) 并称它为一个策略.于是,使用它得到的平均累计报酬为 m0 E ÷ ø ö ç è æ å= m n n n n g f 0 (x , (x ) . 注意, 对 于 非时齐的 Markov 链 n x 的轨道 } 0 1 m (x ,x ,L,x 而 言 , 我们采 取的行动列为 { ( ), , ( )) 0 0 m m f x L f x . 由于我们的行动列只依赖于 Markov 链当前所处的状态, 这样的特殊 策略 f { f f ( ),0 n m} = n = n * £ £ D 也称为 Markov 策略, 这时动作 ( ) n n n a = f x 是随机的. 在 Markov 链的初分布为m0时, 我们将 f 在时刻m 取得的平均累计报酬记为 J ( m0 ,f): J ( m0 ,f) = m0 E ÷ ø ö ç è æ å= m n n n n g f 0 (x , (x )) . (16.3) 在系统的初始状态为 i 时, 平均累计报酬为 J ( i ,f) = ÷ ø ö ç è æ å= m n i n n n E g f 0 (x , (x )) . (有时在 总报酬中, 除了累计报酬外, 还要加上一个终止报酬 ( ) h m x , 此时 J ( m0 ,f) = m0 E ÷ ø ö ç è æ å + = m n n n n h n g f 0 (x , (x ) (x ) . 而其数学处理是完全一样的). [注 1] 以上考虑的是纯策略, 更为灵活的是使用混合策略, 也就是随机策略, 它以给定的概率分 配取动作集 A 中的不同动作, 抽象地可以看成一个取值于 A 的概率向量(概率分布) m . 这时的动作集 A 就用取值于 A 的全体概率向量组成的集合(记成 P )所代替. 注意, 我们可以认为 A Ì P , 因为纯策略 是一个特殊的随机策略. 在随机策略类P 中考虑累计报酬, 其每一步计算都应作相应的改变. 在使用随机 策略时的最佳报酬函数相应地为 ( ) 0, × V m , 其中 D Vk,m (i) = p sup ÷ ø ö ç è æ å= m n k Ei gn n n (x ,p ) , (16.4) 而p p p p n ( , , ), = 0 1 L 表示时刻n 使用的随机策略.可以证明, 当g (i,a) g(i,a) n = (不依赖n )时, Vk,n 关于k 满足一个 Bellman 型向后递推公式 ( ) 0 ( ) sup [ ( , ) ( ) ( )] , 1, 1 , = = + + = Î å V i V i g i a p a V j m m ij k m N j k m a A
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有