正在加载图片...
而在n≤1时段内的最高平均累积报酬为T(,f) 125 1.2简单模型的启示 由例16·2可以看出,如果限制在形如an=∫n(ξn)的策略类中,去找最佳的策略 (即“从状态到动作的对应”fn,那么,只要先选定时刻最后的m时刻所对应最佳的fm, 然后向后归纳地选最佳的∫m4,…,f.由此可以抽象出第2节中较为一般的数学模型 2动作只依赖当前所处状态的简单决策模型 2.1简单模型的一般描述 定义16.3(决策动作不依赖系统的状态的情形) 假定在参数a(a∈某个有限集A,称为行动集)固定时,P(a)=(P2(a),s是 一个以S={1,2,…,N}为状态空间的转移矩阵.设在时刻0,1,,各选一个行动,记为 a0,a1,…(a1∈A),那么由初分布o=(p1,…,Hx)及转移矩阵序列伊P(an):n≥0}可以 决定一个非时齐的 Markov链ξn,满足: P(50=1)=H1,P(5m1=f|5n=D)=Pan) 假定时刻n系统处在状态i时,采取行动an得到的报酬由报酬函数gn(i,a)表示,那么在时 刻m得到的累计报酬为∑g(nan),其中gn(a)是在时刻n采取行动a且处在状态i 时的报酬函数,那么,平均累计报酬为E∑gn(n,an) 定义16.4(决策动作仅依赖系统当前的状态的情形时的期望总报酬) 这也是一种简单情形,例16.3是它的特例.这时容许a的取值依赖于链所处 的状态i的情形,即an=∫n(i)的情形,其中∫是状态集S到动作集的A的一个映射,其 含义为:若 Markov链在时刻n处于状态i,则采取决策an=Jn(i).令 Pn=(Pi, (n(jsN (16.1) 则它仍是一个随机矩阵.由初始分布μ及Pn,n≥0}决定了一个非时齐 Markov链n类似 地由报酬函数g(a)可以得到时刻m的平均累计报酬.此 Markov链5n在各个时刻的转移442 而在n £1时段内的最高平均累积报酬为 12 125 ( , ) * 1 * V f 0 f = . 1. 2 简单模型的启示 由例16.2可以看出, 如果限制在形如 ( ) n n n a = f x 的策略类中, 去找最佳的策略 ( 即 ”从状态到动作的对应" n f ,那么, 只要先选定时刻最后的m 时刻所对应最佳的 * m f , 然后向后归纳地选最佳的 * 0 * 1 f , , f m - L . 由此可以抽象出第 2 节中较为一般的数学模型. 2 动作只依赖当前所处状态的简单决策模型 2. 1 简单模型的一般描述 定义16.3 (决策动作不依赖系统的状态的情形) 假定在参数a (a ∈某个有限集 A , 称为行动集)固定时, P(a ) ij i j N p a = , £ ( ( )) 是 一个以 S = {1,2,L,N} 为状态空间的转移矩阵. 设在时刻 0,1,...各选一个行动,记为 , , ( ) a0 a1 L ai Î A , 那么由初分布m0 ( , , ) = m1 L m N 及转移矩阵序列{P(an ):n≥0} 可以 决定一个非时齐的 Markov 链 n x ,满足: i P(x0 = i) = m , ( | ) ( ) n 1 n ij n P = j = i = p a + x x . 假定时刻 n 系统处在状态 i 时,采取行动 an 得到的报酬由报酬函数 g (i,a) n 表示,那么在时 刻m 得到的累计报酬为 å= m n g n n an 0 (x , ) , 其中 g (i,a) n 是在时刻n 采取行动 a 且处在状态 i 时的报酬函数, 那么,平均累计报酬为 [ ( , )] 0 å= m n E g n x n an . 定义16.4 (决策动作仅依赖系统当前的状态的情形时的期望总报酬) 这也是一种简单情形,例16.3 是它的特例. 这时容许an 的取值依赖于链所处 的状态i 的情形, 即 a f (i) n = n 的情形, 其中 n f 是状态集 S 到动作集的 A 的一个映射, 其 含义为: 若 Markov 链在时刻n 处于状态i , 则采取决策a f (i) n = n .令 P n ij n i j N p f i = , £ ( ( ( )) , (16.1) 则它仍是一个随机矩阵.由初始分布m0及{P n ,n≥0}决定了一个非时齐 Markov 链 n x .类似 地由报酬函数 g(i, a) 可以得到时刻m 的平均累计报酬.此 Markov 链 n x 在各个时刻的转移
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有