其中p表示有状态i转移到状态j的 概率,表示由状态i转移到状态j的 为n次转移的总期望报酬向里(my 相应报酬。称Vn=[vn()n:(2) 对P=[ R yN×N NXN 定义乘法 P⊙R=∑pJ 则有 Q=PQR=ΣP22…2P V=Q+PVm n=2, 3其中 表示有状态i转移到状态j的 概率, 表示由状态i转移到状态j的 相应报酬。称 为n次转移的总期望报酬向量。 对 定义乘法 则有 V Q 1 = ij p ij r (1), (2),.... ( ) T V v v v N n n n n = , ij ij N N N N P p R r = = 1 ×1 N ij ij j P R p r = = N 1 1 ,..... T N N ij ij ij ij j j Q P R p r p r = = = = 1, 2,3,... V Q PV n n n = + = −