下面考虑系统经过一定阶段的运行后的总 期望报酬。记q()为状态做出一次转移的 期望报酬,则有 q(1)=2,Pni=1,2,… 称Q=[(),g(2)…(N) 为一次转移的期望报酬向量。 记"①为系统由状态i经过n次转移之后的 总期望报酬,则有 v,()=∑P+vn1()=9()+∑p2()1 ( ) N ij ij j q i p r = = i N =1, 2,...... (1), (2)..... ( ) T Q q q q N = 下面考虑系统经过一定阶段的运行后的总 期望报酬。记q(i)为状态i 做出一次转移的 期望报酬,则有 称 为一次转移的期望报酬向量。 记 为系统由状态i经过n次转移之后的 总期望报酬,则有 1 1 1 1 ( ) ( ) ( ) ( ) N N n ij ij n ij n j j v i p r v j q i p v j − − = = = + = + ( ) V i n i N =1, 2