用n表示系统的阶段数。P表示系统当前处于状 态i,下一步以d种决策方式转移到状态的概率。 Jn(i)示系统初始状态为i,采取最优策略时的 期望报酬最大值。则有如下方程 f()=maxq()+∑mn( n三2 d∈{12 f(=maxq() d∈{1,2d ij p ( ) n f i 用n表示系统的阶段数。 表示系统当前处于状 态i,下一步以d种决策方式转移到状态j的概率。 表示系统初始状态为i,采取最优策略时的 期望报酬最大值。则有如下方程: 1 1,2 1 ( ) ( ) ( ) max N d d n ij n d j f i q i p f j − = = + n = 2,... 1 1,2 ( ) ( ) max d d f i q i =