正在加载图片...
用n表示系统的阶段数。P表示系统当前处于状 态i,下一步以d种决策方式转移到状态的概率。 Jn(i)示系统初始状态为i,采取最优策略时的 期望报酬最大值。则有如下方程 f()=maxq()+∑mn( n三2 d∈{12 f(=maxq() d∈{1,2d ij p ( ) n f i 用n表示系统的阶段数。 表示系统当前处于状 态i,下一步以d种决策方式转移到状态j的概率。 表示系统初始状态为i,采取最优策略时的 期望报酬最大值。则有如下方程:   1 1,2 1 ( ) ( ) ( ) max N d d n ij n d j f i q i p f j −  =   = +      n = 2,...   1   1,2 ( ) ( ) max d d f i q i  =
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有