正在加载图片...
、决策和策略 Decision and Policy) 当各阶段的状态确定以后,就可以做出不同的决定或选择,从而确 定下一阶段的状态,这种决定就是决策。表示决策的变量称为决策变量, 常用Uk(Sk)表示第k阶段当状态为Sk时的决策变量,在实际问题中, 决策变量的取值是被限制在一定的范围内,我们称此范围为允许的决策集 合,用Dk(Sk)表示第k阶段从状态Sk出发时的允许决策集合,显然 有Uk(S1)∈D(SA)。 在例51中第二阶段如决定从B1出发,即s2=B1,可选择走C1或 C2,C3,即其允许的决策变量集合D2(B1){C1C2,C3}。如果我们选择 从C2走,则此时的决策变量可表示为UB1)=C2。所以,在这里决策变 量的取值实际上也是给定集合的一个元素 在各阶段决策确定以后,整个问题的决策序列就构成了一个策略,用 (U1,2,U)表示如对于例51、Pn(AB2CD2E)就是一个策略。 对于每个实际问题,可供选择的策略有一定范围,称为允许策略集合,用P 表示,使整个问题达到最优效果的策略就是最优策略。如对于例5.1总共 可有18个策略,但最优策略只有一个。 2021/2/242021/2/24 6 三、 决策和策略(Decision and Policy) 当各阶段的状态确定以后,就可以做出不同的决定或选择,从而确 定下一阶段的状态,这种决定就是决策。表示决策的变量称为决策变量, 常用Uk ( k s )表示第 k 阶段当状态为 k s 时的决策变量,在实际问题中, 决策变量的取值是被限制在一定的范围内,我们称此范围为允许的决策集 合,用 Dk ( k s )表示第 k 阶段从状态 k s 出发时的允许决策集合,显然 有Uk ( k s )∈ Dk ( k s )。 在例 5.1 中第二阶段如决定从 B1 出发,即 s2=B1,可选择走 C1 或 C2,C3,即其允许的决策变量集合 D2 (B1)={C1,C2,C3} 。如果我们选择 从 C2 走,则此时的决策变量可表示为 U2 (B1)=C2 。所以, 在这里决策变 量的取值实际上也是给定集合的一个元素。 在各阶段决策确定以后, 整个问题的决策序列就构成了一个策略 ,用 P1,n (U1 ,U2 ,…,Un ) 表示,如对于例 5.1, P1,n (A,B2,C1,D2,E)就是一个策略。 对于每个实际问题,可供选择的策略有一定范围 ,称为允许策略集合,用 P 表示,使整个问题达到最优效果的策略就是最优策略。如对于例 5.1 总共 可有 18 个策略,但最优策略只有一个
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有