2021/2/24 6 三、决策和策略(Decision and Pol

正在加载图片...

、决策和策略 Decision and Policy) 当各阶段的状态确定以后,就可以做出不同的决定或选择,从而确定下一阶段的状态,这种决定就是决策。表示决策的变量称为决策变量, 常用Uk(Sk)表示第k阶段当状态为Sk时的决策变量,在实际问题中, 决策变量的取值是被限制在一定的范围内,我们称此范围为允许的决策集合,用Dk(Sk)表示第k阶段从状态Sk出发时的允许决策集合,显然有Uk(S1)∈D(SA)。在例51中第二阶段如决定从B1出发,即s2=B1,可选择走C1或 C2,C3,即其允许的决策变量集合D2(B1){C1C2,C3}。如果我们选择从C2走,则此时的决策变量可表示为UB1)=C2。所以,在这里决策变量的取值实际上也是给定集合的一个元素在各阶段决策确定以后,整个问题的决策序列就构成了一个策略,用 (U1,2,U)表示如对于例51、Pn(AB2CD2E)就是一个策略。对于每个实际问题,可供选择的策略有一定范围,称为允许策略集合,用P 表示,使整个问题达到最优效果的策略就是最优策略。如对于例5.1总共可有18个策略,但最优策略只有一个。 2021/2/242021/2/24 6 三、决策和策略(Decision and Policy) 当各阶段的状态确定以后，就可以做出不同的决定或选择，从而确定下一阶段的状态，这种决定就是决策。表示决策的变量称为决策变量，常用Uk （ k s ）表示第 k 阶段当状态为 k s 时的决策变量，在实际问题中, 决策变量的取值是被限制在一定的范围内，我们称此范围为允许的决策集合，用 Dk （ k s ）表示第 k 阶段从状态 k s 出发时的允许决策集合，显然有Uk （ k s ）∈ Dk （ k s ）。在例 5.1 中第二阶段如决定从 B1 出发，即 s2=B1，可选择走 C1 或 C2，C3，即其允许的决策变量集合 D2 (B1)={C1,C2,C3} 。如果我们选择从 C2 走，则此时的决策变量可表示为 U2 (B1)=C2 。所以, 在这里决策变量的取值实际上也是给定集合的一个元素。在各阶段决策确定以后，整个问题的决策序列就构成了一个策略 ,用 P1,n (U1 ,U2 ,…,Un ) 表示,如对于例 5.1, P1,n (A,B2,C1,D2,E)就是一个策略。对于每个实际问题,可供选择的策略有一定范围 ,称为允许策略集合，用 P 表示，使整个问题达到最优效果的策略就是最优策略。如对于例 5.1 总共可有 18 个策略，但最优策略只有一个

<<向上翻页向下翻页>>

点击下载：《运筹学》课程PPT教学课件（讲稿）第五章动态规划