-36- 机性决策过程（stochastic decision proce

点击下载：《数学建模》课程教学资源（教材讲义）第四章动态规划 dynamic programming

正在加载图片...

机性决策过程( stochastic decision process),其中应用最广的是确定性多阶段决策过程。 §2基本概念、基本方程和计算方法 2.1动态规划的基本概念和基本方程个多阶段决策过程最优化问题的动态规划模型通常包含以下要素 2.1.1阶段阶段(step)是对整个过程的自然划分。通常根据时间顺序或空间顺序特征来划分阶段,以便按阶段的次序解优化问题。阶段变量一般用k=1,2…,n表示。在例1中由A 出发为k=1,由B(=1,2)出发为k=2,依此下去从F(=1,2)出发为k=6,共 n=6个阶段。在例2中按照第一、二、三、四季度分为k=1,2,3,4,共四个阶段。 2.1.2状态状态( state)表示每个阶段开始时过程所处的自然状况。它应能描述过程的特征并且无后效性,即当某阶段的状态变量给定时,这个阶段以后过程的演变与该阶段以前各阶段的状态无关。通常还要求状态是直接或间接可以观测的。描述状态的变量称状态变量( state variable)。变量允许取值的范围称允许状态集合 ( set of admissible states)。用xk表示第k阶段的状态变量,它可以是一个数或一个向量用Xk表示第k阶段的允许状态集合。在例1中x2可取B2B2,或将B定义为 i(=1.2),则x2=1或2,而X2={,2} n个阶段的决策过程有n+1个状态变量,xn+表示xn演变的结果。在例1中x,取 G,或定义为1,即x2=1 根据过程演变的具体情况,状态变量可以是离散的或连续的。为了计算的方便有时将连续变量离散化;为了分析的方便有时又将离散变量视为连续的。状态变量简称为状态 2.1.3决策当一个阶段的状态确定后,可以作出各种选择从而演变到下一阶段的某个状态,这种选择手段称为决策( decision),在最优控制问题中也称为控制( control)。描述决策的变量称决策变量( decision variable),变量允许取值的范围称允许决策集合( set of admissible decisions)。用lk(xk)表示第k阶段处于状态x时的决策变量, 它是xk的函数,用Uk(xk)表示xk的允许决策集合。在例1中2(B)可取C1,C2或C3, 可记作u2()=1,2,3,而U2(1)={12,3} 决策变量简称决策策略决策组成的序列称为策略( policy)。由初始状态x;开始的全过程的策略记作 P1n(x1),即 Pn(x1)={1(x1),u2(x2),…,ln(xn)} 由第k阶段的状态xk开始到终止状态的后部子过程的策略记作Pn(xk),即 P(x)={u(x),…un(xn)},k=1,2,…,n-1 类似地,由第k到第j阶段的子过程的策略记作 P(xk)={4(xk)…,(x,) 可供选择的策略有一定的范围,称为允许策略集合( set of admissible policies),用-36- 机性决策过程（stochastic decision process），其中应用最广的是确定性多阶段决策过程。 §2 基本概念、基本方程和计算方法 2.1 动态规划的基本概念和基本方程一个多阶段决策过程最优化问题的动态规划模型通常包含以下要素。 2.1.1 阶段阶段(step)是对整个过程的自然划分。通常根据时间顺序或空间顺序特征来划分阶段，以便按阶段的次序解优化问题。阶段变量一般用 k =1,2,  ,n 表示。在例 1 中由 A 出发为 k =1 ，由 B (i = 1,2) i 出发为 k = 2 ，依此下去从 F (i =1,2) i 出发为 k = 6 ，共 n = 6 个阶段。在例 2 中按照第一、二、三、四季度分为 k =1,2,3,4 ，共四个阶段。 2.1.2 状态状态（state）表示每个阶段开始时过程所处的自然状况。它应能描述过程的特征并且无后效性，即当某阶段的状态变量给定时，这个阶段以后过程的演变与该阶段以前各阶段的状态无关。通常还要求状态是直接或间接可以观测的。描述状态的变量称状态变量（state variable）。变量允许取值的范围称允许状态集合 (set of admissible states)。用 k x 表示第 k 阶段的状态变量，它可以是一个数或一个向量。用 Xk 表示第 k 阶段的允许状态集合。在例 1 中 2 x 可取 1 2 B ,B ，或将 Bi 定义为 i(i = 1,2) ，则 x2 =1 或 2 ，而 {1,2} X2 = 。 n 个阶段的决策过程有 n +1 个状态变量， n+1 x 表示 n x 演变的结果。在例 1 中 7 x 取 G ，或定义为 1 ，即 x7 = 1。根据过程演变的具体情况，状态变量可以是离散的或连续的。为了计算的方便有时将连续变量离散化；为了分析的方便有时又将离散变量视为连续的。状态变量简称为状态。 2.1.3 决策当一个阶段的状态确定后，可以作出各种选择从而演变到下一阶段的某个状态，这种选择手段称为决策（decision），在最优控制问题中也称为控制（control）。描述决策的变量称决策变量（decision variable），变量允许取值的范围称允许决策集合（set of admissible decisions）。用 ( ) k k u x 表示第 k 阶段处于状态 k x 时的决策变量，它是 k x 的函数，用 ( ) k k U x 表示 k x 的允许决策集合。在例 1 中 ( ) u2 B1 可取 1 2 C ,C 或 C3 ，可记作 u2 (1) =1,2,3 ，而 (1) {1,2,3} U2 = 。决策变量简称决策。 2.1.4 策略决策组成的序列称为策略（policy）。由初始状态 1 x 开始的全过程的策略记作 ( ) 1 1 p x n ，即 ( ) { ( ), ( ), , ( )} 1n 1 1 1 2 2 n n p x = u x u x  u x . 由第 k 阶段的状态 k x 开始到终止状态的后部子过程的策略记作 ( ) kn k p x ，即 ( ) { ( ), , ( )} kn k k k n n p x = u x  u x ， k = 1,2,  ,n −1. 类似地，由第 k 到第 j 阶段的子过程的策略记作 ( ) { ( ), , ( )} kj k k k j j p x = u x  u x . 可供选择的策略有一定的范围，称为允许策略集合(set of admissible policies)，用

<<向上翻页向下翻页>>

点击下载：《数学建模》课程教学资源（教材讲义）第四章动态规划 dynamic programming