3 （4）状态转移方程: 确定过程由一个状态到另一个状态的演变过程。若给定

正在加载图片...

(4)状态转移方程：确定过程由一个状态到另一个状态的演变过程。若给定第k阶段的状态，则当该段的决策4一经确定，第k+1阶段的状态S+1也就完全确定，即s+1的值随s和4的值变化而变化。把这种确定的对应关系，记为sk+=T(Sk,),它描述了由k阶段到k+1阶段的状态转移规律，称为状态转移方程。如例4.1.1中，如果S2=B2,为→C2,则s3=C2,即=T2(B2,→C2=C2。 (5)策略：是一个按顺序排列的决策组成的集合。由过程的第k阶段开始到终止状态为止的过程，称为问题的k后子过程。由k后子过程中每段的决策按顺序排列组成的决策序列{(S),+1(S+),… 山n(s)}称为k后子过程策略。记为 Pn(S)={uk(S,+i(s+i）,…,n(sn）} 其中s+=TS%),…,Ssm=Tm1(Sm-l,-)。当k=1时，P1n()称为全过程策略，简称策略。显然，Pn()={(S),Pk+1n(S+i)},其中Sk+1=T(Sk,)。在实际问题中，可供选择的策略有一定的范围，此范围称为允许策略集，用P(S)表示。显然， Bsx)={(k,Pk+,n川山：∈Uk(S),Pk+n∈P+1n(Sk+i),Sk+1=T(Sk,山)}。从允许策略集中找出达到最优效果的策略，称为最优策略。 (6)指标函数：用来衡量所实现过程优劣的一种数量指标。阶段指标函数：用来衡量一个阶段优劣的一种数量指标，用(S%)表示第k阶段状态为s%所做决策为时的指标函数。 k后子过程指标函数：用来衡量k后子过程优劣的一种数量指标，用 'kn(Sk,,Sk+l,k+l,…,Sm,m,Sn+l）表示，其中s+1=T(S%k),,…,S+1=TSn山n)。特别地， ,,产立y,（G,西)一和式 i=k 或 (s4s+1,h,…,Smn+1F石y,（S,4）—乘式 = 如在例4.1.1中，指标函数的含义为距离。当s2=B2,为→C2时，阶段指标函数2(S2,)=d(B2,C2=8, 后子过程的指标函数是阶段指标函数的和。当S给定，k后子过程策略P(s)给定，则k后子过程的指标函数'n也就确定了，故可记 Vn(SkPn(Sx)）='n(Skk,sk+l,+l,…,Sm4,Sn+I） (T)最优值函数：指标函数的最优值，即'(S,P,(s)在最优策略下的值，它表示从第k阶段状态s开始到第n阶段终止在最优策略下的指标函数值，记作(s)。因此 fi(Sk)=opt Vkn(sk,pkn(SK)) Pkn(5g )EPn(5k) 其中“op”表示“min”或“mar”,最优解即为最优策略，记作Pk,n(Sk)。如在例4.1.1中，(s)表示s到G的最短距离。 4.2.2动态规划的基本思想和基本方程 1.最短路线的特性如果由起点S经过P点和H点而到达终点E是一条最短路线，则由点P出发经过H点到达E点的这条子路线，对于从点P出发到达终点的所有可能选择的不同路线来说，必定是最短路线。 33 （4）状态转移方程: 确定过程由一个状态到另一个状态的演变过程。若给定第 k 阶段的状态 sk，则当该段的决策 uk一经确定，第 k+1 阶段的状态 sk+1也就完全确定，即 sk+1 的值随 sk和 uk的值变化而变化。把这种确定的对应关系，记为 sk+1=Tk(sk,uk)，它描述了由 k 阶段到 k+1 阶段的状态转移规律，称为状态转移方程。如例 4.1.1 中，如果 s2 =B2，u2 为→C2，则 s3=C2，即=T2(B2,→C2)=C2。（5）策略：是一个按顺序排列的决策组成的集合。由过程的第 k 阶段开始到终止状态为止的过程，称为问题的 k 后子过程。由 k 后子过程中每段的决策按顺序排列组成的决策序列{uk(sk), uk+1(sk+1),… un(sn)}称为 k 后子过程策略。记为 pk,n(sk)={uk(sk), uk+1(sk+1),…，un(sn)} 其中 sk+1=Tk(sk,uk)，…，sn=T n-1(sn-1,un-1)。当 k=1 时，p1,n(s1)称为全过程策略，简称策略。显然，pk,n(sk)= {uk(sk), pk+1,n(sk+1)}，其中 sk+1=Tk(sk,uk)。在实际问题中，可供选择的策略有一定的范围，此范围称为允许策略集，用 Pk,n(sk)表示。显然， Pk,n(sk)= 1, 1, 1, 1 1 {( , ) | ( ), ( ), ( , )} k kn k k k kn knk k k k k u p u U s p P s s Tsu + + + ++ ∈∈ = 。从允许策略集中找出达到最优效果的策略，称为最优策略。（6）指标函数：用来衡量所实现过程优劣的一种数量指标。阶段指标函数：用来衡量一个阶段优劣的一种数量指标，用 vk(sk,uk)表示第 k 阶段状态为 sk所做决策为 uk时的指标函数。 k 后子过程指标函数：用来衡量 k 后子过程优劣的一种数量指标，用 Vk,n(sk,uk,sk+1,uk+1,…,sn,un,sn+1) 表示，其中 sk+1=Tk(sk,uk), ,…，sn+1=Tn(sn,un)。特别地， Vk,n(sk,uk,sk+1,uk+1,…,sn,un,sn+1)= (, ) n jjj j k vsu = ∑ ——和式或 Vk,n(sk,uk,sk+1,uk+1,…,sn,un,sn+1)= (, ) n jj j j k π vsu = ——乘式如在例 4.1.1 中，指标函数的含义为距离。当 s2=B2,u2 为→C2 时，阶段指标函数 v2(s2,u2)=d(B2,C2)=8，后子过程的指标函数是阶段指标函数的和。当 sk给定，k 后子过程策略 pk,n(sk)给定，则 k 后子过程的指标函数 Vk,n 也就确定了，故可记 Vk,n(sk,pk,n(sk))=Vk,n(sk,uk,sk+1,uk+1,…,sn,un,sn+1) （7）最优值函数：指标函数的最优值，即 Vk,n(sk,pk,n(sk))在最优策略下的值，它表示从第 k 阶段状态 sk开始到第 n 阶段终止在最优策略下的指标函数值，记作 fk(sk)。因此 fk(sk)= , , () () kn k kn k p sPs opt ∈ Vk,n(sk,pk,n(sk)) 其中“opt”表示“min”或“max”，最优解即为最优策略，记作 * , ( ) kn k p s 。如在例 4.1.1 中，fk(sk)表示 sk到 G 的最短距离。 4.2.2 动态规划的基本思想和基本方程 1. 最短路线的特性如果由起点 S 经过 P 点和 H 点而到达终点 E 是一条最短路线,则由点 P 出发经过 H 点到达 E 点的这条子路线,对于从点 P 出发到达终点的所有可能选择的不同路线来说，必定是最短路线

<<向上翻页向下翻页>>

点击下载：上海交通大学：《运筹学》教学资源（课程讲义）第四章动态规划