正在加载图片...
P4(xk)={4(xk)…,(x,) 可供选择的策略有一定的范围,称为允许策略集合( set of admissible policies),用 Pn(x1),Pb2(xk,P(x)表示 2.1.5.状态转移方程 在确定性过程中,一旦某阶段的状态和决策为已知,下阶段的状态便完全确定。用 状态转移方程( equation of state transition)表示这种演变规律,写作 x+1=T(xk,lk),k=12,…,n 在例1中状态转移方程为xk+1=l4(xk) 2.1.6.指标函数和最优值函数 指标函数( objective function)是衡量过程优劣的数量指标,它是定义在全过程和所有 后部子过程上的数量函数,用Vn(xk,lk2xk+1…,xn)表示,k=1,2,…n。指标函 数应具有可分离性,即Vkn可表为xk,u1,Vk+1n的函数,记为 Vn(xk,l2xk1…,xn1)=甲(x,u4,Vk+n(x+14+1,…,xn+1)) 并且函数对于变量n是严格单调的 过程在第j阶段的阶段指标取决于状态x,和决策u,用v(x1,u)表示。指标函 数由v(j=1,2,…,n)组成,常见的形式有 阶段指标之和,即 阶段指标之积,即 Vk(xk, lk, xk+,,x+)=v, (x, u,) 阶段指标之极大(或极小),即 VEn(xk, Uk, xk+,"",n+)=max(min)v, (r,, u) 这些形式下第k到第j阶段子过程的指标函数为V,(xk,uk,…,x+)。 根据状态转移方程指标函数Vn还可以表示为状态x和策略pn的函数,即 Vn(xk,Pm)在x给定时指标函数vn对Pon的最优值称为最优值函数( optimal value function),记为f(xk),即 f(xk)= opt Vk(xk,P如) Pn∈Pn(xk 其中opt可根据具体情况取max或min。 2.1.7最优策略和最优轨线 使指标函数Jκ达到最优值的策略是从k开始的后部子过程的最优策略,记作 Pω={u…un}。pυ是全过程的最优策略,简称最优策略( optimal policy)。从初始 状态x1(=x2)出发,过程按照pn和状态转移方程演变所经历的状态序列 x,x2…x1}称最优轨线( optimal trajectory)-58- ( ) { ( ), , ( )} kj k k k j j p x = u x L u x . 可供选择的策略有一定的范围,称为允许策略集合(set of admissible policies),用 ( ), ( ), ( ) 1n 1 kn k kj k P x P x P x 表示。 2.1.5. 状态转移方程 在确定性过程中,一旦某阶段的状态和决策为已知,下阶段的状态便完全确定。用 状态转移方程(equation of state transition)表示这种演变规律,写作 ( , ), 1,2, , . xk +1 = Tk xk uk k = L n (1) 在例 1 中状态转移方程为 ( ) k 1 k k x = u x + 。 2.1.6. 指标函数和最优值函数 指标函数(objective function)是衡量过程优劣的数量指标,它是定义在全过程和所有 后部子过程上的数量函数,用 ( , , , , ) k ,n k k k +1 n+1 V x u x L x 表示, k = 1,2,L,n 。指标函 数应具有可分离性,即Vk ,n 可表为 k uk Vk n x 1, , , + 的函数,记为 ( , , , , ) ( , , ( , , , )) k ,n k k k+1 n+1 = k k k k+1,n k +1 k+1 n+1 V x u x L x ϕ x u V x u L x 并且函数ϕk 对于变量Vk+1, n 是严格单调的。 过程在第 j 阶段的阶段指标取决于状态 j x 和决策u j ,用 ( , ) j j u j v x 表示。指标函 数由v ( j 1,2, ,n) j = L 组成,常见的形式有: 阶段指标之和,即 ∑= + + = n j k k n k k k n j j j V (x ,u , x , , x ) v (x ,u ) , 1 L 1 , 阶段指标之积,即 ∏= + + = n j k k n k k k n j j u j V (x ,u , x , , x ) v (x , ) , 1 L 1 , 阶段指标之极大(或极小),即 ( , , , , ) max(min) ( , ) , 1 1 j j j k j n k n k k k n V x u x x v x u ≤ ≤ + L + = . 这些形式下第k 到第 j 阶段子过程的指标函数为 ( , , , ) k , j k k j+1 V x u L x 。 根据状态转移方程指标函数Vk ,n 还可以表示为状态 k x 和策略 pkn 的函数,即 ( , ) k ,n k pkn V x 。在 k x 给定时指标函数Vk ,n 对 pkn 的最优值称为最优值函数(optimal value function),记为 ( ) k k f x ,即 ( ) opt ( , ) , ( ) k n k kn p P x k k f x V x p kn∈ kn k = , 其中opt 可根据具体情况取 max 或 min 。 2.1.7 最优策略和最优轨线 使指标函数Vk ,n 达到最优值的策略是从 k 开始的后部子过程的最优策略,记作 { , , } * * * pkn = uk L un 。 * p1n 是全过程的最优策略,简称最优策略(optimal policy)。从初始 状 态 ( ) * 1 1 x = x 出发,过程按照 * p1n 和状态转移方程演变所经历的状态序列 { , , , } * 1 * 2 * 1 n+ x x L x 称最优轨线(optimal trajectory)
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有