
马萨诸塞州理工学院 2000年秋季 6.231 期中考试 星期二24/1000,上午7:09:30 问题1(25分) 考必标准的有限域,离散时间、状态信息完整、有限时闻域N、线性二次型问愿。然而, 我们要加上额外限铸: 6=x- ()将此问题端述为一个整用动态规划求解的形式, ()证明:最优余留代价泛函是初始状态的二次型函数。提示:本证明不必重复课本中的长 篇推导。 闻题2(25分) 给定含有1,2,“,:节点以及有向弧i,)集合A的有向图。节点1是源节点。节点 :是蜂节点,每条弧(i,广的长度为C。·对每个节点i,由起始的(1,j的长度已拾定, 除了一条特殊的(i,j,:它的组长是1的顺率为P,是0的概率为1P(假设不同弧的 长度是相互粒立的)。 有一年辆从节点!开始,希里在到达川的节点:前遍历木图,不允许作辆两次通过同一 节点。车辆只有通过访问节点才能了解儿(,广,)的情况。目标是使车辆通过的弧长的期望 总和为最小。 ()通过定义一个合适的状志,将此同愿表达为一个状志信息完整(及有限状态空间)的问 题。精确的列出状态、控制以及运动方程。 (写出动志规划方程
马萨诸塞州理工学院 2000 年秋季 6.231 期中考试 星期二 24/10/00,上午 7:30-9:30 问题 1(25 分) 考虑标准的有限域、离散时间、状态信息完整、有限时间域 N、线性二次型问题。然而, 我们要加上额外限制: 0 1 N u u = − (a) 将此问题描述为一个能用动态规划求解的形式。 (b) 证明:最优余留代价泛函是初始状态的二次型函数。提示:本证明不必重复课本中的长 篇推导。 问题 2(25 分) 给定含有 1,2,…,n 节点以及有向弧(i , j )集合 A 的有向图。节点 1 是源节点,节点 n 是终节点,每条弧(i , j )的长度为 ij c 。对每个节点i ,由i 起始的弧(i , j )的长度已给定, 除了一条特殊的弧(i , i j ),它的弧长是 1 的概率为 p ,是 0 的概率为 1- p (假设不同弧的 长度是相互独立的)。 有一车辆从节点 1 开始,希望在到达目的节点 n 前遍历本图。不允许车辆两次通过同一 节点。车辆只有通过访问节点i 才能了解弧(i , i j )的情况。目标是使车辆通过的弧长的期望 总和为最小。 (a) 通过定义一个合适的状态,将此问题表达为一个状态信息完整(及有限状态空间)的问 题。精确的列出状态、控制以及运动方程。 (b) 写出动态规划方程

间题3(50分) 一个航运公司(在0时刻》有一个尺寸为整数K的空集装箱,在每个阶段青(k=0,1,一, 水1),一个顺客出现,并出价P:(正整数)预定尺寸为:(正整数。小于集装箱容积)的 空间。假设在不同阶段★,出价(P·3:》是相互独立的,且概率分布已知:每一次,公 司可以选择接受顾客《假如集装箱空间足够)或者抱绝顾客。目标是使期望收益最大化 ()给出此付完整的动南规划表达式(状志、运动方程等),以及动态规划算法。 ()证明最优策略具有如下性质:对于任意的固定状态和时间,如果接受出价《乃:·5:): 票么同样尺寸品,而出价更高可>P的〔戌,5)也要接受。 ()正明最优策略具有如下性质:对于任意的四定状态和时间。如果接受出价(P:·5:, 那么较小尺寸《<5:)而出价一样的(P·)也要接受。 (假设订单中的尺寸要求不能精确得知:当公司接受一个尺寸要求为5,的订单时,而实际 尺寸卸变成5+鸟,其中鸟,是均值为0方差为。的不可测量的独立正态分布变量.(理 论上,这能导致订单的尺寸为负值。但是假设石是相当小的,所以我们不必考饱这件 可能性)。在阶段N,统计所有的订单,如果它们的总和大于K的话,公司需要第二个 集装箱,而且代价为C。给出此问墨的动态规划方程(状态,动态方程、代价等),使 期望收益最大,期望代价最小。 )附如得分题,翼如承有空汆时间,禁必述. 让我们国到)部分的状态信息完整问愿,并假设订单的尺寸大小总是1(3=1):我 们提出命题如下,如果当己接受订单的总大小为时再接受一个订单(P:·品)是最 优的,那么当已接受订单的总大小小于时再接受一个同样的订单也是最优的。 (间性能泛函的哪一性质是以迁明此命题。 (可迁明(回中的性质。 ()通过一个例子说明,若没有5,1的假设,命题的最优策略性质不能成立
问题 3(50 分) 一个航运公司(在 0 时刻)有一个尺寸为整数 K 的空集装箱。在每个阶段k( k =0,1,…, N-1),一个顾客出现,并出价 pk (正整数)预定尺寸为 k s (正整数,小于集装箱容积)的 空间。假设在不同阶段 k ,出价( pk , k s )是相互独立的,且概率分布已知。每一次,公 司可以选择接受顾客(假如集装箱空间足够)或者拒绝顾客。目标是使期望收益最大化。 (a) 给出此问题完整的动态规划表达式(状态、运动方程等),以及动态规划算法。 (b) 证明最优策略具有如下性质:对于任意的固定状态和时间,如果接受出价( pk , k s ), 那么同样尺寸 k s 而出价更高( k p′ > pk )的( k p′ , k s )也要接受。 (c) 证明最优策略具有如下性质:对于任意的固定状态和时间,如果接受出价( pk , k s ), 那么较小尺寸( k s′ < k s )而出价一样的( pk , k s′ )也要接受。 (d) 假设订单中的尺寸要求不能精确得知:当公司接受一个尺寸要求为 k s 的订单时,而实际 尺寸却变成 k s +ωk ,其中ωk 是均值为 0 方差为 2 σ 的不可测量的独立正态分布变量。(理 论上,这能导致订单的尺寸为负值。但是假设 2 σ 是相当小的,所以我们不必考虑这种 可能性)。在阶段 N,统计所有的订单,如果它们的总和大于 K 的话,公司需要第二个 集装箱,而且代价为C 。给出此问题的动态规划方程(状态、动态方程、代价等),使 期望收益最大,期望代价最小。 (e) 附加得分题,假如你有空余时间,非必选。 让我们回到(a)-(c)部分的状态信息完整问题,并假设订单的尺寸大小总是 1( k s =1)。我 们提出命题如下:如果当已接受订单的总大小为 a 时再接受一个订单( pk , k s )是最 优的,那么当已接受订单的总大小小于 a 时再接受一个同样的订单也是最优的。 (i) 性能泛函的哪一性质足以证明此命题。 (ii) 证明(i)中的性质。 (iii) 通过一个例子说明,若没有 k s =1 的假设,命题的最优策略性质不能成立

6231,期中考试答案,2000秋 ()引入一个附加状态向量y:·状态方程为: A+I -Aurs+But +m.k0 除了在阶段1使每阶受的代价为x-Q-不w4+Rx-w4以外,令每阶段的 标准二次型代价《Q玉+凡马)不变。 ()系统仍然是一个线性系统,它的每阶段代价是状志和控制的二次方。因此余留代价是 〔。,%)的二次方。因为片一0,所以在零时刻余留代价是的二次方 2 )系统的状态用三个变量表示《1,S,c):其中1是目前的节点:S是1,2。,n的子集, 表示以前曾经访问过的节点:而C∈0,)表示特殊弧(1,的代价。控制w是某些/, 它选择将要访问的下一节点(除非=n的情况。此时我们处于锋瑞状志),运动方程为如 (i4+1,S+1,G+a)=(,SU{ie},4 其中信,是随机变量,它的值是1和0的概率分别为p和1-p。 我们还可以只速择(1,S)为状态,这是我们了解特绿弧之前的状态。 6) 8=倒+6su.)+1-su间,明 J川m,5=0 对于状态的另一种选择,动态规划方程为: J低=pim+.su脾{o+.su》 +1-m恤{68uh驶{8u} (u,-0
6.231,期中考试答案,2000 秋 1. (a) 引入一个附加状态向量 k y 。状态方程为: 除了在阶段 N-1 使每阶段的代价为 N NN N NN 1 11 1 11 x Qx yRy − −− − −− ′ + ′ 以外,令每阶段的 标准二次型代价( k kk k kk x′ ′ Qx uRu + )不变。 (b) 系统仍然是一个线性系统,它的每阶段代价是状态和控制的二次方。因此余留代价是 ( 0 x , 0 y )的二次方。因为 0 y =0,所以在零时刻余留代价是 0 x 的二次方。 2. (a) 系统的状态用三个变量表示(i,S,c ):其中i 是目前的节点;S 是{1,2,…,n}的子集, 表示以前曾经访问过的节点;而 c∈{0,1}表示特殊弧(i , i j )的代价。控制u 是某些 j , 它选择将要访问的下一节点(除非i = n 的情况,此时我们处于终端状态)。运动方程为: 其中ωt 是随机变量,它的值是 1 和 0 的概率分别为 p 和 1- p 。 我们还可以只选择(i, S )为状态,这是我们了解特殊弧之前的状态。 (b) 对于状态的另一种选择,动态规划方程为:

3 (回状态是x,P:,3:h其中x,是以前接受订单的尺寸总和。如果接P:,3,令:, 否。令0.运动方程为=名+(P43上回,其中心是随机订单 红,取=mi血{E人+1L,m+,s+儿P++g+气+,s+月} kK时令(xP,)=-).并且对于任何xP1·那 么P≥J()-J(离+S》:他应该接受订单,: (©)我们说明性能泛函是单调(丰增)的:若xJ,(y。我们可以直观 地看到:如果状态由y诚小到x,那么我们《从状老x开始)可以做我们(从状态y开 始》以前修做的任何事情,并且可以得到相月的收益。从数学上讲,这可以通过归纳法 证明。单调性对于Jw也成立,假设,(x)对x面言是非增的,那么()和 P,+J(名+多)也是x的丰增函数。两个非增函数中的最小者也是非增的。取非增函 数的加权平均的期鲤值,就可以看出J(x)也是幸增的。 根据这种单调性,以及假设写<3·我们看到(怎+)2J(属+5)。如果接 受(P3.那么P4+J(x+5)之(),这意味看P4+J(x+)之Jx) 所以也接么P, (心这里,我们的信息不完整,过去所接受的订单大小的总和也是未知的。然而,它的总大 小为∑4,+问),是正态随机变量,均值为∑叫,号,方差为∑4,。2,因 此均值和方差是充分饶计。我们可以用二维状态变量(两,,:它的运动方程如下 mg=0阳e+:=m十, 0=0作+1=路+己 每阶段的收益依然是B叫,也有一个终端代价g(mx,Vx),它等于均值为刷x方差为" 的正态随机变量的顺率
3. (a) 状态是( k x , pk , k s ),其中 k x 是以前接受订单的尺寸总和。如果接受( pk , k s ),令uk =1, 否则,令uk =0。运动方程为 k k k k x = x + u s +1 ,( pk+1 , k+1 s )=ωk+1,其中ωk+1是随机订单。 期望值与( pk+1 , k+1 s )的分布有关的。只有当 x + s ≤ K 时,上式中第二项才有意义。 (解决此问题的简单方法是,当 x > K 时令 J (x, p,s) = −∞ )。并且对于任何 x pk ,那 么 1 1 () ( ) k k k k kk p J x J xs + + ′ ≥ −+ ,也应该接受订单( k p′ , k s )。 (c) 我们说明性能泛函是单调(非增)的:若 x k 。我们可以直观 地看到:如果状态由 y 减小到 x ,那么我们(从状态 x 开始)可以做我们(从状态 y 开 始)以前能做的任何事情,并且可以得到相同的收益。从数学上讲,这可以通过归纳法 证明。单调性对于 N J 也成立,假设 J (x) k 对 x 而言是非增的,那么 ( ) 1 J x k+ 和 ( ) k k 1 k k p + J x + s + 也是 x 的非增函数。两个非增函数中的最小者也是非增的。取非增函 数的加权平均的期望值,就可以看出 J (x) k 也是非增的。 根据这种单调性,以及假设 k s′ < k s ,我们看到 1 1 ()() k kk k kk J xs J xs + + + ′ ≥ + 。如果接 受( pk , k s ),那么 ( ) ( ) 1 1 p J x s J x k + k+ + k ≥ k+ ,这意味着 1 1 ( ) () kk k k p J xs J x + + + + ≥ ′ , 所以也接受( pk , k s′ )。 (d) 这里,我们的信息不完整,过去所接受的订单大小的总和也是未知的。然而,它的总大 小为 ∑ − = + 1 0 ( ) k i k k k u s ω ,是正态随机变量,均值为 ∑ − = 1 0 k i k k u s ,方差为 ∑ − = 1 0 2 k i k u σ ,因 此均值和方差是充分统计。我们可以用二维状态变量( mk , k v ),它的运动方程如下: 每阶段的收益依然是 k k p u ,也有一个终端代价 ( , ) N N g m v ,它等于均值为 mN 方差为 N v 的正态随机变量的概率

(e) )我们所需要的性质如下:对于每个p,a和x,以及x≤a.p+J(a+)2J(a) 则p+J(x+)2J(x)。该性震成立的条件是有下式 h+i(@)-k+ia-1)≥h+1(a+1)-k+i(a 此性能泛函只在整数值处成立。上述性质要求J函数的“斜率”〔从一个整数值变到 下一个整数值)是非增的。这是回函数的离散情况 (们用归纳法证明。显然Jx具有我们香要的性质。假设:具有此性质,不难检验J,也 具有这种性质。《不是用代数方法,面是面一个图来看:假设3=1,暖更一般地说只有一 种可能的尺寸,这是关键所在), 间假设还有许多时间。而且将会收到许多订单,其中一些是(p,5)气,,一些是 (P,)一0,2):假设状态是K,形如(P,)1,1)的订单将被接受,因为不会有更好的 选择。但是如果状态是K2,郑么订单(P,)1,)将被拒绝,而把机会留给能获得更大 利益的订单(P,)-(102):
(e) (i) 我们所需要的性质如下:对于每个 p 、a 和 x ,以及 x ≤ a 、 ( 1) ( ) p + Jk+1 a + ≥ Jk+1 a , 则 ( 1) ( ) 1 1 p J x J x + k+ + ≥ k+ 。该性质成立的条件是有下式: 此性能泛函只在整数值处成立。上述性质要求 k+1 J 函数的“斜率”(从一个整数值变到 下一个整数值)是非增的。这是凹函数的离散情况。 (ii) 用归纳法证明。显然 N J 具有我们需要的性质。假设 k+1 J 具有此性质,不难检验 k J 也 具有这种性质。(不是用代数方法,而是画一个图来看;假设 s =1,或更一般地说只有一 种可能的尺寸,这是关键所在)。 (iii) 假设还有许多时间,而且将会收到许多订单,其中一些是 ( p,s) =(1,1),一些是 ( p,s) =(10,2)。假设状态是 K-1,形如( p,s) =(1,1)的订单将被接受,因为不会有更好的 选择。但是如果状态是 K-2,那么订单( p,s) =(1,1)将被拒绝,而把机会留给能获得更大 利益的订单( p,s) =(10,2)