正在加载图片...
A1=0,x在这模型中,相应于转移矩阵P(a)=(Pna)a∈A1)的是转移核p(xya) (a∈A).如果采用策略f=(fn,an=fn(5n),则在时刻m的平均累计报酬为 J(x,f)=E∑(5n-f(5n),其中50=x0(也可以是随机的,0≤f(x)≤x 最佳投资组合假定只有两种证券,无风险的证券(例如存银行,其利率为尸)及有风险的 股票.设财产5n中投资于股票的比例为an,(0≤an≤1),且以数量Cn消费.此时状态空间为 S=[0,∞),当状态确定为x时的动作集为A2=[0.】×[0,x],即 a=(a,c),(0≤a≤10≤c≤x) 于是状态发展为 Enl=[(1+r1-a,)+anI(5, -Cn) 其中ηn是股票的价值.典型的报酬函数是g(x,(a,C)=l(C),它代表由消费带来的"乐趣",在经济 学中称为由消费C产生的效用函数.如果假定切n}为独立同分布,则{2n}正是与前面类似的模型但 是,用独立同分布的随机变量来描述股票的误差较大.如果用 black- Scholes模型的离散采样描述股票,虽 然较为合理,但是这会使模型变得复杂 (3)存储问题讨论时刻n时商店中某种货品的存储量5n设进货量为an,假定市场需求为独 立同分布的随机变量序列Tn·又设商店对此货品划定了最大容许库存量C.那么,状态空间 S=[-∞,C](在n<0时表示缺货),在状态(库存)为x时的动作集为A2=[O,c-x],而 5n+I=5n+a-n 此时报酬函数依赖于市场需求.假定单个货品的卖价为s,进货价为d,存储消耗价为h,那么 时刻n的报酬为 g m,a,, n)=s(min( 5n+a,, n)-da -h(+a,) 由此可以考虑最大化报酬. [注8]还可以考虑时间连续的情形,这就是可控 Markov过程.这类问题较为复杂,在概率论中 涉及最佳停时,而在求解最佳策略时,常用偏微分方程中的活动边界理论或变分不等式 48448 A [0, x] x = . 在这模型中 , 相应于转移矩阵 P ( ) ( ( ), ) ij Ai a = p a a Î 的是转移核 p(x, y; a) (a Î Ax). 如果采用策略 f ( , ( )) n n n n = f a = f x , 则在时刻 m 的 平均累计报酬为 ( , 0 J x f ) [ ( ( ))] 0 0 n n m n x = E å x - f x = , 其中 0 0 x = x (也可以是随机的), f x x 0 £ n ( ) £ . (2) 最佳投资组合 假定只有两种证券, 无风险的证券(例如存银行, 其利率为r )及有风险的 股票. 设财产 n x 中投资于股票的比例为 ,(0 £ £ 1) an an , 且以数量 n c 消费. 此时状态空间为 S = [0,¥) ,当状态确定为 x 时的动作集为 A [0,1] [0, x] x = ´ , 即 a = (a,c),(0 £ a £ 1,0 £ c £ x) . 于是状态发展为 [(1 )(1 ) ]( ) n 1 n n n n n = + r - + - c + x a a h x , 其中hn 是股票的价值.典型的报酬函数是 g( x,(a,c)) = u(c) , 它代表由消费带来的 ”乐趣”, 在经济 学中称为由消费 c 产生的效用函数. 如果假定{ } hn 为独立同分布, 则{ }n x 正是与前面类似的模型. 但 是, 用独立同分布的随机变量来描述股票的误差较大.如果用 Black-Scholes 模型的离散采样描述股票, 虽 然较为合理, 但是这会使模型变得复杂. (3) 存储问题 讨论时刻 n 时商店中某种货品的存储量 n x .设进货量为 an ,假定市场需求为独 立同分布的随机变量序列hn .又设商店对此货品划定了最大容许库存量 c .那 么,状态空间 S = [-¥, c] (在x n < 0 时表示缺货), 在状态(库存)为 x 时的动作集为 A [0, c x] x = - , 而 n n an hn x +1 = x + - . 此时报酬函数依赖于市场需求. 假定单个货品的卖价为 s , 进货价为 d , 存储消耗价为h , 那么 时刻n 的报酬为 ( , , ) (min( , ) ( ) n n n n n an n dan h n an g x a h = s x + h - - x + . 由此可以考虑最大化报酬. [注8] 还可以考虑时间连续的情形, 这就是可控 Markov 过程. 这类问题较为复杂, 在概率论中 涉及最佳停时, 而在求解最佳策略时, 常用偏微分方程中的活动边界理论或变分不等式.
<<向上翻页
©2008-现在 cucdc.com 高等教育资讯网 版权所有