439 龚光鲁, 钱敏平著应用随机过程教程 – 与在算法和智能计算中的应

点击下载：《应用随机过程教程》教学资源（参考资料）与在算法和智能计算中的应用——第16章离散状态的Markov控制与决策过程简介

正在加载图片...

龚光鲁,钱敏平著应用随机过程教程一与在算法和智能计算中的应用清华大学出版社,2003 第16章离散状态的 Markov控制与决策过程简介 Controlled Markov Process, Markov Decision Process, MDP) 1例 1.1随机决策模型的简单例子定义16.1随机决策模型的对象是可以控制的随机系统,人们可以选取控制决策, 以改变发展过程的路径.在任意固定时刻,系统随机地处在S={1,2,…,N}中的某个状态, 而在策略取定为a的情况下系统的发展是按照一个随机矩阵P(a)作为转移概率阵而变化. 这就称为一个 Markov决策过程. 从下面的简单例子,可以得到一些直观的认识。例16.2设某个经营系统总处在"1","2″,"3″三种状态之一.假定在每个整值时刻可选择两种不同的动作之一:ao或aa,而在采取动作ao或aa2时,状态间的转移矩阵分别为 0 22 P(any) 0 假定开始时(即时间n=0时)该系统以相等的可能性处在这三个状态之一,即初始分布为又设处在状态i时,采取动作a1)能得到报酬为g(1a()=2,而处在状态i时, 333 采取动作a(2)能得到报酬为g(,a2)=1+·我们要在各个时刻,根据历史状况,有目的地选取动作a或a(2),使在时间区段0≤n≤m内得到的平均累积报酬最大.这里,动作是历史状况的函数.从时刻n的历史状况到采取的动作的对应(即函数),称为时刻n采取的策略.各个时刻采取的策略合起来,称为一个策略.我们要选取一个策略,使在时间区段 0≤n≤m内得到的平均累积报酬最大把在时刻n采取的动作记为an,那么它只能a(或a(2之一·于是转移矩阵 P(a)=(n(an)有确切的含义,这样,由初始分布Hn=(,2,3(2,1 及转移矩阵列{P(an)}决定了一个3个状态的非时齐的 Markov链{n:n≥0)}.5n代表系 439439 龚光鲁, 钱敏平著应用随机过程教程 – 与在算法和智能计算中的应用清华大学出版社, 2003 第16章离散状态的Markov控制与决策过程简介 (Controlled Markov Process, Markov Decision Process, MDP) 1 例 1. 1 随机决策模型的简单例子定义１６.１随机决策模型的对象是可以控制的随机系统, 人们可以选取控制决策, 以改变发展过程的路径. 在任意固定时刻, 系统随机地处在 S = {1,2,L,N}中的某个状态, 而在策略取定为 a 的情况下系统的发展是按照一个随机矩阵 P (a) 作为转移概率阵而变化. 这就称为一个 Markov 决策过程．从下面的简单例子，可以得到一些直观的认识。例１６．２设某个经营系统总处在"1","2","3"三种状态之一．假定在每个整值时刻可选择两种不同的动作之一：a（1）或a（2），而在采取动作a（1）或a（2）时，状态间的转移矩阵分别为 P( (1) a )= ÷ ÷ ÷ ÷ ÷ ÷ ø ö ç ç ç ç ç ç è æ 2 1 0 2 1 2 1 2 1 0 0 2 1 2 1 , P( (2) a )= ÷ ÷ ÷ ÷ ÷ ÷ ø ö ç ç ç ç ç ç è æ 2 1 2 1 0 0 2 1 2 1 2 1 0 2 1 . 假定开始时（即时间n = 0时）该系统以相等的可能性处在这三个状态之一 , 即初始分布为 ÷ ø ö ç è æ 3 1 , 3 1 , 3 1 . 又设处在状态i 时, 采取动作 (1) a 能得到报酬为 g(i, a ) 2i (1) = , 而处在状态i 时, 采取动作 (2) a 能得到报酬为 2 1 ( , ) 2 g i a(2) = i + . 我们要在各个时刻, 根据历史状况,有目的地选取动作 (1) a 或 (2) a ,使在时间区段0 £ n £ m 内得到的平均累积报酬最大．这里，动作是历史状况的函数．从时刻 n 的历史状况到采取的动作的对应（即函数），称为时刻 n 采取的策略．各个时刻采取的策略合起来，称为一个策略．我们要选取一个策略，使在时间区段 0 £ n £ m 内得到的平均累积报酬最大．把在时刻 n 采取的动作记为 an , 那么它只能 (1) a 或 (2) a 之一. 于是转移矩阵 P(an ) ij n i j N p a = , £ ( ( )) 有确切的含义. 这样, 由初始分布 m0 =( m 1 , m 2 , m 3 )=( 3 1 , 3 1 , 3 1 ) 及转移矩阵列{ P(an )}决定了一个 3 个状态的非时齐的 Markov 链{ : n ³ 0} n x ． n x 代表系

向下翻页>>

点击下载：《应用随机过程教程》教学资源（参考资料）与在算法和智能计算中的应用——第16章离散状态的Markov控制与决策过程简介