机器学习 第13章增强学习 2003.12.18 机器学习-增强学习作者: Mitchell译者:曾华军等讲者:陶晓鹏
2003.12.18 机器学习-增强学习作者:Mitchell 译者:曾华军等讲者:陶晓鹏 1 机器学习 第13章 增强学习
概述 ·增强学习要解决的问题:一个能够感知环境的 自治 agent,怎样通过学习选择能达到其目标的 最优动作 当 agent在其环境中做出每个动作,施教者提供 奖励或惩罚信息, agent从这个非直接的回报中 学习,以便后续动作产生最大的累积回报 本章介绍一个称为Q学习的算法,它可从有延 迟的回报中获取最优控制策略 ·增强学习与动态规划算法有关,后者常被用于 解决最优化问题 2003.12.18 机器学习-增强学习作者: Mitchell译者:曾华军等讲者:陶晓鹏 2
2003.12.18 机器学习-增强学习作者:Mitchell 译者:曾华军等讲者:陶晓鹏 2 概述 • 增强学习要解决的问题:一个能够感知环境的 自治agent,怎样通过学习选择能达到其目标的 最优动作 • 当agent在其环境中做出每个动作,施教者提供 奖励或惩罚信息,agent从这个非直接的回报中 学习,以便后续动作产生最大的累积回报 • 本章介绍一个称为Q学习的算法,它可从有延 迟的回报中获取最优控制策略 • 增强学习与动态规划算法有关,后者常被用于 解决最优化问题
简介 考虑一个可学习的机器人,它可以观察环境的状态并 能做出一组动作改变这些状态,学习的任务是获得 个控制策略,以选择能达到目的的行为 本章关心的是:机器人怎样在环境中做实验并根据回 报函数成功学习到控制策略 图13-1,学习控制策略以使累积回报最大化这个问题 很普遍,它是一个通过学习来控制序列过程的问题, 比如 生产优化问题:选择一系列生产动作,使生产出的货物减去 其成本达到最大化 出租车调度:选择出租车运载乘客,其中回报函数为乘客等 待的时间和车队的整体油耗 2003.12.18 机器学习-增强学习作者: Mitchell译者:曾华军等讲者:陶晓鹏
2003.12.18 机器学习-增强学习作者:Mitchell 译者:曾华军等讲者:陶晓鹏 3 简介 • 考虑一个可学习的机器人,它可以观察环境的状态并 能做出一组动作改变这些状态,学习的任务是获得一 个控制策略,以选择能达到目的的行为 • 本章关心的是:机器人怎样在环境中做实验并根据回 报函数成功学习到控制策略 • 图13-1,学习控制策略以使累积回报最大化这个问题 很普遍,它是一个通过学习来控制序列过程的问题, 比如 – 生产优化问题:选择一系列生产动作,使生产出的货物减去 其成本达到最大化 – 出租车调度:选择出租车运载乘客,其中回报函数为乘客等 待的时间和车队的整体油耗
简介(2) 在第11章,已经接触到了通过学习来控制序列 过程的问题,用基于解释的方法学习规则,以 控制问题求解中的搜索 本章考虑的问题不同于第11章,因为考虑的问 题中,行为可能有非确定性的输出,而且学习 器缺少描述其行为输出的领域理论 学习控制策略类似前面讨论过的函数逼近问题, 这里待学习的目标函数是控制策略π:S→>A,它 在给定当前状态S集合中的s时,从集合A中输 出一个合适的动作a 2003.12.18 机器学习-增强学习作者: Mitchell译者:曾华军等讲者:陶晓鹏
2003.12.18 机器学习-增强学习作者:Mitchell 译者:曾华军等讲者:陶晓鹏 4 简介(2) • 在第11章,已经接触到了通过学习来控制序列 过程的问题,用基于解释的方法学习规则,以 控制问题求解中的搜索 • 本章考虑的问题不同于第11章,因为考虑的问 题中,行为可能有非确定性的输出,而且学习 器缺少描述其行为输出的领域理论 • 学习控制策略类似前面讨论过的函数逼近问题, 这里待学习的目标函数是控制策略: S→A,它 在给定当前状态S集合中的s时,从集合A中输 出一个合适的动作a
简介(3) 增强学习问题与普通函数逼近问题有几个重要的不同 延迟回报:施教者只在机器人执行其序列动作时提供一个序 列立即回报值,因此面临一个时间信用分配的问题:确定最 终回报的生成应归功于序列中哪一个动作 探索:学习器面临一个权衡过程,是选择探索未知的状态和 动作,还是选择利用它已经学习过、会产生高回报的状态和 动作 部分可观察状态:机器人的传感器只能感知环境的部分状态 终生学习:使得有可能使用先前获得的经验或知识在学习新 任务时减小样本复杂度 2003.12.18 机器学习-增强学习作者: Mitchell译者:曾华军等讲者:陶晓鹏
2003.12.18 机器学习-增强学习作者:Mitchell 译者:曾华军等讲者:陶晓鹏 5 简介(3) • 增强学习问题与普通函数逼近问题有几个重要的不同: – 延迟回报:施教者只在机器人执行其序列动作时提供一个序 列立即回报值,因此面临一个时间信用分配的问题:确定最 终回报的生成应归功于序列中哪一个动作 – 探索:学习器面临一个权衡过程,是选择探索未知的状态和 动作,还是选择利用它已经学习过、会产生高回报的状态和 动作 – 部分可观察状态:机器人的传感器只能感知环境的部分状态 – 终生学习:使得有可能使用先前获得的经验或知识在学习新 任务时减小样本复杂度
学习任务 本节我们把学习序列控制策略的问题更 精确地形式化,有多种可选择的形式化 方法,比如 柷器人的行为是确定性或非确定性的 机器人可以预测或不能预测每一个行为所产 生的状态 机器人由外部专家通过示例最优动作序列来 训练或必须通过执行自己选择的动作来训练 2003.12.18 机器学习-增强学习作者: Mitchell译者:曾华军等讲者:陶晓鹏
2003.12.18 机器学习-增强学习作者:Mitchell 译者:曾华军等讲者:陶晓鹏 6 学习任务 • 本节我们把学习序列控制策略的问题更 精确地形式化,有多种可选择的形式化 方法,比如 – 机器人的行为是确定性或非确定性的 – 机器人可以预测或不能预测每一个行为所产 生的状态 – 机器人由外部专家通过示例最优动作序列来 训练或必须通过执行自己选择的动作来训练 –
学习任务(2) 我们基于马尔科夫决策过程定义学习控制策略问题的 般形式 设机器人可感知到其环境的不同状态集合S,可执行的动作集 合A 在每个离散时间步t,机器人感知到当前状态st,选择当前动作 at,环境给出回报rt=(s,at),并产生后继状态st1=8〈s,at 注意:回报函数和后继状态函数只依赖于当前状态和动作, 这里先考虑它们为确定性的情形 定义:策略π从初始状态st获得的累积值为 V"(s,)=r+M4+yra+ 2003.12.18 机器学习-增强学习作者: Mitchell译者:曾华军等讲者:陶晓鹏
2003.12.18 机器学习-增强学习作者:Mitchell 译者:曾华军等讲者:陶晓鹏 7 学习任务(2) • 我们基于马尔科夫决策过程定义学习控制策略问题的 一般形式 – 设机器人可感知到其环境的不同状态集合S,可执行的动作集 合A – 在每个离散时间步t,机器人感知到当前状态st,选择当前动作 at,环境给出回报rt=r(st,at),并产生后继状态st+1=(st,at) – 注意:回报函数和后继状态函数只依赖于当前状态和动作, 这里先考虑它们为确定性的情形 • 定义:策略从初始状态st获得的累积值为 = + + + = = + + + 0 2 2 1 ( ) ... i t i i t t t t r V s r r r
学习任务(2) 上面定义的量又称为折算累积回报,还有其他 些整体回报的定义:有限水平回报、平均回 报 定义:学习控制策略的任务是,要求机器人学 习到一个策略π,使得对于所有状态s,V叫(s)为 最大,表示为 arg max V(s),(Vs) 最优策略的值函数c记作V*(s) 图13-2,对上面定义的示例 2003.12.18 机器学习-增强学习作者: Mitchell译者:曾华军等讲者:陶晓鹏
2003.12.18 机器学习-增强学习作者:Mitchell 译者:曾华军等讲者:陶晓鹏 8 学习任务(2) • 上面定义的量又称为折算累积回报,还有其他 一些整体回报的定义:有限水平回报、平均回 报 • 定义:学习控制策略的任务是,要求机器人学 习到一个策略,使得对于所有状态s,V (s)为 最大,表示为 最优策略的值函数 记作V* (s) • 图13-2,对上面定义的示例 arg max ( ),( ) * = V s s ( ) * V s
Q学习 机器人在仼意的环境中直接学习最优策略很难,因为 没有形式为的训练样例 川练数据是立即回报函数,容易学习一个定义在状态 和动作上的数值评估函数,然后实现最优策略 很明显,可以将V作为待学习的评估函数,由于状态s 下的最优动作是使立即回报r(sa)加上立即后继状态的 V*值最大的动作a,即 TI(s)=arg max[r(s, a)+y((s,a)) 因此,如果具有回报函数和状态转移函数的完美知识, 那么就可以计算出任意状态下的最优动作 但在实际问题中,无法知道回报函数和状态转移函数 的完美知识 2003.12.18 机器学习-增强学习作者: Mitchell译者:曾华军等讲者:陶晓鹏
2003.12.18 机器学习-增强学习作者:Mitchell 译者:曾华军等讲者:陶晓鹏 9 Q学习 • 机器人在任意的环境中直接学习最优策略很难,因为 没有形式为的训练样例 • 训练数据是立即回报函数,容易学习一个定义在状态 和动作上的数值评估函数,然后实现最优策略 • 很明显,可以将V*作为待学习的评估函数,由于状态s 下的最优动作是使立即回报r(s,a)加上立即后继状态的 V*值最大的动作a,即 因此,如果具有回报函数和状态转移函数的完美知识, 那么就可以计算出任意状态下的最优动作 • 但在实际问题中,无法知道回报函数和状态转移函数 的完美知识 ( ) arg max[ ( , ) ( ( , ))] * * s r s a V s a a = +
Q函数 对于无法知道回报函数和状态转移函数 完美知识的情形,我们使用评估函数Q ·评估函数Q的定义: Q(,a)=r(s,a)+y(o(,a) 式子13.3可以重写为: TI(s)=arg max O(s, a) 因此只需对当前状态的Q值做出反应,就 可以选择到全局最优化的动作序列 2003.12.18 机器学习-增强学习作者: Mitchell译者:曾华军等讲者:陶晓鹏
2003.12.18 机器学习-增强学习作者:Mitchell 译者:曾华军等讲者:陶晓鹏 10 Q函数 • 对于无法知道回报函数和状态转移函数 完美知识的情形,我们使用评估函数Q • 评估函数Q的定义: • 式子13.3可以重写为: • 因此只需对当前状态的Q值做出反应,就 可以选择到全局最优化的动作序列 ( , ) ( , ) ( ( , )) * Q s a = r s a +V s a ( ) arg max ( , ) * s Q s a a =