正在加载图片...
动态规划算法、蒙特卡罗算法、时间差分学习算法 2.基本概念和知识点 策略预测、策略控制、策略迭代、值迭代、回合、勘探俐用、同策略/保策略、 重要性抽样、覆盖性假设、前向视觉/后向视觉 3.问题与应用(能力要求) 掌握从数据中拟合MDPs模型的方法。具备将MDPs模型解决实际的半监督学 习问题。 第三节深度强化学习算法 1.主要内容 基于深度网络的状态价值和动作价值函数近似、基于深度网络的策略梯度法。 2.基本概念和知识点 3.问题与应用(能力要求) 具备融合深度技术和强化学习技术处理实际中存在的高级机器智能化问题,初步 具备为高新企业提供智能化解决方案提供决策咨询,甚至技术支持的能力。 第四节深度强化学习的应用 1.主要内容 围棋AlphaGo、从AlphaGo到AlphaGoZero、基于像素的乒乓球游戏。 2.基本概念和知识点 围棋博奕树、蒙特卡罗树搜索、策略网络、价值网络 3.问题与应用(能力要求) 具备融合深度技术和强化学习技术处理实际中存在的高级机器智能化问题,初步 具备为高新企业提供智能化解决方案提供决策咨询,甚至技术支持的能力。 (三)思考与实践 运行至少一个MDPs模型,并思考MDPs模型的优缺点。 (四)教学方法与手段 课堂讲授,课后编程 1010 动态规划算法、蒙特卡罗算法、时间差分学习算法 2.基本概念和知识点 策略预测、策略控制、策略迭代、值迭代、回合、勘探/利用、同策略/异策略、 重要性抽样、覆盖性假设、前向视觉/后向视觉 3.问题与应用(能力要求) 掌握从数据中拟合 MDPs 模型的方法。具备将 MDPs 模型解决实际的半监督学 习问题。 第三节 深度强化学习算法 1.主要内容 基于深度网络的状态价值和动作价值函数近似、基于深度网络的策略梯度法。 2.基本概念和知识点 3.问题与应用(能力要求) 具备融合深度技术和强化学习技术处理实际中存在的高级机器智能化问题,初步 具备为高新企业提供智能化解决方案提供决策咨询,甚至技术支持的能力。 第四节 深度强化学习的应用 1.主要内容 围棋 AlphaGo、从 AlphaGo 到 AlphaGo Zero、基于像素的乒乓球游戏。 2. 基本概念和知识点 围棋博奕树、蒙特卡罗树搜索、策略网络、价值网络 3.问题与应用(能力要求) 具备融合深度技术和强化学习技术处理实际中存在的高级机器智能化问题,初步 具备为高新企业提供智能化解决方案提供决策咨询,甚至技术支持的能力。 (三)思考与实践 运行至少一个 MDPs 模型,并思考 MDPs 模型的优缺点。 (四)教学方法与手段 课堂讲授,课后编程
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有