相关文档

中国科学技术大学:《人工智能基础》课程教学资源(课件讲稿)Lecture 14 Reinforcement Learning

背景 MDPs 强化学习问题 蒙特卡洛方法 (Monte Carlo Methods) 蒙特卡洛预测(Monte Carlo Prediction) 蒙特卡洛控制(Monte Carlo Control) 时序差分学习 (Temporal-Difference Learning) 时序差分预测(TD Prediction) 时序差分控制(TD Control) Sarsa:on-policy Q-learning : off-policy 策略梯度 (Policy Gradient) Monte-Carlo Policy Gradient Actor-Critic Policy Gradient 深度强化学习 Deep Q-Networks (DQN) Policy Gradients for Deep Reinforcement Learning
团购合买资源类别:文库,文档格式:PDF,文档页数:99,文件大小:3.33MB
点击进入文档下载页(PDF格式)
点击下载(PDF格式)