点击下载:《机器学习》演示文稿(15)
正在加载图片...
1 r(s, a)(immediate reward) values. 100 90 100 81 81 9 0 10o Q(s, a) values V*(s values One optimal policy
<<向上翻页
点击下载:《机器学习》演示文稿(15)
©2008-现在 cucdc.com 高等教育资讯网 版权所有