正在加载图片...
1 r(s, a)(immediate reward) values. 100 90 100 81 81 9 0 10o Q(s, a) values V*(s values One optimal policy
<<向上翻页
©2008-现在 cucdc.com 高等教育资讯网 版权所有