1 r(s, a)(immediate reward) values. 1_中国高校课件下载中心

正在加载图片...

1 r(s, a)(immediate reward) values. 100 90 100 81 81 9 0 10o Q(s, a) values V*(s values One optimal policy