正在加载图片...
Updating Q 100 10 R R 81 81 righr initial state: S, next state: s Q(s1, aright)< r+y max Q(s2, a) 0+0.9max{63,81,100} 90 notice if rewards non-negative, then (√s,a,m)qn+1(s,a)≥qn(s,a) an Qn(s,a)≤Q(s,a)
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有