A (i+1)(x(k))− A (i) (x(k)), 最终可_中国高校课件下载中心

正在加载图片...

414 工程科学学报，第44卷，第3期 A+D(x(k)-AO(x(k),最终可以得到. Jo(x()≥min{U(r(k),(ax(s》+ (x(sj)) A(i+D(x(k))-A(i(x(k))=A(x(k+i)) (14) Jo(x(k+1)》 (20) 即有反之，根据式(11)和定理2，有下式成立 A+(x(K)=∑AD(xk+》 (15) Ji+(x(k)≤U(x(k),μ(x(s)+ =0 @(x(k+1)》≤ 考虑到(x(s》的容许性.可知对于任意的迭代 U(x(k),μ(x(s)+ 指标i,都有A+(x()≤了成立.由于式(11)中的迭 Jo(x(k+1),i∈N (21) 代代价函数+(x()包含了最小化运算，可以进当i→o时，可得对于任意的μ((s》,都有一步得到Ji(x(k)≤A+(x(k)≤.于是，考虑到 Jo(x(k)≤U(x(k),μ(r(s)+ 代价函数的非负性，可以得到0≤J@(x()≤了，i∈N. o(x(k+1) (22) 证毕于是，可得定理2迭代代价函数序列（⑨是非减的，即 Jo(x(k)≤min{U(x(k),μ(ar(s》+ μ(r(s) Jo(x(k)≤Ji+1(x(),i∈N. J(x(k+1)》} (23) 证明.为了方便起见，定义一个新的序列综合式(20)和(23)，最终得到 {B且初始值BO()=0.该序列中的元素更新方式 J(x(k))=min (U(x(k).I(x(sj)))+ 如下： (x(sj)) B(i+D(x(k))=U(x(k).u+D(x(sj)+ Jo(x(k+1)》 (24) B(i(x(k+1)) 比较式(7)和(24)，可以得到迭代序列{J⊙的 (16) 极限，即J),正是代价函数的最优值.因此，有利用数学归纳法，首先因为J(x(k)-BO(x()= J0(x(k)→Jo(x(k)=J产(x(k)成立.同理，当i→o U(ax(k,o(x(s》≥0，可以得到不等式Bo(x(》≤ 时，也有(x(s》→(x(s》成立，这可以看做一个 J(x(k).然后，假设Bi-D(x)≤(x()对于任意推论状态向量都成立且i=2,3,,注意到式(12)和由 2.2基于神经网络的HDP技术实现 (16)推得的表达式在实现迭代自适应评判算法时，需要建立两 B(x(k))=U(x(k).u(x(sj))+ 个神经网络，即评判网络和执行网络，分别用于输 Bi-I(x(k+1)》 (17) 出近似代价函数和近似控制律则有评判网络输出迭代代价函数的近似值，即 B(D(x(k))-Ji+D(x(k))= ji+D(x(k))=+DT(v+DTx(k)) (25) Bi-(x(k+1)-J0(x(k+1)≤0 (18) 结合式(12)，训练误差准则为因此，可以得到对于任意i∈N,都有BO(x(k)≤ =+x-+cxk)2 E+(k)= (26) J+(x()成立，这样就完成了数学归纳证明考虑到式(I1)中代价函数(x()的导出方这里涉及的权重矩阵更新方式为式，则有JO(x(k)≤B(x(k).因此，最终得到不等式 wl+1)-w+(0=-nc (aED(k aogd (27a) J(x(k)》≤BO(x()≤Ji+I)(x().证毕根据定理1和定理2，迭代代价函数序列 y+0+1)-y*(0=-n (ED(k) (27b) (J0是收敛的.令当i→o时的迭代代价函数为J) m+0 考虑式(11)且根据定理2的结论，则有式中，>0是评判网络的学习率，1是内循环的迭 J(x()≥Ji+I(x(k)= 代指标.其中，w+(0和v+(0是权重矩阵的第次 min{U(x(k),μ(x(si)》+ 迭代值. 4(xrsj》 J(x(k+1)),iEN 执行网络输出迭代控制函数的近似值，即 (19) 当i→o时，进一步有 0xs》=wTσ(9Tx(s) (28)A (i+1)(x(k))− A (i) (x(k)), 最终可以得到. A (i+1)(x(k))− A (i) (x(k)) = A (1)(x(k+i)) （14）即有 A (i+1)(x(k)) = ∑ i h¯=0 A (1)(x(k+h¯)) （15） ζ(x(sj)) i A (i+1)(x(k)) ⩽ J J (i+1)(x(k)) J (i+1)(x(k)) ⩽ A (i+1)(x(k)) ⩽ J 0 ⩽ J (i) (x(k)) ⩽ J i ∈ N 考虑到的容许性. 可知对于任意的迭代指标 , 都有成立. 由于式 (11) 中的迭代代价函数包含了最小化运算, 可以进一步得到 . 于是, 考虑到代价函数的非负性, 可以得到 , . 证毕. {J (i) } J (i) (x(k)) ⩽ J (i+1)(x(k)) i ∈ N 定理 2 迭代代价函数序列是非减的, 即 , . {B (i) } B (0)(·) = 0 证明 . 为了方便起见 , 定义一个新的序列且初始值 . 该序列中的元素更新方式如下: B (i+1)(x(k)) = U ( x(k),µ (i+1)(x(sj))) + B (i) (x(k+1)) （16） J (1)(x(k))− B (0)(x(k)) = U(x(k),µ (0)(x(sj)) ⩾ 0 B (0)(x(k)) ⩽ J (1)(x(k)) B (i−1)(x(k)) ⩽ J (i) (x(k)) i = 2,3,··· 利用数学归纳法，首先因为 , 可以得到不等式 . 然后, 假设对于任意状态向量都成立且，注意到式 (12) 和由 (16) 推得的表达式 B (i) (x(k)) = U(x(k),µ (i) (x(sj)))+ B (i−1)(x(k+1)) （17）则有 B (i) (x(k))− J (i+1)(x(k)) = B (i−1)(x(k+1))− J (i) (x(k+1)) ⩽ 0 （18） i ∈ N B (i) (x(k)) ⩽ J (i+1)(x(k)) 因此, 可以得到对于任意 , 都有成立, 这样就完成了数学归纳证明. J (i) (x(k)) J (i) (x(k)) ⩽ B (i) (x(k)) J (i) (x(k)) ⩽ B (i) (x(k)) ⩽ J (i+1)(x(k)) 考虑到式 (11) 中代价函数的导出方式, 则有 . 因此, 最终得到不等式 . 证毕. {J (i) } i → ∞ J (∞) 根据定理 1 和定理 2, 迭代代价函数序列是收敛的. 令当时的迭代代价函数为 . 考虑式 (11) 且根据定理 2 的结论, 则有 J (∞) (x(k)) ⩾ J (i+1)(x(k)) = min µ(x(sj )) {U(x(k),µ(x(sj)))+ J (i) (x(k+1))}, i ∈ N （19）当 i → ∞时, 进一步有 J (∞) (x(k)) ⩾ min µ(x(sj )) {U(x(k),µ(x(sj)))+ J (∞) (x(k+1))} （20）反之, 根据式 (11) 和定理 2, 有下式成立: J (i+1)(x(k)) ⩽ U(x(k),µ(x(sj)))+ J (i) (x(k+1)) ⩽ U(x(k),µ(x(sj)))+ J (∞) (x(k+1)), i ∈ N （21）当 i → ∞时, 可得对于任意的 µ(x(sj)), 都有 J (∞) (x(k)) ⩽ U(x(k),µ(x(sj)))+ J (∞) (x(k+1)) （22）于是, 可得 J (∞) (x(k)) ⩽ min µ(x(sj )) {U(x(k),µ(x(sj)))+ J (∞) (x(k+1))} （23）综合式 (20) 和 (23)，最终得到 J (∞) (x(k)) = min µ(x(sj )) {U(x(k),µ(x(sj)))+ J (∞) (x(k+1))} （24） {J (i) } J (∞) J (i) (x(k)) → J (∞) (x(k)) = J ∗ (x(k)) i → ∞ µ (i) (x(sj)) → µ ∗ (x(sj)) 比较式 (7) 和 (24), 可以得到迭代序列的极限, 即 , 正是代价函数的最优值. 因此, 有成立. 同理, 当时, 也有成立, 这可以看做一个推论. 2.2 基于神经网络的 HDP 技术实现在实现迭代自适应评判算法时, 需要建立两个神经网络, 即评判网络和执行网络, 分别用于输出近似代价函数和近似控制律. 评判网络输出迭代代价函数的近似值, 即 Jˆ (i+1)(x(k)) = ω (i+1)T c σ ( ν (i+1)T c x(k) ) （25）结合式 (12), 训练误差准则为 E (i+1) c (k) = 1 2 [ Jˆ (i+1)(x(k))− J (i+1)(x(k))]2 （26）这里涉及的权重矩阵更新方式为 ω (i+1) c (l+1)−ω (i+1) c (l) = −ηc   ∂E (i+1) c (k) ∂ω (i+1) c (l)   （27a） ν (i+1) c (l+1)−ν (i+1) c (l) = −ηc   ∂E (i+1) c (k) ∂ν (i+1) c (l)   （27b） ηc > 0 l ω (i+1) c (l) ν (i+1) c (l) l 式中, 是评判网络的学习率, 是内循环的迭代指标. 其中, 和是权重矩阵的第次迭代值. 执行网络输出迭代控制函数的近似值, 即 µˆ (i) (x(sj)) = ω (i)T a σ ( ν (i)T a x(sj) ) （28） · 414 · 工程科学学报，第 44 卷，第 3 期

<<向上翻页向下翻页>>

点击下载：《工程科学学报》：一类离散动态系统基于事件的迭代神经控制