正在加载图片...
414 工程科学学报,第44卷,第3期 A+D(x(k)-AO(x(k),最终可以得到. Jo(x()≥min{U(r(k),(ax(s》+ (x(sj)) A(i+D(x(k))-A(i(x(k))=A(x(k+i)) (14) Jo(x(k+1)》 (20) 即有 反之,根据式(11)和定理2,有下式成立 A+(x(K)=∑AD(xk+》 (15) Ji+(x(k)≤U(x(k),μ(x(s)+ =0 @(x(k+1)》≤ 考虑到(x(s》的容许性.可知对于任意的迭代 U(x(k),μ(x(s)+ 指标i,都有A+(x()≤了成立.由于式(11)中的迭 Jo(x(k+1),i∈N (21) 代代价函数+(x()包含了最小化运算,可以进 当i→o时,可得对于任意的μ((s》,都有 一步得到Ji(x(k)≤A+(x(k)≤.于是,考虑到 Jo(x(k)≤U(x(k),μ(r(s)+ 代价函数的非负性,可以得到0≤J@(x()≤了,i∈N. o(x(k+1) (22) 证毕 于是,可得 定理2迭代代价函数序列(⑨是非减的,即 Jo(x(k)≤min{U(x(k),μ(ar(s》+ μ(r(s) Jo(x(k)≤Ji+1(x(),i∈N. J(x(k+1)》} (23) 证明.为了方便起见,定义一个新的序列 综合式(20)和(23),最终得到 {B且初始值BO()=0.该序列中的元素更新方式 J(x(k))=min (U(x(k).I(x(sj)))+ 如下: (x(sj)) B(i+D(x(k))=U(x(k).u+D(x(sj)+ Jo(x(k+1)》 (24) B(i(x(k+1)) 比较式(7)和(24),可以得到迭代序列{J⊙的 (16) 极限,即J),正是代价函数的最优值.因此,有 利用数学归纳法,首先因为J(x(k)-BO(x()= J0(x(k)→Jo(x(k)=J产(x(k)成立.同理,当i→o U(ax(k,o(x(s》≥0,可以得到不等式Bo(x(》≤ 时,也有(x(s》→(x(s》成立,这可以看做一个 J(x(k).然后,假设Bi-D(x)≤(x()对于任意 推论 状态向量都成立且i=2,3,,注意到式(12)和由 2.2基于神经网络的HDP技术实现 (16)推得的表达式 在实现迭代自适应评判算法时,需要建立两 B(x(k))=U(x(k).u(x(sj))+ 个神经网络,即评判网络和执行网络,分别用于输 Bi-I(x(k+1)》 (17) 出近似代价函数和近似控制律 则有 评判网络输出迭代代价函数的近似值,即 B(D(x(k))-Ji+D(x(k))= ji+D(x(k))=+DT(v+DTx(k)) (25) Bi-(x(k+1)-J0(x(k+1)≤0 (18) 结合式(12),训练误差准则为 因此,可以得到对于任意i∈N,都有BO(x(k)≤ =+x-+cxk)2 E+(k)= (26) J+(x()成立,这样就完成了数学归纳证明 考虑到式(I1)中代价函数(x()的导出方 这里涉及的权重矩阵更新方式为 式,则有JO(x(k)≤B(x(k).因此,最终得到不等式 wl+1)-w+(0=-nc (aED(k aogd (27a) J(x(k)》≤BO(x()≤Ji+I)(x().证毕 根据定理1和定理2,迭代代价函数序列 y+0+1)-y*(0=-n (ED(k) (27b) (J0是收敛的.令当i→o时的迭代代价函数为J) m+0 考虑式(11)且根据定理2的结论,则有 式中,>0是评判网络的学习率,1是内循环的迭 J(x()≥Ji+I(x(k)= 代指标.其中,w+(0和v+(0是权重矩阵的第次 min{U(x(k),μ(x(si)》+ 迭代值. 4(xrsj》 J(x(k+1)),iEN 执行网络输出迭代控制函数的近似值,即 (19) 当i→o时,进一步有 0xs》=wTσ(9Tx(s) (28)A (i+1)(x(k))− A (i) (x(k)), 最终可以得到. A (i+1)(x(k))− A (i) (x(k)) = A (1)(x(k+i)) (14) 即有 A (i+1)(x(k)) = ∑ i h¯=0 A (1)(x(k+h¯)) (15) ζ(x(sj)) i A (i+1)(x(k)) ⩽ J J (i+1)(x(k)) J (i+1)(x(k)) ⩽ A (i+1)(x(k)) ⩽ J 0 ⩽ J (i) (x(k)) ⩽ J i ∈ N 考虑到 的容许性. 可知对于任意的迭代 指标 , 都有 成立. 由于式 (11) 中的迭 代代价函数 包含了最小化运算, 可以进 一步得到 . 于是, 考虑到 代价函数的非负性, 可以得到 , . 证毕. {J (i) } J (i) (x(k)) ⩽ J (i+1)(x(k)) i ∈ N 定理 2 迭代代价函数序列 是非减的, 即 , . {B (i) } B (0)(·) = 0 证 明 . 为了方便起见 , 定义一个新的序列 且初始值 . 该序列中的元素更新方式 如下: B (i+1)(x(k)) = U ( x(k),µ (i+1)(x(sj))) + B (i) (x(k+1)) (16) J (1)(x(k))− B (0)(x(k)) = U(x(k),µ (0)(x(sj)) ⩾ 0 B (0)(x(k)) ⩽ J (1)(x(k)) B (i−1)(x(k)) ⩽ J (i) (x(k)) i = 2,3,··· 利用数学归纳法,首先因为 ,  可 以 得 到 不 等 式 . 然后, 假设 对于任意 状态向量都成立且 ,注意到式 (12) 和由 (16) 推得的表达式 B (i) (x(k)) = U(x(k),µ (i) (x(sj)))+ B (i−1)(x(k+1)) (17) 则有 B (i) (x(k))− J (i+1)(x(k)) = B (i−1)(x(k+1))− J (i) (x(k+1)) ⩽ 0 (18) i ∈ N B (i) (x(k)) ⩽ J (i+1)(x(k)) 因此, 可以得到对于任意 , 都有 成立, 这样就完成了数学归纳证明. J (i) (x(k)) J (i) (x(k)) ⩽ B (i) (x(k)) J (i) (x(k)) ⩽ B (i) (x(k)) ⩽ J (i+1)(x(k)) 考虑到式 (11) 中代价函数 的导出方 式, 则有 . 因此, 最终得到不等式 . 证毕. {J (i) } i → ∞ J (∞) 根据定 理 1 和 定 理 2, 迭代代价函数序列 是收敛的. 令当 时的迭代代价函数为 . 考虑式 (11) 且根据定理 2 的结论, 则有 J (∞) (x(k)) ⩾ J (i+1)(x(k)) = min µ(x(sj )) {U(x(k),µ(x(sj)))+ J (i) (x(k+1))}, i ∈ N (19) 当 i → ∞时, 进一步有 J (∞) (x(k)) ⩾ min µ(x(sj )) {U(x(k),µ(x(sj)))+ J (∞) (x(k+1))} (20) 反之, 根据式 (11) 和定理 2, 有下式成立: J (i+1)(x(k)) ⩽ U(x(k),µ(x(sj)))+ J (i) (x(k+1)) ⩽ U(x(k),µ(x(sj)))+ J (∞) (x(k+1)), i ∈ N (21) 当 i → ∞时, 可得对于任意的 µ(x(sj)), 都有 J (∞) (x(k)) ⩽ U(x(k),µ(x(sj)))+ J (∞) (x(k+1)) (22) 于是, 可得 J (∞) (x(k)) ⩽ min µ(x(sj )) {U(x(k),µ(x(sj)))+ J (∞) (x(k+1))} (23) 综合式 (20) 和 (23),最终得到 J (∞) (x(k)) = min µ(x(sj )) {U(x(k),µ(x(sj)))+ J (∞) (x(k+1))} (24) {J (i) } J (∞) J (i) (x(k)) → J (∞) (x(k)) = J ∗ (x(k)) i → ∞ µ (i) (x(sj)) → µ ∗ (x(sj)) 比较式 (7) 和 (24), 可以得到迭代序列 的 极限, 即 , 正是代价函数的最优值. 因此, 有 成立. 同理, 当 时, 也有 成立, 这可以看做一个 推论. 2.2    基于神经网络的 HDP 技术实现 在实现迭代自适应评判算法时, 需要建立两 个神经网络, 即评判网络和执行网络, 分别用于输 出近似代价函数和近似控制律. 评判网络输出迭代代价函数的近似值, 即 Jˆ (i+1)(x(k)) = ω (i+1)T c σ ( ν (i+1)T c x(k) ) (25) 结合式 (12), 训练误差准则为 E (i+1) c (k) = 1 2 [ Jˆ (i+1)(x(k))− J (i+1)(x(k))]2 (26) 这里涉及的权重矩阵更新方式为 ω (i+1) c (l+1)−ω (i+1) c (l) = −ηc   ∂E (i+1) c (k) ∂ω (i+1) c (l)   (27a) ν (i+1) c (l+1)−ν (i+1) c (l) = −ηc   ∂E (i+1) c (k) ∂ν (i+1) c (l)   (27b) ηc > 0 l ω (i+1) c (l) ν (i+1) c (l) l 式中, 是评判网络的学习率, 是内循环的迭 代指标. 其中, 和 是权重矩阵的第 次 迭代值. 执行网络输出迭代控制函数的近似值, 即 µˆ (i) (x(sj)) = ω (i)T a σ ( ν (i)T a x(sj) ) (28) · 414 · 工程科学学报,第 44 卷,第 3 期
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有