正在加载图片...
第5期 拓守恒,等:改进教与学优化算法的LQR控制器优化设计 ·603. 还是存在优化用时长、获得全局最优解成功率低等 在标准的TLB0算法中,“班级”是个体的集合, 问题1山,本文提出一种改进的教与学优化算法进 每个个体相当于一个学员,每个学员所学的某一科 行LQR控制器的优化。 目相当于一个决策变量。水平最高的学员被称为 “教师”。每个学员通过“教师”的“教”和向其他学 1 LQR控制算法 员“学习”来提高自身水平。 假设受控线性不变系统的状态方程模型为 1)“教”阶段。 在“教”阶段,班级中每个学员(j=1,2,… x()=Ax(t)+Bu(t) (1) NP)根据Xeer和班级中学员平均水平值Mean= y(t)=Cx(t)+Du(t) 式中:x(t)是状态向量,u(t)是控制向量,y(t)是 三:之间的差异性进行学习。教学过程如下: 输出向量,A是系数矩阵,B是输入矩阵,C是输出 Xm=Xld Difference 矩阵,D是传递矩阵。 Difference=T:·(X,eaha-Tf:·Mean) 定义控制系统的二次型性能泛函为 式中:X表示第i个学员学习前的值,X表示第i个 Jsx+ros+aR1出 (2) 学员学习后的值,TF:=round[1+rand(0,l)]是教学 因子,:∈U(0,1)是随机学习步长,表示学习速率。 式中:Q为状态变量的加权矩阵,是半正定矩阵;R 2)“学”阶段 为输入变量的加权矩阵,是正定矩阵。 在“学”阶段,学员X(i=1,2,…,NP)从班级 该系统最优控制的目标是寻求最优控制(t), 中随机选取一个学员”(=1,2,…,NP,j≠)作为 使得系统趋近于初始化状态,并使J取得最小值。 学习对象,X分析和比较自己和学员?之间的差 由线性二次型最优控制理论可知,如果要使得J最 异,然后进行学习。学习过程如下: 小,则控制向量应该为 Xaa+r:·(X'-),f)<fX) u(t)=RB'Px (3) X.= 式中:P为对称矩阵,该矩阵满足: X+r·(N-X),fX)<f) 式中,:=U(0,1)表示第i个学员的学习因子(学 P=-PA -AP PBR-BP-O (4) 习步长)。 考虑在稳态的情况下,系统状态逐渐趋近于0,可将 3)学习结果更新,学员在经过学习后要进行更 式(4)简化为Riccati代数方程: 新操作。更新方法如下: PA +A'P-PBRB'P+O=0 (5) IF is better than 显然,上述最优控制系统的性能指标主要取决于对 =he 称矩阵P,而P主要由矩阵A、B、Q和R确定。A和 End IF B是参数矩阵,因此,系统性能主要由矩阵Q和R 基本TLBO算法的流程如图1所示。 来决定。然而,Q和R怎样选取没有具体的求解方 法,常常依赖于设计者的主观经验进行实验调整,直 3改进的教与学优化算法 至获得相对可接受的满意解。 在标准的TLBO算法中,所有学员的的水平提 本文采用一种新型改进快速智能优化算法进行 高,完全依赖老师的“教”和学员之间的交流“学 LQR控制器的优化设计。通过汽车主动悬架作为 习”,从而使得学员在学习过程中对他人的过度依 被控对象,将提出的一种新的“教与学”优化算法应 赖。我们知道,每个人的学习主要是靠自身的努力 用于LQR控制器的设计中,并将结果与遗传算法、 和探索,个人的创新能力是最重要的19-0)。因此, 粒子群优化算法和标准的“教与学”优化算法在 为了发挥群体中每个学员的创新能力,本文提出一 LQR控制器优化中的性能进行比较。 种具有自我学习能力的教与学优化算法(motified 2教与学优化算法 teaching-learning-based optimization,MTLBO), 借鉴和声搜索算法思想进行个体的自我学习和自我 “教与学”优化(TLB0)算法[2-11是一种新型的 探索创新能力挖掘,用于加强每个个体的局部搜索 群体智能优化算法,通过模拟人类的学习过程: 能力,从而增强种群的全局最优解的求解能力。 “教”和“学”。通过两个阶段的学习,从而促进每个 3.1“教”(Teaching)学阶段的改进 个体的学习水平。 本文中对Mean进行改进,使的原来的Mean=还是存在优化用时长、获得全局最优解成功率低等 问题[10⁃11] ,本文提出一种改进的教与学优化算法进 行 LQR 控制器的优化。 1 LQR 控制算法 假设受控线性不变系统的状态方程模型为 x · (t) = Ax(t) + Bu(t) y(t) = Cx(t) + Du(t) { (1) 式中: x(t) 是状态向量, u(t) 是控制向量, y(t) 是 输出向量,A 是系数矩阵,B 是输入矩阵,C 是输出 矩阵,D 是传递矩阵。 定义控制系统的二次型性能泛函为 J = 1 2 x T Sx + 1 2 ∫ t f t0 x TQx + u T [ Ru] dt (2) 式中:Q 为状态变量的加权矩阵,是半正定矩阵;R 为输入变量的加权矩阵,是正定矩阵。 该系统最优控制的目标是寻求最优控制 u(t) , 使得系统趋近于初始化状态,并使 J 取得最小值。 由线性二次型最优控制理论可知,如果要使得 J 最 小,则控制向量应该为 u ∗ (t) = R ⁃1B TPx (3) 式中:P 为对称矩阵,该矩阵满足: P · = - PA - A TP + PBR -1B TP - Q (4) 考虑在稳态的情况下,系统状态逐渐趋近于 0,可将 式(4)简化为 Riccati 代数方程: PA + A TP - PBR -1B TP + Q = 0 (5) 显然,上述最优控制系统的性能指标主要取决于对 称矩阵 P,而 P 主要由矩阵 A、B、Q 和 R 确定。 A 和 B 是参数矩阵,因此,系统性能主要由矩阵 Q 和 R 来决定。 然而,Q 和 R 怎样选取没有具体的求解方 法,常常依赖于设计者的主观经验进行实验调整,直 至获得相对可接受的满意解。 本文采用一种新型改进快速智能优化算法进行 LQR 控制器的优化设计。 通过汽车主动悬架作为 被控对象,将提出的一种新的“教与学”优化算法应 用于 LQR 控制器的设计中,并将结果与遗传算法、 粒子群优化算法和标准的“ 教与学” 优化算法在 LQR 控制器优化中的性能进行比较。 2 教与学优化算法 “教与学”优化(TLBO)算法[12-18]是一种新型的 群体智能优化算法, 通过模拟人类的学习过程: “教”和“学”。 通过两个阶段的学习,从而促进每个 个体的学习水平。 在标准的 TLBO 算法中,“班级”是个体的集合, 每个个体相当于一个学员,每个学员所学的某一科 目相当于一个决策变量。 水平最高的学员被称为 “教师”。 每个学员通过“教师”的“教”和向其他学 员“学习”来提高自身水平。 1) “教”阶段。 在“教”阶段,班级中每个学员 X j ( j = 1,2,…, NP) 根据 Xteacher 和班级中学员平均水平值 Mean = 1 NP∑ NP i = 1 X i 之间的差异性进行学习。 教学过程如下: X i new = X i old + Difference Difference = ri·(Xteacher - TFi·Mean) 式中: X i old 表示第 i 个学员学习前的值, X i new 表示第 i 个 学员学习后的值, TFi = round [1 + rand(0,1)] 是教学 因子, ri ∈∪ (0,1) 是随机学习步长,表示学习速率 。 2)“学”阶段 在“学”阶段,学员 X i (i = 1,2,…,NP) 从班级 中随机选取一个学员 X j (j = 1,2,…,NP,j≠i) 作为 学习对象, X i 分析和比较自己和学员 X j 之间的差 异,然后进行学习。 学习过程如下: X i new = X i old + ri·(X i - X j ), f(X j ) < f(X i ) X i old + ri·(X j - X i ), f(X i ) < f(X j { ) 式中, ri = U(0,1) 表示第 i 个学员的学习因子(学 习步长)。 3)学习结果更新,学员在经过学习后要进行更 新操作。 更新方法如下: IF X i new is better than X i old X i = X i new End IF 基本 TLBO 算法的流程如图 1 所示。 3 改进的教与学优化算法 在标准的 TLBO 算法中,所有学员的的水平提 高,完全依赖老师的“教” 和学员之间的交流“ 学 习”,从而使得学员在学习过程中对他人的过度依 赖。 我们知道,每个人的学习主要是靠自身的努力 和探索,个人的创新能力是最重要的[19-20] 。 因此, 为了发挥群体中每个学员的创新能力,本文提出一 种具有自我学习能力的教与学优化算法( motified teaching⁃learning⁃based optimization, MTLBO),算法 借鉴和声搜索算法思想进行个体的自我学习和自我 探索创新能力挖掘,用于加强每个个体的局部搜索 能力,从而增强种群的全局最优解的求解能力。 3.1 “教”(Teaching)学阶段的改进 本文中对 Mean 进行改进,使的原来的 Mean = 第 5 期 拓守恒,等:改进教与学优化算法的 LQR 控制器优化设计 ·603·
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有