《并行计算》课程教学资源（讲义）矩阵特征值计算.doc_大学文库

1. 9 矩阵特征值计算在实际的工程计算中，经常会遇到求 n 阶方阵 A 的特征值(Eigenvalue)与特征向量 (Eigenvector)的问题。对于一个方阵 A，如果数值 λ 使方程组 Ax=λx 即 (A-λIn)x=0 有非零解向量(Solution Vector)x，则称 λ 为方阵 A 的特征值，而非零向量 x 为特征值 λ 所对应的特征向量，其中 In 为 n 阶单位矩阵。由于根据定义直接求矩阵特征值的过程比较复杂，因此在实际计算中，往往采取一些数值方法。本章主要介绍求一般方阵绝对值最大的特征值的乘幂(Power)法、求对称方阵特征值的雅可比法和单侧旋转(One-side Rotation)法以及求一般矩阵全部特征值的 QR 方法及一些相关的并行算法。 1.1 求解矩阵最大特征值的乘幂法 1.1.1 乘幂法及其串行算法在许多实际问题中，只需要计算绝对值最大的特征值，而并不需要求矩阵的全部特征值。乘幂法是一种求矩阵绝对值最大的特征值的方法。记实方阵 A 的 n 个特征值为 λi i=(1,2, …,n)，且满足： │λ1│≥│λ2│≥│λ3│≥…≥│λn│ 特征值 λi 对应的特征向量为 xi。乘幂法的做法是：①取 n 维非零向量 v0 作为初始向量；② 对于 k=1,2, …,做如下迭代： uk =Avk-1 vk= uk /║uk║∞ 直至 −    uk+1 uk ε 为止，这时 vk+1 就是 A 的绝对值最大的特征值 λ1 所对应的特征向量 x1。若 vk-1 与 vk的各个分量同号且成比例，则 λ1=║uk║∞；若 vk-1 与 vk的各个分量异号且成比例，则 λ1= -║uk║∞。若各取一次乘法和加法运算时间、一次除法运算时间、一次比较运算时间为一个单位时间，则因为一轮计算要做一次矩阵向量相乘、一次求最大元操作和一次规格化操作，所以下述乘幂法串行算法 21.1 的一轮计算时间为 n 2+2n=O(n 2 )。算法 21.1 单处理器上乘幂法求解矩阵最大特征值的算法输入：系数矩阵 An×n，初始向量 v n×1，ε 输出：最大的特征值 max Begin while (│diff│>ε) do (1)for i=1 to n do (1.1)sum=0 (1.2)for j= 1 to n do sum=sum+a[i,j]*x[j] end for

(1.3)b[i]= sum end for (2)max=│b[1]│ (3)for i=2 to n do if (│b[i]│>max) then max=│b[i]│ end if end for (4)for i=1 to n do x[i] =b[i]/max end for (5)diff=max-oldmax , oldmax=max end while End 1.1.2 乘幂法并行算法乘幂法求矩阵特征值由反复进行矩阵向量相乘来实现，因而可以采用矩阵向量相乘的数据划分方法。设处理器个数为 p，对矩阵 A 按行划分为 p 块，每块含有连续的 m 行向量，这里 m = n/ p ，编号为 i 的处理器含有 A 的第 im 至第(i+1)m-1 行数据，(i=0,1, …,p-1)，初始向量 v 被广播给所有处理器。各处理器并行地对存于局部存储器中 a 的行块和向量 v 做乘积操作，并求其 m 维结果向量中的最大值 localmax，然后通过归约操作的求最大值运算得到整个 n 维结果向量中的最大值 max 并广播给所有处理器，各处理器利用 max 进行规格化操作。最后通过扩展收集操作将各处理器中的 m 维结果向量按处理器编号连接起来并广播给所有处理器，以进行下一次迭代计算，直至收敛。具体算法框架描述如下：算法 21.2 乘幂法求解矩阵最大特征值的并行算法输入：系数矩阵 An×n，初始向量 v n×1，ε 输出：最大的特征值 max Begin 对所有处理器 my_rank(my_rank=0,…, p-1)同时执行如下的算法: while (│diff│>ε) do /* diff 为特征向量的各个分量新旧值之差的最大值*/ (1)for i=0 to m-1 do /*对所存的行计算特征向量的相应分量*/ (1.1)sum=0 (1.2)for j= 0 to n-1 do sum=sum+a[i,j]*x[j] end for (1.3)b[i]= sum end for (2)localmax=│b[0]│ /*对所计算的特征向量的相应分量求新旧值之差的最大值 localmax */ (3)for i=1 to m-1 do if (│b[i]│>localmax) then localmax=│b[i]│ end if end for (4)用 Allreduce 操作求出所有处理器中 localmax 值的最大值 max 并广播到所有处理器中 (5)for i=0to m-1 do /*对所计算的特征向量归一化 */

b[i] =b[i]/max end for (6)用 Allgather 操作将各个处理器中计算出的特征向量的分量的新值组合并广播到所有处理器中 (7)diff=max-oldmax, oldmax=max end while End 若各取一次乘法和加法运算时间、一次除法运算时间、一次比较运算时间为一个单位时间，一轮迭代的计算时间为 mn+2m；一轮迭代中，各处理器做一次归约操作，通信量为 1，一次扩展收集操作，通信量为 m，则通信时间为 4t ( p −1) + (m +1)tw( p −1) s 。因此乘幂法的一轮并行计算时间为 T = mn + 2m + 4t ( p −1) + (m +1)tw( p −1) p s 。 MPI 源程序请参见所附光盘。 1.2 求对称矩阵特征值的雅可比法 1.2.1 雅可比法求对称矩阵特征值的串行算法若矩阵 A=[aij]是 n 阶实对称矩阵，则存在一个正交矩阵 U，使得 U TAU=D 其中 D 是一个对角矩阵，即               = n D           0 0 0 0 0 0 2 1 这里 λi (i=1,2,…,n)是 A 的特征值，U 的第 i 列是与 λi 对应的特征向量。雅可比算法主要是通过正交相似变换将一个实对称矩阵对角化，从而求出该矩阵的全部特征值和对应的特征向量。因此可以用一系列的初等正交变换逐步消去 A 的非对角线元素，从而使矩阵 A 对角化。设初等正交矩阵为 R(p,q,θ)，其(p,p)( q,q)位置的数据是 cosθ，(p, q)( q, p)位置的数据分别是 -sinθ 和 sinθ(p ≠ q)，其它位置的数据和一个同阶数的单位矩阵相同。显然可以得到： R(p,q,θ) TR(p,q,θ)=In 不妨记 B= R(p,q,θ) TAR(p,q,θ)，如果将右端展开，则可知矩阵 B 的元素与矩阵 A 的元素之间有如下关系： bpp = appcos2θ+aqqsin2θ+apqsin2θ bqq = appsin2θ+aqq cos2θ-apqsin2θ bpq = ((aqq -app)sin2θ)/2+apq cos2θ bqp = bpq bpj= apjcosθ+aqjsinθ bqj = -apjsinθ +aqjcosθ bip= aipcosθ+aiqsinθ biq= -aipsinθ +aiqcosθ bij= aij 其中 1 ≤ i, j ≤ n 且 i,j ≠ p,q。因为 A 为对称矩阵，R 为正交矩阵，所以 B 亦为对称矩阵。若要求矩阵 B 的元素 bpq =0，则只需令 ((aqq -app)sin2θ)/2+apq cos2θ=0，即：

这里长方形框中两个方格内的整数被看成是所移动的行块的编号。在要构成新的行块配对时,只要将每个处理器所对应的行块按箭头方向移至相邻的处理器即可,这样的传送可以在行块之间实现完全配对。当编号为i和j的两个行块被送至同一处理器时,令编号为i的行块中的每行元素和编号为j的行块中的每行元素配对,以消去相应的非主对角元素,这样在所有的行块都两两配对之后,可以将所有的非主对角元素消去一遍,从而完成一轮计算由图1.1可以看出,在一轮计算中,处理器之间要2p-1次交换行块。为保证不同行块配对时可以将原矩阵A的非主对角元素消去,引入变量b记录每个处理器中的行块数据在原矩阵A中的实际行号。在行块交换时,变量b也跟着相应的行块在各处理器之间传送。处理器之间的数据块交换存在如下规律 0号处理器前一个行块(简称前数据块,后一个行块简称后数据块)始终保持不变,将后数据块发送给1号处理器,作为1号处理器的前数据块。同时接收1号处理器发送的后数据块作为自己的后数据块 1号处理器首先将后数据块发送给编号为p-2的处理器,作为p-2号处理器的后数据块。然后将前数据块移至后数据块的位置上,最后接收p-2号处理器发送的前数据块作为自己的前数据块。编号为 my rank的其余处理器将前数据块发送给编号为 my rank+1的处理器,作为 my rank+Ⅰ号处理器的前数据块。将后数据块发送给编号为 my rank-1的处理器,作为 my rank-1号处理器的后数据块。为了避免在通信过程中发生死锁,奇数号处理器和偶数号处理器的收发顺序被错开。使偶数号处理器先发送后接收:而奇数号处理器先将数据保存在缓冲区中,然后接收偶数号处理器发送的数据,最后再将缓冲区中的数据发送给偶数号处理器。数据块传送的具体过程描述如下: 算法214雅可比法求对称矩阵特征值的并行过程中处理器之间的数据块交换算法输入:矩阵A的行数据块和向量b的数据块分布于各个处理器中输出:在处理器阵列中传送后的矩阵A的行数据块和向量b的数据块对所有处理器 my rank( my rank=0…,p-1)同时执行如下的算法矩阵A和向量b为要传送的数据块* (1)if( my-rank=0)then/*0号处理器* (1.1)将后数据块发送给1号处理器 (1.2)接收1号处理器发送来的后数据块作为自己的后数据块 (2)if(( my-rank=p-1)and(my- rank mod2≠0)then/*处理器p-1且其为奇数* (2.1)fori=m/2tom-1do/*将后数据块保存在缓冲区buer中* forj=0 to n-l do buffer{i-m2,/=q[i小 d fo 2.2 )for i=m/2 to m-I do

这里长方形框中两个方格内的整数被看成是所移动的行块的编号。在要构成新的行块配对时，只要将每个处理器所对应的行块按箭头方向移至相邻的处理器即可，这样的传送可以在行块之间实现完全配对。当编号为 i 和 j 的两个行块被送至同一处理器时，令编号为 i 的行块中的每行元素和编号为 j 的行块中的每行元素配对，以消去相应的非主对角元素，这样在所有的行块都两两配对之后，可以将所有的非主对角元素消去一遍，从而完成一轮计算。由图 1.1 可以看出，在一轮计算中，处理器之间要 2p-1 次交换行块。为保证不同行块配对时可以将原矩阵 A 的非主对角元素消去，引入变量 b 记录每个处理器中的行块数据在原矩阵 A 中的实际行号。在行块交换时，变量 b 也跟着相应的行块在各处理器之间传送。处理器之间的数据块交换存在如下规律： 0 号处理器前一个行块(简称前数据块，后一个行块简称后数据块)始终保持不变，将后数据块发送给 1 号处理器，作为 1 号处理器的前数据块。同时接收 1 号处理器发送的后数据块作为自己的后数据块。 p-1 号处理器首先将后数据块发送给编号为 p-2 的处理器，作为 p-2 号处理器的后数据块。然后将前数据块移至后数据块的位置上，最后接收 p-2 号处理器发送的前数据块作为自己的前数据块。编号为 my_rank 的其余处理器将前数据块发送给编号为 my_rank+1 的处理器，作为 my_rank+1 号处理器的前数据块。将后数据块发送给编号为 my_rank-1 的处理器，作为 my_rank-1 号处理器的后数据块。为了避免在通信过程中发生死锁，奇数号处理器和偶数号处理器的收发顺序被错开。使偶数号处理器先发送后接收；而奇数号处理器先将数据保存在缓冲区中，然后接收偶数号处理器发送的数据，最后再将缓冲区中的数据发送给偶数号处理器。数据块传送的具体过程描述如下：算法 21.4 雅可比法求对称矩阵特征值的并行过程中处理器之间的数据块交换算法输入：矩阵 A 的行数据块和向量 b 的数据块分布于各个处理器中输出：在处理器阵列中传送后的矩阵 A 的行数据块和向量 b 的数据块 Begin 对所有处理器 my_rank(my_rank=0,…, p-1)同时执行如下的算法: /*矩阵 A 和向量 b 为要传送的数据块*/ (1)if (my-rank=0) then /*0 号处理器*/ (1.1)将后数据块发送给 1 号处理器 (1.2)接收 1 号处理器发送来的后数据块作为自己的后数据块 end if (2)if ((my-rank=p-1) and ( my-rank mod 2 ≠ 0)) then /*处理器 p-1 且其为奇数*/ (2.1)for i=m/2 to m-1 do /* 将后数据块保存在缓冲区 buffer 中*/ for j=0 to n-1 do buffer[i-m/2,j]=a[i,j] end for end for (2.2)for i=m/2 to m-1 do

(vi)接收编号为 my rank+1的处理器发送的数据块作为自己的后数据块 (ⅸx)将存于buer中的前数据块发送给编号为 my rank+1的处理 (x)将存于buer中的后数据块发送给编号为 my rank-1的处理器 end if end if End 各处理器并行地对其局部存储器中的非主对角元素a进行消去,首先计算旋转参数并对第i行和第j行两行元素进行旋转行变换。然后通过扩展收集操作将相应的旋转参数及第 i列和第j列的列号按处理器编号连接起来并广播给所有处理器。各处理器在收到这些旋转参数和列号之后,按0,1,…P-1的顺序依次读取旋转参数及列号并对其m行中的第i列和第 j列元素进行旋转列变换经过一轮计算的2p-1次数据交换之后,原矩阵A的所有非主对角元素都被消去一次此时,各处理器求其局部存储器中的非主对角元素的最大元 localmax,然后通过归约操作的求最大值运算求得将整个n阶矩阵非主对角元素的最大元muax,并广播给所有处理器以决定是否进行下一轮迭代。具体算法框架描述如下: 算法215雅可比法求对称矩阵特征值的并行算法输入:矩阵Anxn,ε 输出:矩阵A的主对角元素即为A的特征值对所有处理器 my rank( my rank=0,…,p-1)同时执行如下的算法 (afor i=0 to m-l do b[]= myrank*m+i/b记录处理器中的行块数据在原矩阵A中的实际行号* end for (b)whie(|max|>e)do/*max为A中所有非对角元最大的绝对值 (I)for i=my rank*m to(my rank+l)*m-2 do /*对本处理器内部所有行两两配对进行旋转变换* for j=i+l to(my rank+l)*m-1 do (1.1)= i mod m,闩modm陣*,j为进行旋转变换行(称为主行)的实际行号,r,t为它们在块内的相对行号 (1.2ff(ar≠0)then/*对四个主元素的旋转变换 fa[rl,g=(a[小-a[,)/2,h=gm(g)°sqgr(+g*g), sin2=h, sinl=h/sgri(2 (1+sgr(l-hh)), cosl=sqrt( l-sinIsinl) bpp=a[r, i*cosl *cosl+a[t,j]*sinl*sinl+a[r;j*sin2 bear i" sinI sinl+at," cosl"cosl-arjsin2 bpg0, bqp=0 (i)fory=0ton-1do体*对两个主行其余元素的旋转变换* if((v≠)and(v≠)then 付y]=a[r;v]*cosl+qny a[t, v]=-a[r, v]*sinl alL, v]*

(viii)接收编号为 my_rank+1 的处理器发送的数据块作为自己的后数据块 (ix)将存于 buffer 中的前数据块发送给编号为 my_rank+1 的处理器 (x)将存于buffer中的后数据块发送给编号为my_rank-1的处理器 end if end if End 各处理器并行地对其局部存储器中的非主对角元素 aij 进行消去，首先计算旋转参数并对第 i 行和第 j 行两行元素进行旋转行变换。然后通过扩展收集操作将相应的旋转参数及第 i 列和第 j 列的列号按处理器编号连接起来并广播给所有处理器。各处理器在收到这些旋转参数和列号之后，按 0,1,…,p-1 的顺序依次读取旋转参数及列号并对其 m 行中的第 i 列和第 j 列元素进行旋转列变换。经过一轮计算的 2p-1 次数据交换之后，原矩阵 A 的所有非主对角元素都被消去一次。此时，各处理器求其局部存储器中的非主对角元素的最大元 localmax，然后通过归约操作的求最大值运算求得将整个 n 阶矩阵非主对角元素的最大元 max，并广播给所有处理器以决定是否进行下一轮迭代。具体算法框架描述如下：算法 21.5 雅可比法求对称矩阵特征值的并行算法输入：矩阵 An×n，ε 输出：矩阵 A 的主对角元素即为 A 的特征值 Begin 对所有处理器 my_rank(my_rank=0,…, p-1)同时执行如下的算法: (a)for i=0 to m-1 do b[i] =myrank*m+i /* b 记录处理器中的行块数据在原矩阵 A 中的实际行号*/ end for (b)while (│max│>ε) do /* max 为 A 中所有非对角元最大的绝对值*/ (1)for i=my_rank*m to (my_rank+1)*m-2 do /*对本处理器内部所有行两两配对进行旋转变换*/ for j=i+1 to (my_rank+1)*m-1 do (1.1)r=i mod m , t=j mod m /*i, j 为进行旋转变换行(称为主行)的实际行号, r, t 为它们在块内的相对行号*/ (1.2)if (a[r,j] ≠ 0) then /*对四个主元素的旋转变换*/ (i)Compute: f=-a[r,j], g=( a[t,j]- a[r,i])/2, h=sgn(g)*f/sqrt(f*f+g*g) , sin2=h , sin1=h/sqrt(2*(1+sqrt(1-h*h))) , cos1=sqrt(1-sin1*sin1)， bpp= a[r,i]*cos1*cos1+a[t,j]*sin1*sin1+a[r,j]*sin2， bqq= a[r,i]* sin1*sin1+a[t,j]* cos1*cos1-a[r,j]*sin2， bpq=0 , bqp=0 (ii)for v=0 to n-1 do /*对两个主行其余元素的旋转变换*/ if ((v ≠ i) and ( v ≠ j)) then br[v] = a[r,v]*cos1 + a[t,v]*sin1 a[t,v] = -a[r,v]* sin1 + a[t,v]* cos1 end if