《并行计算》课程教学资源（讲义）快速傅氏变换和离散小波变换

长期以来,快速傅氏变换(Fast Fourier Transform)和离散小波变换(Discrete Wavelet Transform)在数字信号处理、石油勘探、地震预报、医学断层诊断、编码理论、

团购合买资源类别：文库，文档格式：DOC，文档页数：13，文件大小：452.5KB

1. 10 快速傅氏变换和离散小波变换长期以来，快速傅氏变换(Fast Fourier Transform)和离散小波变换(Discrete Wavelet Transform)在数字信号处理、石油勘探、地震预报、医学断层诊断、编码理论、量子物理及概率论等领域中都得到了广泛的应用。各种快速傅氏变换(FFT)和离散小波变换(DWT)算法不断出现，成为数值代数方面最活跃的一个研究领域，而其意义远远超过了算法研究的范围，进而为诸多科技领域的研究打开了一个崭新的局面。本章分别对 FFT 和 DWT 的基本算法作了简单介绍，若需在此方面做进一步研究，可参考文献[2]。 1.1 快速傅里叶变换 FFT 离散傅里叶变换是 20 世纪 60 年代是计算复杂性研究的主要里程碑之一，1965 年 Cooley 和 Tukey 所研究的计算离散傅里叶变换(Discrete Fourier Test)的快速傅氏变换(FFT)将计算量从 О(n 2 )下降至 О(nlogn)，推进了 FFT 更深层、更广法的研究与应用。FFT 算法有很多版本，但大体上可分为两类：迭代法和递归法，本节仅讨论迭代法，递归法可参见文献[1]、[2]。 1.1.1 串行 FFT 迭代算法假定 a[0],a[1], …,a[n-1] 为一个有限长的输入序列，b[0], b[1], …,b[n-1]为离散傅里叶变换的结果序列，则有： [ ] [ ] ( 0,1,2,..., 1) 1 0 =  = − − = b k a k W k n n m km n ，其中 W n i n e 2 = ，实际上，上式可写成矩阵 W 和向量 a 的乘积形式：                                 =                 − − − − − − − − 1 2 1 0 0 ( 1) 2( 1) ( 1)( 1) 0 2 4 2( 1) 0 1 2 1 0 0 0 0 1 2 1 0 n n n n n n n n a a a a w w w w w w w w w w w w w w w w b b b b            一般的 n 阶矩阵和 n 维向量相乘，计算时间复杂度为 n 2，但由于 W 是一种特殊矩阵，故可以降低计算量。FFT 的计算流图如图 1.1 所示，其串行算法如下：算法 22.1 单处理器上的 FFT 迭代算法输入：a=(a0,a1, …,an-1) 输出：b=(b0,b1, …,bn-1) Begin (1)for k=0 to n-1 do ck=ak end for (2)for h=logn-1 downto 0 do (2.1) p=2h (2.2) q=n/p (2.3) z=w q/2

j = 0,1,  , J −1 其中 J 为实际中要求分解的步数，最多不超过 log2M，其逆变换为 n k k Z j n k k k Z j k j cn c h 2 c h 2 1  −   −  − = + j = J ,  ,1 注意到尺度系数和输入系列都是有限长度的序列，上述和实际上都只有有限项。若完全按照上述公式计算，在经过 J 步分解后，所得到的 J+1 个序列 d , j = 0,1, , J −1 j k  和 j k c 的非零项的个数之和一般要大于 M，究竟这个项目增加到了多少？下面来分析一下上述计算过程。 j=0 时计算过程为 n k M n ck xnh 2 1 1 − = =  n k M n dk xn g 2 1 1 − = =  不难看出， 1 k c 的非零值范围为： 1, 2 1, , 1,0, , 2 −      = − + − N M k   即有       + − =      = − − + 2 1 2 1 2 N M M N k 个非零值。 1 k d 的非零值范围相同。继续往下分解时，非零项出现的规律相似。分解多步后非零项的个数可能比输入序列的长度增加较多。例如，若输入序列长度为 100，N=4，则 1 k d 有 51 项非零， 2 k d 有 27 项非零， 3 k d 有 15 项非零， 4 k d 有 9 项非零， 5 k d 有 6 项非零， 6 k d 有 4 项非零， 6 k c 有 4 项非零。这样分解到 6 步后得到的序列的非零项个数的总和为 116，超过了输入序列的长度。在数据压缩等应用中，希望总的长度基本不增加，这样可以提高压缩比、减少存储量并减少实现的难度。可以采用稍微改变计算公式的方法，使输出序列的非零项总和基本上和输入序列的非零项数相等，并且可以完全重构。这种方法也相当于把输入序列进行延长（增加非零项），因而称为延拓法。只需考虑一步分解的情形，下面考虑第一步分解(j=1)。将输入序列作延拓，若 M 为偶数，直接将其按 M 为周期延拓；若 M 为奇数，首先令 xM +1 = 0 。然后按 M+1 为周期延拓。作了这种延拓后再按前述公式计算，相应的变换矩阵已不再是 H 和 G，事实上这时的变换矩阵类似于循环矩阵。例如，当 M=8，N=4 时矩阵 H 变为： 3 4 1 2 1 2 3 4 1 2 3 4 1 2 3 4 3 4 1 2 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 h h h h h h h h h h h h h h h h h h h h 当 M=7，N=4 时矩阵 H 变为：

3 4 1 1 2 3 1 2 3 4 1 2 3 4 3 4 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 h h h h h h h h h h h h h h h h h 从上述的矩阵表示可以看出，两种情况下的矩阵内都有完全相同的行，这说明作了重复计算，因而从矩阵中去掉重复的那一行不会减少任何信息量，也就是说，这时我们可以对矩阵进行截短（即去掉一行），使得所得计算结果仍然可以完全恢复原输入信号。当 M=8，N=4 时截短后的矩阵为：               = 1 2 3 4 1 2 3 4 1 2 3 4 3 4 1 2 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 h h h h h h h h h h h h h h h h H 当 M=7，N=4 时截短后的矩阵为：               = 1 2 3 1 2 3 4 1 2 3 4 3 4 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 h h h h h h h h h h h h h h H 这时的矩阵都只有       2 M 行。分解过程成为： 1 0 C = HC 1 0 D = GC 向量 C 1 和 D1 都只有       2 M 个元素。重构过程为： 0 1 1 C = H *C + G * D 可以完全重构。矩阵 H，G 有等式 H*H+G*G=I 一般情况下，按上述方式保留矩阵的       2 M 行，可以完全恢复原信号。这种方法的优点是最后的序列的非 0 元素的个数基本上和输入序列的非 0 元素个数相同，特别是若输入序列长度为 2 的幂，则完全相同，而且可以完全重构输入信号。其代价是得到的变换系数 D j 中的一些元素已不再是输入序列的离散小波变换系数，对某些应用可能是不适合的，但在数据压缩等应用领域，这种方法是可行的。 1.2.2 离散小波变换并行算法下设输入序列长度 N=2t，不失一般性设尺度系数只有有限个非零值：h0，…，hL-1，L 为偶数，同样取小波使其只有有限个非零值：g0，…，gL-1。为简单起见，我们采用的延拓方法计算。即将有限尺度的序列 ,( 0,1, , 1) cn 0 = xn n =  N − 按周期 N 延长，使他成为无限长度的序列。这时变换公式也称为周期小波变换。变换公式为：   − = + −  + = = 1 0 2 2 1 L n n k j n k n n Z j n j k c c h h c

 − = + + = 1 0 2 1 L n n k j n j dk g d j = 0,1,  , J −1 其中表示 n+2k 对于模 N/2j 的最小非负剩余。注意这时 j k c 和 j dk 是周期为 N/2j 的周期序列。其逆变换为 n k k Z j n k k k Z j k j cn c h 2 c g 2 1 −  −  − =  +  j = J ,  ,1 从变换公式中可以看出，计算输出点 j+1 k c 和 j+1 k d ，需要输入序列 j n c 在 n=2k 附近的值（一般而言，L 远远小于输入序列的长度）。设处理器台数为 p，将输入数据 ( = 0,1, , / 2 −1) j j cn n  N 按块分配给 p 台处理器，处理器 i 得到数据 1) 2 , ,( 1) 2 ( = + − j j j n P N i P N c n i  ，让处理器 i 负责 j+1 n c 和 1) 2 , ,( 1) 2 ( 1 1 1 = + − + + + j j j n P N i P N d n i  的计算，则不难看出，处理器 i 基本上只要用到局部数据，只有 L/2 个点的计算要用到处理器 i+1 中的数据，这时做一步并行数据发送：将处理器 i+1 中前 L-1 个数据发送给处理器 i，则各处理器的计算不再需要数据交换，关于本算法其它描述可参见文献[1]。算法 22.4 离散小波变换并行算法输入：hi(i=0,…, L-1), gi(i=0,…, L-1), ci 0 (i=0,…, N-1) 输出：ci k (i=0,…, N/2 k -1,k>0) Begin 对所有处理器 my_rank(my_rank=0,…, p-1)同时执行如下的算法: (1)j=0; (2)while (j<r) do (2.1)将数据 ( = 0,1, , / 2 −1) j j cn n  N 按块分配给 p 台处理器 (2.2)将处理器 i+1 中前 L-1 个数据发送给处理器 i (2.3)处理器 i 负责 j+1 n c 和 1) 2 , ,( 1) 2 ( 1 1 1 = + − + + + j j j n p N i p N d n i  的计算 (2.4)j=j+1 end while End 这里每一步分解后数据 j+1 n c 和 j+1 dn 已经是按块存储在 P 台处理器上，因此算法第一步中的数据分配除了 j=0 时需要数据传送外，其余各步不需要数据传送（数据已经到位）。因此，按 LogP 模型，算法的总的通信时间为：2(Lmax(o,g)+l)，远小于计算时间 O(N)。 MPI 源程序请参见所附光盘

点击下载完整版文档（DOC格式）

共13页，试读结束，阅读完整版请下载

点击下载（DOC格式）

浏览记录