【智能系统】SM3杂凑算法的软件快速实现研究编辑部

团购合买资源类别：文库，文档格式：PDF，文档页数：6，文件大小：567.4KB

第10卷第6期智能系统学报 Vol.10 No.6 2015年12月 CAAI Transactions on Intelligent Systems Dee.2015 D0L:10.11992/is.201507036 网络出版地址：http://www.cnki.net/kcms/detail/23.1538.tp.20151110.1354.004.html SM3杂凑算法的软件快速实现研究杨先伟，康红娟2 (1.无锡职业技术学院基础部，江苏无锡214121：2.四川长虹电器股份有限公司，四川成都610041) 摘要：杂凑算法是密码学中最基本的模块之一，可广泛应用于密码协议、数字签名、消息鉴别等领域。我国国家密码管理局在2010年发布了SM3密码杂凑算法，该算法适用于商用密码应用中的数字签名和验证、消息认证码的生成与验证以及随机数的生成等。该文重点研究SM3密码杂凑算法的软件快速实现，根据算法本身的特点，尤其是压缩函数的特点，给出一种更加适用于软件的快速实现方式。实验表明利用此方法可以将算法的效率提升60%左右。关键词：SM3算法：杂凑函数：软件快速实现：数字签名：消息鉴别；完整性认证：数字指纹；压缩函数中图分类号：TP309文献标志码：A文章编号：1673-4785(2015)06-0954-06 中文引用格式：杨先伟，康红娟.SM3杂凑算法的软件快速实现研究[J].智能系统学报，2015,10(6)：954-959. 英文引用格式：YANG Xianwei,KANG Hongjuan.Fast software implementation of SM3 Hash algorithm[J].CAAI Transactions on Intelligent Systems,2015,10(2):954-959. Fast software implementation of SM3 Hash algorithm YANG Xianwei',KANG Hongjuan? (1.Department of Fundamental Courses,Wuxi Prof Technology inst.,Wuxi 214121,China;2.Sichuan Changhong Electric Co., Ltd.,Chengdu 610041,China) Abstract:The hash algorithm is one of the most basic cryptography modules,and is widely used in cryptographic protocols,digital signatures,message authentication,and in other fields.The Chinese National Cryptography Ad- ministration released the SM3 hash algorithm in 2010.This algorithm is applied to digital signature and verification, the generation and verification of message authentication codes,and random number generation.This paper addres- ses the fast software implementation of the SM3 algorithm.Based on the SM3 features,and especially its compres- sion function characteristics,we propose a method that is highly suitable for fast software implementation.Experi- mental results show that this method can improve the implementation speed by 60%. Keywords:SM3 algorithm;hash function;fast software implementation;digital signature;message authentication; integrity authentication;digital fingerprint;compression function 哈希(Hash)函数，也叫杂凑函数，是密码学中程软硬件均易于计算实现，但其逆向变换过程在计最基本的模块之一，广泛应用于密码协议、数字签算上不可行，即具有单向性。出于安全性的考虑，杂名、消息鉴别、完整性认证等领域。因此，它在密码凑函数还必须满足抗弱碰撞性和抗强碰撞性。1991 学中扮演着极其重要的角色。年，Ron Rivest提出了MD5算法，这曾经是使用最为杂凑函数的目的是产生数据块的“指纹”，它可广泛的杂凑算法。从20世纪90年代年开始，美国以对任意长度的信息产生定长的输出。这个变换过国家标准与技术研究院(NST)陆续公布了SHA系收稿日期：2015-07-23.网络出版日期：2015-11-10 列，并通过公开竞赛方式征集SHA-3。基金项目：国家自然科学基金资助项目(11471144) 中国国家密码管理局在2010年发布了SM3密通信作者：杨先伟.E-mail:yangxianwei2018@163.com

第１０卷第６期智能系统学报Ｖｏｌ．１０ №．６２０１５年１２月ＣＡＡＩＴｒａｎｓａｃｔｉｏｎｓｏｎＩｎｔｅｌｌｉｇｅｎｔＳｙｓｔｅｍｓＤｅｃ．２０１５ＤＯＩ：１０．１１９９２／ｔｉｓ．２０１５０７０３６网络出版地址：ｈｔｔｐ：／／ｗｗｗ．ｃｎｋｉ．ｎｅｔ／ｋｃｍｓ／ｄｅｔａｉｌ／２３．１５３８．ｔｐ．２０１５１１１０．１３５４．００４．ｈｔｍｌＳＭ３杂凑算法的软件快速实现研究杨先伟１，康红娟２（１．无锡职业技术学院基础部，江苏无锡２１４１２１；２．四川长虹电器股份有限公司，四川成都６１００４１）摘要：杂凑算法是密码学中最基本的模块之一，可广泛应用于密码协议、数字签名、消息鉴别等领域。我国国家密码管理局在２０１０年发布了ＳＭ３密码杂凑算法，该算法适用于商用密码应用中的数字签名和验证、消息认证码的生成与验证以及随机数的生成等。该文重点研究ＳＭ３密码杂凑算法的软件快速实现，根据算法本身的特点，尤其是压缩函数的特点，给出一种更加适用于软件的快速实现方式。实验表明利用此方法可以将算法的效率提升６０％左右。关键词：ＳＭ３算法；杂凑函数；软件快速实现；数字签名；消息鉴别；完整性认证；数字指纹；压缩函数中图分类号：ＴＰ３０９文献标志码：Ａ文章编号：１６７３⁃４７８５（２０１５）０６⁃０９５４⁃０６中文引用格式：杨先伟，康红娟．ＳＭ３杂凑算法的软件快速实现研究［Ｊ］．智能系统学报，２０１５，１０（６）：９５４⁃９５９．英文引用格式：ＹＡＮＧＸｉａｎｗｅｉ，ＫＡＮＧＨｏｎｇｊｕａｎ．ＦａｓｔｓｏｆｔｗａｒｅｉｍｐｌｅｍｅｎｔａｔｉｏｎｏｆＳＭ３Ｈａｓｈａｌｇｏｒｉｔｈｍ［Ｊ］．ＣＡＡＩＴｒａｎｓａｃｔｉｏｎｓｏｎＩｎｔｅｌｌｉｇｅｎｔＳｙｓｔｅｍｓ，２０１５，１０（２）：９５４⁃９５９．ＦａｓｔｓｏｆｔｗａｒｅｉｍｐｌｅｍｅｎｔａｔｉｏｎｏｆＳＭ３ＨａｓｈａｌｇｏｒｉｔｈｍＹＡＮＧＸｉａｎｗｅｉ１，ＫＡＮＧＨｏｎｇｊｕａｎ２（１．ＤｅｐａｒｔｍｅｎｔｏｆＦｕｎｄａｍｅｎｔａｌＣｏｕｒｓｅｓ，ＷｕｘｉＰｒｏｆＴｅｃｈｎｏｌｏｇｙｉｎｓｔ．，Ｗｕｘｉ２１４１２１，Ｃｈｉｎａ；２．ＳｉｃｈｕａｎＣｈａｎｇｈｏｎｇＥｌｅｃｔｒｉｃＣｏ．，Ｌｔｄ．，Ｃｈｅｎｇｄｕ６１００４１，Ｃｈｉｎａ）Ａｂｓｔｒａｃｔ：Ｔｈｅｈａｓｈａｌｇｏｒｉｔｈｍｉｓｏｎｅｏｆｔｈｅｍｏｓｔｂａｓｉｃｃｒｙｐｔｏｇｒａｐｈｙｍｏｄｕｌｅｓ，ａｎｄｉｓｗｉｄｅｌｙｕｓｅｄｉｎｃｒｙｐｔｏｇｒａｐｈｉｃｐｒｏｔｏｃｏｌｓ，ｄｉｇｉｔａｌｓｉｇｎａｔｕｒｅｓ，ｍｅｓｓａｇｅａｕｔｈｅｎｔｉｃａｔｉｏｎ，ａｎｄｉｎｏｔｈｅｒｆｉｅｌｄｓ．ＴｈｅＣｈｉｎｅｓｅＮａｔｉｏｎａｌＣｒｙｐｔｏｇｒａｐｈｙＡｄ⁃ ｍｉｎｉｓｔｒａｔｉｏｎｒｅｌｅａｓｅｄｔｈｅＳＭ３ｈａｓｈａｌｇｏｒｉｔｈｍｉｎ２０１０．Ｔｈｉｓａｌｇｏｒｉｔｈｍｉｓａｐｐｌｉｅｄｔｏｄｉｇｉｔａｌｓｉｇｎａｔｕｒｅａｎｄｖｅｒｉｆｉｃａｔｉｏｎ，ｔｈｅｇｅｎｅｒａｔｉｏｎａｎｄｖｅｒｉｆｉｃａｔｉｏｎｏｆｍｅｓｓａｇｅａｕｔｈｅｎｔｉｃａｔｉｏｎｃｏｄｅｓ，ａｎｄｒａｎｄｏｍｎｕｍｂｅｒｇｅｎｅｒａｔｉｏｎ．Ｔｈｉｓｐａｐｅｒａｄｄｒｅｓ⁃ ｓｅｓｔｈｅｆａｓｔｓｏｆｔｗａｒｅｉｍｐｌｅｍｅｎｔａｔｉｏｎｏｆｔｈｅＳＭ３ａｌｇｏｒｉｔｈｍ．ＢａｓｅｄｏｎｔｈｅＳＭ３ｆｅａｔｕｒｅｓ，ａｎｄｅｓｐｅｃｉａｌｌｙｉｔｓｃｏｍｐｒｅｓ⁃ ｓｉｏｎｆｕｎｃｔｉｏｎｃｈａｒａｃｔｅｒｉｓｔｉｃｓ，ｗｅｐｒｏｐｏｓｅａｍｅｔｈｏｄｔｈａｔｉｓｈｉｇｈｌｙｓｕｉｔａｂｌｅｆｏｒｆａｓｔｓｏｆｔｗａｒｅｉｍｐｌｅｍｅｎｔａｔｉｏｎ．Ｅｘｐｅｒｉ⁃ ｍｅｎｔａｌｒｅｓｕｌｔｓｓｈｏｗｔｈａｔｔｈｉｓｍｅｔｈｏｄｃａｎｉｍｐｒｏｖｅｔｈｅｉｍｐｌｅｍｅｎｔａｔｉｏｎｓｐｅｅｄｂｙ６０％．Ｋｅｙｗｏｒｄｓ：ＳＭ３ａｌｇｏｒｉｔｈｍ；ｈａｓｈｆｕｎｃｔｉｏｎ；ｆａｓｔｓｏｆｔｗａｒｅｉｍｐｌｅｍｅｎｔａｔｉｏｎ；ｄｉｇｉｔａｌｓｉｇｎａｔｕｒｅ；ｍｅｓｓａｇｅａｕｔｈｅｎｔｉｃａｔｉｏｎ；ｉｎｔｅｇｒｉｔｙａｕｔｈｅｎｔｉｃａｔｉｏｎ；ｄｉｇｉｔａｌｆｉｎｇｅｒｐｒｉｎｔ；ｃｏｍｐｒｅｓｓｉｏｎｆｕｎｃｔｉｏｎ收稿日期：２０１５⁃０７⁃２３．网络出版日期：２０１５⁃１１⁃１０．基金项目：国家自然科学基金资助项目（１１４７１１４４）．通信作者：杨先伟．Ｅ⁃ｍａｉｌ：ｙａｎｇｘｉａｎｗｅｉ２０１８＠１６３．ｃｏｍ．哈希（Ｈａｓｈ）函数，也叫杂凑函数，是密码学中最基本的模块之一，广泛应用于密码协议、数字签名、消息鉴别、完整性认证等领域。因此，它在密码学中扮演着极其重要的角色。杂凑函数的目的是产生数据块的“指纹”，它可以对任意长度的信息产生定长的输出。这个变换过程软硬件均易于计算实现，但其逆向变换过程在计算上不可行，即具有单向性。出于安全性的考虑，杂凑函数还必须满足抗弱碰撞性和抗强碰撞性。１９９１年，ＲｏｎＲｉｖｅｓｔ提出了ＭＤ５算法，这曾经是使用最为广泛的杂凑算法。从２０世纪９０年代年开始，美国国家标准与技术研究院（ＮＩＳＴ）陆续公布了ＳＨＡ系列［１］，并通过公开竞赛方式征集ＳＨＡ⁃３［２］。中国国家密码管理局在２０１０年发布了ＳＭ３密

第6期杨先伟，等：SM3杂凑算法的软件快速实现研究 ·955· 码杂凑算法)，该算法适用于商用密码中的多种应 1.1函数用，满足多种密码应用的安全需求：1)数字签名和验布尔函数FF(X,Y,Z)、GG(X,Y,Z), 证，如作为SM2算法中数字签名所需的杂凑函数；2) 0≤i≤63的定义如下：消息认证码的生成与验证，消息认证码不仅可以使用 FF (X,Y,Z)= 分组密码算法基于特定的工作模式生成，也可以使用 (X①Y①Z,0≤i≤15 SM3等杂凑函数生成：3)随机数的生成。 l(XA)V(X∧Z)V(Y∧Z),16≤i≤63 哈希函数在各种平台和环境下的执行效率 GG(X,Y,Z)= 是非常重要的考量指标之一，比如服务器端常需 X⊕Y①Z,0≤i≤15 执行的SSL/TLS协议就使用了哈希函数进行认 (X∧Y)V(XΛZ),16≤i≤63 证。目前已有大量文章对SHA系列算法的软件置换函数P。(X)和P,(X)的定义如下：快速实现进行研究，比如Aciicmez)提出基于 P(X)=X⊕(X<<<9)⊕(X<<<17) SIMD技术快速实现哈希算法，Gueron等[s-6]对并 P(X)=X⊕(X<<<15)⊕(X<<<23) 行处理多个消息的情况进行了研究。同样也有 1.2填充大量文章对SM3算法的软硬件快速实现进行研设消息的长度为（比特。填充方式为：首先将究。张倩等)提出了一种ASIC高效实现架构：比特“1”添加到消息的末尾；然后添加k个“0”，k 王晓燕等[劉基于FPGA设计SM3算法P核的整是满足l+1+k=448mod512的最小的非负整数；体架构，对关键逻辑进行优化设计：伍娟[町以同最后再将消息长度1的64位二进制表示添加在最方公司THD86智能卡芯片为硬件平台实现了末。填充后的消息比特长度为512的倍数。 SM3算法：曾小波等[1o1分析了基于8051软核的 1.3迭代压缩 SM3算法P原理、设计流程及实现方案，该方案填充后的消息m'按512比特进行分组：m'= 在时序和面积上均做到相当程度的优化，并提高 B)I…‖Ba-.对每个分组利用压缩函数CF进了算法的效率：沈一公等[基于Android平台研行迭代：究了SM3算法的快速实现，并以此为基础研究文 FORi=0TOn-1 件防篡改以便检查手机软件的安装；易叔贤 i+I)←-CF(o,B0) 等[2]结合已经将SM系列算法纳入其中的PBOC END FOR 3.0新规范，分析考虑SM2、SM3、SM4算法在金 1.4压缩函数融IC卡领域的实现和应用。压缩函数CF的计算过程如下：与这些研究相比，文本研究的侧重点是SM3算首先，计算消息扩展字W:,0≤i≤67和W:', 法在普通软件平台下的快速实现方式。文本根据算 0≤i≤63，步骤如下：法以及压缩函数的特点，给出一种更加适用于软件 Wo‖…‖Ws=B) 快速实现的算法描述方式和实现方法，本文提出的 F0Ri=16T067 实现方法具有以下优点：首先，此方法避免了普通实 W:←-P,(W-6①W-g①(W-3<<<15)① 现中可能采用的效率较低的实现架构和运算方式， (W-3<<<7)⊕W-6 可较大地提高算法的软件效率，经多个软件平台对 END FOR 比测试，本文的实现方法可将算法效率提升60%左 F0Ri=0T063 右；其次，此方式不基于特定的软件平台、架构、指令 W:←-W,⊕W+4 等，具有很强的跨平台性和兼容性。 END FOR 然后，进行包含64轮迭代的压缩，步骤如下： 1SM3算法简介 A‖BIC IDI EI F I GIH←-) SM3杂凑算法可将长度小于24比特的消息 F0Ri=0T063 经过填充、反复的消息扩展和压缩，生成长度为 SS,←-((A<<<12)+E+(T<<<j)) 256比特的杂凑值。在SM3算法中，字表示长度 <<<7 为32的比特串。 SS2←SS1④(A<<<12)

码杂凑算法［３］，该算法适用于商用密码中的多种应用，满足多种密码应用的安全需求：１）数字签名和验证，如作为ＳＭ２算法中数字签名所需的杂凑函数；２）消息认证码的生成与验证，消息认证码不仅可以使用分组密码算法基于特定的工作模式生成，也可以使用ＳＭ３等杂凑函数生成；３）随机数的生成。哈希函数在各种平台和环境下的执行效率是非常重要的考量指标之一，比如服务器端常需执行的ＳＳＬ／ＴＬＳ协议就使用了哈希函数进行认证。目前已有大量文章对ＳＨＡ系列算法的软件快速实现进行研究，比如Ａｃｉｉçｍｅｚ［４］提出基于ＳＩＭＤ技术快速实现哈希算法，Ｇｕｅｒｏｎ等［５⁃６］对并行处理多个消息的情况进行了研究。同样也有大量文章对ＳＭ３算法的软硬件快速实现进行研究。张倩等［７］提出了一种ＡＳＩＣ高效实现架构；王晓燕等［８］基于ＦＰＧＡ设计ＳＭ３算法ＩＰ核的整体架构，对关键逻辑进行优化设计；伍娟［９］以同方公司ＴＨＤ８６智能卡芯片为硬件平台实现了ＳＭ３算法；曾小波等［１０］分析了基于８０５１软核的ＳＭ３算法ＩＰ原理、设计流程及实现方案，该方案在时序和面积上均做到相当程度的优化，并提高了算法的效率；沈一公等［１１］基于Ａｎｄｒｏｉｄ平台研究了ＳＭ３算法的快速实现，并以此为基础研究文件防篡改以便检查手机软件的安装；易叔贤等［１２］结合已经将ＳＭ系列算法纳入其中的ＰＢＯＣ３．０新规范，分析考虑ＳＭ２、ＳＭ３、ＳＭ４算法在金融ＩＣ卡领域的实现和应用。与这些研究相比，文本研究的侧重点是ＳＭ３算法在普通软件平台下的快速实现方式。文本根据算法以及压缩函数的特点，给出一种更加适用于软件快速实现的算法描述方式和实现方法，本文提出的实现方法具有以下优点：首先，此方法避免了普通实现中可能采用的效率较低的实现架构和运算方式，可较大地提高算法的软件效率，经多个软件平台对比测试，本文的实现方法可将算法效率提升６０％左右；其次，此方式不基于特定的软件平台、架构、指令等，具有很强的跨平台性和兼容性。１ＳＭ３算法简介ＳＭ３杂凑算法可将长度小于２６４比特的消息经过填充、反复的消息扩展和压缩，生成长度为２５６比特的杂凑值。在ＳＭ３算法中，字表示长度为３２的比特串。１．１函数布尔函数ＦＦｉ（Ｘ，Ｙ，Ｚ）、ＧＧｉ（Ｘ，Ｙ，Ｚ），０ ≤ ｉ ≤６３的定义如下：ＦＦｉ（Ｘ，Ｙ，Ｚ）＝Ｘ 􀱇 Ｙ 􀱇 Ｚ，０ ≤ ｉ ≤ １５（Ｘ ∧ Ｙ） ∨ （Ｘ ∧ Ｚ） ∨ （Ｙ ∧ Ｚ），１６ ≤ ｉ ≤ ６３ { ＧＧｉ（Ｘ，Ｙ，Ｚ）＝Ｘ 􀱇 Ｙ 􀱇 Ｚ，０ ≤ ｉ ≤ １５（Ｘ ∧ Ｙ） ∨ （¬ Ｘ ∧ Ｚ），１６ ≤ ｉ ≤ ６３ { 置换函数Ｐ０（Ｘ）和Ｐ１（Ｘ）的定义如下：Ｐ０（Ｘ）＝Ｘ 􀱇 （Ｘ＜＜＜９） 􀱇 （Ｘ＜＜＜１７）Ｐ１（Ｘ）＝Ｘ 􀱇 （Ｘ＜＜＜１５） 􀱇 （Ｘ＜＜＜２３）１．２填充设消息的长度为ｌ比特。填充方式为：首先将比特“１”添加到消息的末尾；然后添加ｋ个“０”，ｋ是满足ｌ＋１＋ｋ＝４４８ｍｏｄ５１２的最小的非负整数；最后再将消息长度ｌ的６４位二进制表示添加在最末。填充后的消息比特长度为５１２的倍数。１．３迭代压缩填充后的消息ｍ′ 按５１２比特进行分组：ｍ′ ＝Ｂ（０）‖…‖Ｂ（ｎ－１）．对每个分组利用压缩函数ＣＦ进行迭代：ＦＯＲｉ＝０ＴＯｎ－１Ｖ（ｉ＋１） ← ＣＦ（Ｖ（ｉ），Ｂ（ｉ））ＥＮＤＦＯＲ１．４压缩函数压缩函数ＣＦ的计算过程如下：首先，计算消息扩展字Ｗｉ，０ ≤ ｉ ≤ ６７和Ｗｉ ′，０ ≤ｉ ≤ ６３，步骤如下：Ｗ０‖…‖Ｗ１５＝Ｂ（ｉ）ＦＯＲｉ＝１６ＴＯ６７Ｗｉ ← Ｐ１（Ｗｉ－１６ 􀱇 Ｗｉ－９ 􀱇 （Ｗｉ－３＜＜＜１５）） 􀱇 （Ｗｉ－１３＜＜＜７） 􀱇 Ｗｉ－６ＥＮＤＦＯＲＦＯＲｉ＝０ＴＯ６３Ｗ′ｉ ← Ｗｉ 􀱇 Ｗｉ＋４ＥＮＤＦＯＲ然后，进行包含６４轮迭代的压缩，步骤如下：Ａ‖Ｂ‖Ｃ‖Ｄ‖Ｅ‖Ｆ‖Ｇ‖Ｈ ← Ｖ（ｉ）ＦＯＲｉ＝０ＴＯ６３ＳＳ１ ← （（Ａ＜＜＜１２）＋Ｅ＋（Ｔｊ＜＜＜ｊ））＜＜＜７ＳＳ２ ← ＳＳ１ 􀱇 （Ａ＜＜＜１２）第６期杨先伟，等：ＳＭ３杂凑算法的软件快速实现研究 ·９５５·

·956· 智能系统学报第10卷 TT-FF (A,B,C)+D SS2 +W' 了字W。,…,W。和W。,…,W的加载和存储次 TT2+GG(E,F,G)+H SS W 数，提高了消息扩展的速度。 D←-C 2.2压缩函数的快速实现 C←-B>>32, F←E EIF‖GIH←-(EIFIGIH)>>>32。为了减 E←-P(TT2) 少循环移位导致的不必要的赋值运算，可以将字的 END FOR 循环右移变更每轮输入字顺序的变动，且这个顺序 +)←V⊕(AIBICID‖EIFIGIH) 变动会在4轮后还原，具体情况如下（以下用 1.5输出杂凑值 OneRound(·)表示一轮压缩)： 256比特杂凑值y的计算方式为 OneRound(i+0,A,B,C,D,E,F,G,H,W) y←(AIBICIDIEIFIGIH)←O OneRound(i +1,D,A,B,C,H,E,F,G,W) 2软件快速实现 OneRound(i +2,C,D,A,B,G,H,E,F,W) OneRound(i+3,B,C,D,A,F,G,H,E,W) 从理论上讲，SM3算法中使用最多且最耗时的 2)可以优化压缩函数的中间变量的生成流程。是64轮压缩函数和消息扩展。利用Intel VTune 此优化生成流程可以去除不必要的赋值，减少中间 Amplifier XE分析算法热点，得出信息如下表。变量个数。优化后的执行步骤如下（其中t:=T: 表1普通实现时的热点 <<<i为常数)： Table 1 The hot spots of general implementation TT2←-A<<<12 参数耗时/s 百分比/% TT1←-TT2+E+ 整体 21.795 100 TT,←TT,<<<7 压缩函数 14.355 65.9 TT2←TT,⊕TT 消息扩展 5.287 24.3 3)利用上述调整以及消息扩展部分的调整可其他 2.153 9.8 以将原来计算TT1、TT2、D和H的过程进行如下的热点信息显示，压缩函数和消息扩展的确是最进一步简化。耗时的2个部分，其耗时分别占总耗时的65.9%和 D←-D+FF(A,B,C)+TT2+(W:①W+a) 24.3%。因此，快速实现的关键在怎样快速实现压 H←H+GG(A,B,C)+TT,+W 缩函数和消息扩展。 4)预先计算并存储常数t:=T:<<<i。这可 2.1消息扩展的快速实现以避免每个消息分组都去计算常数，且占用的存储消息扩展的目的是利用512比特的消息分组B 空间也很少，仅256Byte。扩展得到68个字W。,…,W,和64个字W。,…, 2.3调整后的算法描述 W'6 优化后的算法将消息扩展和压缩函数结合在一快速实现时，为了尽可能减少不必要的数据加起。下面先描述调整后的消息处理算法，该算法完载和存储，W。,…,W和W'。,…,W6a的计算可以成消息扩展和64轮压缩迭代：再描述调整后的一轮调整到压缩函数里执行，具体实施过程是：算法，该算法完成一轮压缩迭代，包括计算必需的消 1)首先在执行64轮压缩函数前只计算初始的息扩展字W+4。调整后的消息处理算法描述如下。 4个字Wo,…,W3 算法1调整后的消息处理算法 2)然后在压缩函数的第i轮生成W:+4,而W': ProcessBlock(V,M) 则使用W:=W①W4代替。输入：上轮迭代结果V,一个消息分组B 经过这样的调整，去掉了字W。,…,W6品，减少输出：本轮迭代结果V

ＴＴ１ ← ＦＦｉ（Ａ，Ｂ，Ｃ）＋Ｄ＋ＳＳ２＋Ｗｉ ′ ＴＴ２ ← ＧＧｉ（Ｅ，Ｆ，Ｇ）＋Ｈ＋ＳＳ１＋ＷｉＤ ← ＣＣ ← Ｂ＜＜＜９Ｂ ← ＡＡ ← ＴＴ１Ｈ ← ＧＧ ← Ｆ＜＜＜１９Ｆ ← ＥＥ ← Ｐ０（ＴＴ２）ＥＮＤＦＯＲＶ（ｉ＋１） ← Ｖ（ｉ） 􀱇 （Ａ‖Ｂ‖Ｃ‖Ｄ‖Ｅ‖Ｆ‖Ｇ‖Ｈ）１．５输出杂凑值２５６比特杂凑值ｙ的计算方式为ｙ ← （Ａ‖Ｂ‖Ｃ‖Ｄ‖Ｅ‖Ｆ‖Ｇ‖Ｈ） ← Ｖ（ｎ）２软件快速实现从理论上讲，ＳＭ３算法中使用最多且最耗时的是６４轮压缩函数和消息扩展。利用ＩｎｔｅｌＶＴｕｎｅＡｍｐｌｉｆｉｅｒＸＥ分析算法热点，得出信息如下表。表１普通实现时的热点Ｔａｂｌｅ１Ｔｈｅｈｏｔｓｐｏｔｓｏｆｇｅｎｅｒａｌｉｍｐｌｅｍｅｎｔａｔｉｏｎ参数耗时／ｓ百分比／％整体２１．７９５１００压缩函数１４．３５５６５．９消息扩展５．２８７２４．３其他２．１５３９．８热点信息显示，压缩函数和消息扩展的确是最耗时的２个部分，其耗时分别占总耗时的６５．９％和２４．３％。因此，快速实现的关键在怎样快速实现压缩函数和消息扩展。２．１消息扩展的快速实现消息扩展的目的是利用５１２比特的消息分组Ｂ扩展得到６８个字Ｗ０，…，Ｗ６７和６４个字Ｗ′０，…，Ｗ′６３。快速实现时，为了尽可能减少不必要的数据加载和存储，Ｗ０，…，Ｗ６７和Ｗ′０，…，Ｗ′６３的计算可以调整到压缩函数里执行，具体实施过程是：１）首先在执行６４轮压缩函数前只计算初始的４个字Ｗ０，…，Ｗ３；２）然后在压缩函数的第ｉ轮生成Ｗｉ＋４，而Ｗ′ｉ则使用Ｗ′ｉ＝Ｗｉ 􀱇 Ｗｉ＋４代替。经过这样的调整，去掉了字Ｗ′０，…，Ｗ′６３，减少了字Ｗ０，…，Ｗ６７和Ｗ′０，…，Ｗ′６３的加载和存储次数，提高了消息扩展的速度。２．２压缩函数的快速实现压缩函数的快速实现可以从结构调整、流程变更、常数计算等方面着手。１）压缩函数的结构可以做适当的调整。压缩函数每一轮的最末会执行如下所示的循环右移，Ａ‖Ｂ‖Ｃ‖Ｄ ← （Ａ‖Ｂ‖Ｃ‖Ｄ）＞＞＞３２，Ｅ‖Ｆ‖Ｇ‖Ｈ ← （Ｅ‖Ｆ‖Ｇ‖Ｈ）＞＞＞３２。为了减少循环移位导致的不必要的赋值运算，可以将字的循环右移变更每轮输入字顺序的变动，且这个顺序变动会在４轮后还原，具体情况如下（以下用ＯｎｅＲｏｕｎｄ（·）表示一轮压缩）：ＯｎｅＲｏｕｎｄ（ｉ＋０，Ａ，Ｂ，Ｃ，Ｄ，Ｅ，Ｆ，Ｇ，Ｈ，Ｗ）ＯｎｅＲｏｕｎｄ（ｉ＋１，Ｄ，Ａ，Ｂ，Ｃ，Ｈ，Ｅ，Ｆ，Ｇ，Ｗ）ＯｎｅＲｏｕｎｄ（ｉ＋２，Ｃ，Ｄ，Ａ，Ｂ，Ｇ，Ｈ，Ｅ，Ｆ，Ｗ）ＯｎｅＲｏｕｎｄ（ｉ＋３，Ｂ，Ｃ，Ｄ，Ａ，Ｆ，Ｇ，Ｈ，Ｅ，Ｗ）２）可以优化压缩函数的中间变量的生成流程。此优化生成流程可以去除不必要的赋值，减少中间变量个数。优化后的执行步骤如下（其中ｔｉ＝Ｔｉ＜＜＜ｉ为常数）：ＴＴ２ ← Ａ＜＜＜１２ＴＴ１ ← ＴＴ２＋Ｅ＋ｔｉＴＴ１ ← ＴＴ１＜＜＜７ＴＴ２ ← ＴＴ２ 􀱇 ＴＴ１３）利用上述调整以及消息扩展部分的调整可以将原来计算ＴＴ１、ＴＴ２、Ｄ和Ｈ的过程进行如下的进一步简化。Ｄ ← Ｄ＋ＦＦｉ（Ａ，Ｂ，Ｃ）＋ＴＴ２＋（Ｗｉ 􀱇 Ｗｉ＋４）Ｈ ← Ｈ＋ＧＧｉ（Ａ，Ｂ，Ｃ）＋ＴＴ１＋Ｗｉ４）预先计算并存储常数ｔｉ＝Ｔｉ＜＜＜ｉ。这可以避免每个消息分组都去计算常数，且占用的存储空间也很少，仅２５６Ｂｙｔｅ。２．３调整后的算法描述优化后的算法将消息扩展和压缩函数结合在一起。下面先描述调整后的消息处理算法，该算法完成消息扩展和６４轮压缩迭代；再描述调整后的一轮算法，该算法完成一轮压缩迭代，包括计算必需的消息扩展字Ｗｉ＋４。调整后的消息处理算法描述如下。算法１调整后的消息处理算法ＰｒｏｃｅｓｓＢｌｏｃｋ（Ｖ，Ｍ）输入：上轮迭代结果Ｖ，一个消息分组Ｂ输出：本轮迭代结果Ｖ ·９５６· 智能系统学报第１０卷

第6期杨先伟，等：SM3杂凑算法的软件快速实现研究 ·957. 中间变量：字寄存器A一H, 已经求出，执行完毕后W+4也被计算出来：步骤2 步骤：中的t:为常量T:<<<i,应预先计算并存储，使用 1)W。‖W,IW2‖W3←-B。IB,‖B2lB3, 时只需查表：由于W,、FF,、GG:的计算方式在i< 2)AIBI C IDI E I F I GIH-V, 16时和i≥16时不同，因此可以考虑将0 neRound 3)F0R(i=0,4,8,…,60), 函数分为0≤i<12、12≤i<16、16≤i<643种 OneRound(i +0,A,B,C,D,E,F,G,H,W), 情况分别实现。 OneRound(i 1,D,A,B,C,H,E,F,G,W), OneRound(i +2,C,D,A,B,G,H,E,F,W), 32种实现方式的计算量分析评估 OneRound(i +3,B,C,D,A,F,G,H,E,W), 为了从理论上评估新方法的效率，本节对2种 END FOR 方法的计算量进行详细对比。由于算法的操作主要 4)V←V⊕(A IB I C‖DIEIFIGIH), 集中在压缩函数中，因此以下对压缩函数的计算量 5)返回V。进行统计、分析和对比。优化前的方法严格按照标对算法1做以下儿点说明：这里的准文档，先计算消息扩展字，再进行64轮迭代，优化 B。‖B,…‖Bs=B分别代表消息的16个字：前4 后的方法则按照上一节描述的算法1和算法2进行个消息扩展字W。、W,、W2、W3需在循环前计算出来，实现。以下用LOAD和STORE表示数据加载和存进入后面的循环后，每次执行OneRound(i,*)将储，XOR表示异或运算，ROT表示移位运算，ADD 计算W:+4。表示加法运算，AND表示与运算，OR表示或运算，调整后的一轮压缩算法如下。 NOT表示非运算。算法2调整后的一轮压缩算法优化前的算法中，消息扩展的计算量为： OneRound(i,A,B,C,D,E,F,G,H,W) 1)计算前16个W,时每个需执行1次L0AD和输入：字寄存器A一H,轮序号i,消息扩展字数 1次STORE,计算后52个W时每个需执行5次组W=(Wo,…,W6) LOAD、1次STORE,6次XOR、4次ROT; 输出：更新后的A一H和W=(W。,…,W6) 2)计算64个W',每个需执行2次L0AD、1次步骤： STORE、1次ROT: 1)计算消息扩展字W+4 3)计算压缩函数的一次迭代需要执行3次 F(i<12)W:+4←-B+d LOAD、12次STORE、8次ADD、3次XOR、8次 ELSE W44←-P,(W-2①W-s⊕(W+1<<< ROT、1次FFi函数和1次GGi函数， 15))④(W-9<<<7)⊕W-2 4)F℉i函数和GGi函数的计算量是，前16次 END IF FFi函数需执行2次XOR和2次ROT,前16次GGi 2)计算中间变量TT,和TT, 函数需执行2次XOR和2次ROT,后48次FFi函 TT2←-A<<<12 数需执行3次AND和2次OR,后48次GGi函数需 TT,←-TT2+E+t 执行2次AND、1次OR、1次NOT。 TT,←TT,<<<7 根据以上统计分析，表2列出了优化前的算法 TT2←TT,①TT1 中对一个512比特的消息块执行一次完整的压缩所 3)仅更新字寄存器B、D、F、H。需的计算量。 D←-D+FF,(A,B,C)+TT2+(W:①W+a) 优化后的算法中，消息扩展的计算量为： H-H+GG(E,F,G)TT +Wi 1)计算前12个W+4时每个需执行1次L0AD B-B<<<9 和1次STORE,计算后52个W+4时每个需执行5 F←-F<<<19 次LOAD、1次STORE、6次XOR、4次ROT; H←-P。(H) 2)计算中间变量TT,和TT,需要执行1次 4)返回更新后的A一H和W=(W。,…,W）。 LOAD、2次STORE、2次ADD、1次XOR、2次ROT; 对算法2做以下几点说明：进入第i轮的算法2 3)更新字寄存器B、D、F、H需要执行：1次之时，消息扩展字只有{W|k<i+4}这部分信息 LOAD、1次STORE、6次ADD、3次XOR、4次ROT

中间变量：字寄存器Ａ—Ｈ，步骤：１）Ｗ０‖Ｗ１‖Ｗ２‖Ｗ３ ← Ｂ０‖Ｂ１‖Ｂ２‖Ｂ３，２）Ａ‖Ｂ‖Ｃ‖Ｄ‖Ｅ‖Ｆ‖Ｇ‖Ｈ ← Ｖ，３）ＦＯＲ（ｉ＝０，４，８，…，６０），ＯｎｅＲｏｕｎｄ（ｉ＋０，Ａ，Ｂ，Ｃ，Ｄ，Ｅ，Ｆ，Ｇ，Ｈ，Ｗ），ＯｎｅＲｏｕｎｄ（ｉ＋１，Ｄ，Ａ，Ｂ，Ｃ，Ｈ，Ｅ，Ｆ，Ｇ，Ｗ），ＯｎｅＲｏｕｎｄ（ｉ＋２，Ｃ，Ｄ，Ａ，Ｂ，Ｇ，Ｈ，Ｅ，Ｆ，Ｗ），ＯｎｅＲｏｕｎｄ（ｉ＋３，Ｂ，Ｃ，Ｄ，Ａ，Ｆ，Ｇ，Ｈ，Ｅ，Ｗ），ＥＮＤＦＯＲ４）Ｖ ← Ｖ 􀱇 （Ａ‖Ｂ‖Ｃ‖Ｄ‖Ｅ‖Ｆ‖Ｇ‖Ｈ），５）返回Ｖ。对算法１做以下几点说明：这里的Ｂ０‖Ｂ１‖…‖Ｂ１５＝Ｂ分别代表消息的１６个字；前４个消息扩展字Ｗ０、Ｗ１、Ｗ２、Ｗ３需在循环前计算出来，进入后面的循环后，每次执行ＯｎｅＲｏｕｎｄ（ｉ，∗）将计算Ｗｉ＋４。调整后的一轮压缩算法如下。算法２调整后的一轮压缩算法ＯｎｅＲｏｕｎｄ（ｉ，Ａ，Ｂ，Ｃ，Ｄ，Ｅ，Ｆ，Ｇ，Ｈ，Ｗ）输入：字寄存器Ａ—Ｈ，轮序号ｉ，消息扩展字数组Ｗ＝（Ｗ０，…，Ｗ６７）输出：更新后的Ａ—Ｈ和Ｗ＝（Ｗ０，…，Ｗ６７）步骤：１）计算消息扩展字Ｗｉ＋４ＩＦ（ｉ＜１２）Ｗｉ＋４ ← Ｂｉ＋４ＥＬＳＥＷｉ＋４ ← Ｐ１（Ｗｉ－１２ 􀱇 Ｗｉ－５ 􀱇 （Ｗｉ＋１＜＜＜１５）） 􀱇 （Ｗｉ－９＜＜＜７） 􀱇 Ｗｉ－２ＥＮＤＩＦ２）计算中间变量ＴＴ１和ＴＴ２ＴＴ２ ← Ａ＜＜＜１２ＴＴ１ ← ＴＴ２＋Ｅ＋ｔｉＴＴ１ ← ＴＴ１＜＜＜７ＴＴ２ ← ＴＴ２ 􀱇 ＴＴ１３）仅更新字寄存器Ｂ、Ｄ、Ｆ、Ｈ。Ｄ ← Ｄ＋ＦＦｉ（Ａ，Ｂ，Ｃ）＋ＴＴ２＋（Ｗｉ 􀱇 Ｗｉ＋４）Ｈ ← Ｈ＋ＧＧｉ（Ｅ，Ｆ，Ｇ）＋ＴＴ１＋ＷｉＢ ← Ｂ＜＜＜９Ｆ ← Ｆ＜＜＜１９Ｈ ← Ｐ０（Ｈ）４）返回更新后的Ａ—Ｈ和Ｗ＝（Ｗ０，…，Ｗ６７）。对算法２做以下几点说明：进入第ｉ轮的算法２之时，消息扩展字只有｛Ｗｋ｜ｋ＜ｉ＋４｝这部分信息已经求出，执行完毕后Ｗｉ＋４也被计算出来；步骤２中的ｔｉ为常量Ｔｉ＜＜＜ｉ，应预先计算并存储，使用时只需查表；由于Ｗｉ、ＦＦｉ、ＧＧｉ的计算方式在ｉ＜１６时和ｉ ≥ １６时不同，因此可以考虑将ＯｎｅＲｏｕｎｄ函数分为０ ≤ ｉ＜１２、１２ ≤ ｉ＜１６、１６ ≤ ｉ＜６４３种情况分别实现。３２种实现方式的计算量分析评估为了从理论上评估新方法的效率，本节对２种方法的计算量进行详细对比。由于算法的操作主要集中在压缩函数中，因此以下对压缩函数的计算量进行统计、分析和对比。优化前的方法严格按照标准文档，先计算消息扩展字，再进行６４轮迭代，优化后的方法则按照上一节描述的算法１和算法２进行实现。以下用ＬＯＡＤ和ＳＴＯＲＥ表示数据加载和存储，ＸＯＲ表示异或运算，ＲＯＴ表示移位运算，ＡＤＤ表示加法运算，ＡＮＤ表示与运算，ＯＲ表示或运算，ＮＯＴ表示非运算。优化前的算法中，消息扩展的计算量为：１）计算前１６个Ｗｉ时每个需执行１次ＬＯＡＤ和１次ＳＴＯＲＥ，计算后５２个Ｗｉ时每个需执行５次ＬＯＡＤ、１次ＳＴＯＲＥ、６次ＸＯＲ、４次ＲＯＴ；２）计算６４个Ｗ′ｉ每个需执行２次ＬＯＡＤ、１次ＳＴＯＲＥ、１次ＲＯＴ；３）计算压缩函数的一次迭代需要执行３次ＬＯＡＤ、１２次ＳＴＯＲＥ、８次ＡＤＤ、３次ＸＯＲ、８次ＲＯＴ、１次ＦＦｉ函数和１次ＧＧｉ函数，４）ＦＦｉ函数和ＧＧｉ函数的计算量是，前１６次ＦＦｉ函数需执行２次ＸＯＲ和２次ＲＯＴ，前１６次ＧＧｉ函数需执行２次ＸＯＲ和２次ＲＯＴ，后４８次ＦＦｉ函数需执行３次ＡＮＤ和２次ＯＲ，后４８次ＧＧｉ函数需执行２次ＡＮＤ、１次ＯＲ、１次ＮＯＴ。根据以上统计分析，表２列出了优化前的算法中对一个５１２比特的消息块执行一次完整的压缩所需的计算量。优化后的算法中，消息扩展的计算量为：１）计算前１２个Ｗｉ＋４时每个需执行１次ＬＯＡＤ和１次ＳＴＯＲＥ，计算后５２个Ｗｉ＋４时每个需执行５次ＬＯＡＤ、１次ＳＴＯＲＥ、６次ＸＯＲ、４次ＲＯＴ；２）计算中间变量ＴＴ１和ＴＴ２需要执行１次ＬＯＡＤ、２次ＳＴＯＲＥ、２次ＡＤＤ、１次ＸＯＲ、２次ＲＯＴ；３）更新字寄存器Ｂ、Ｄ、Ｆ、Ｈ需要执行：１次ＬＯＡＤ、１次ＳＴＯＲＥ、６次ＡＤＤ、３次ＸＯＲ、４次ＲＯＴ、第６期杨先伟，等：ＳＭ３杂凑算法的软件快速实现研究 ·９５７·

·958· 智能系统学报第10卷 1次FFi函数和1次GGi函数；根据以上统计分析，表2列出了优化后的算法 4)FFi函数和GGi函数的计算量同优化前的计中对一个512比特的消息块执行一次完整的压缩所算量。需的计算量。表2优化前后一次压缩函数的计算量 Table 2 The computation of the compression function of the before and after optimization LOAD STORE ADD XOR ROT AND OR NOT 合计优化前 596 900 512 632 720 240 144 48 3792 优化后 400 256 512 632 592 240 144 好 2824 从表2可知，优化后的压缩函数通过轮函数的情况说明。调整和消息扩展函数的优化，大大减少了LOAD和 1)第1组测试中测试1个数据包，该数据包为 STORE的次数，同时中间变量TT,和TT,的优化实 256×10个字节，此测试用以模拟大量数据杂凑的现又进一步减少了ROT的次数，其余运算的计算量情况，如大型文件杂凑；无变化。 2)第2组测试中杂凑200个数据包，每个数据如果从操作总数的角度考虑，优化后算法的速包1.28×10个字节，此测试用以模拟中型数据包杂度可提升(3792-2824)/2824=34.3%。但实际凑的情况，如图片等：上CPU执行这些操作指令时，不同的操作具有不同 3)第3组测试中杂凑40000个数据包，每个数的指令执行周期(eycle),甚至不同的CPU执行相同据包6.4×103个字节，此测试用以模拟普通网络数的运算所需的指令周期也各不相同。大部分CPU 据包杂凑的情况；执行整数的算数运算和逻辑运算需1个时钟周期， 4)第4组测试中杂凑8×10个数据包，每个数而执行LOAD和STORE则需要多个时钟周期，且各据包32个字节，此测试用以模拟频繁的微小型数据 CPU的执行时间也有较大差异。以下假设执行每个包杂凑的情况。算数逻辑运算需1个时钟周期。如果执行LOAD需为了统计每种测试的准确耗时值，每组测试都 1个时钟周期，执行STORE需2个时钟周期，则优化反复进行21次并记录各次的时间，最后从大到小排后算法的速度可提升52.3%。：如果假设执行LOAD 列后取最中间的值作为统计耗时值。需1.5个时钟周期，执行ST0RE需2.5个时钟周期，测试使用的软件平台详情如下：Windows XP 则优化后算法的速度可提升59.6%：如果假设执行 SP332比特、Intel Core i3@3400MHz、4 GB DDR3- LOAD需2个时钟周期，执行STORE需3个时钟周 1600 SDRAM、Microsoft Visual Studio8.0。速度单位期，则优化后算法的速度可提升65.6%。不同假设为Mbi/s。其中处理器的缓存情况为[)：一级缓存下的速度提升情况见下表3。为每个核心32KB,2级缓存为每个核心64KB,3级表3不同情况下的优化前后速度提升估计值缓存为多核共享3MB。 Table 3 The speed of the before and after optimization 表42种实现方式的性能比较算数逻辑 LOAD STORE 速度 Table 4 The performance comparison of two implementa- 运算(cycle) (cycle) (cycle) 提升/% tion methods 1 1.0 1.0 34.3 测试速度/(Mh·s1) 速度 1 1.0 2.0 52.3 类别优化前优化后提升/% 1 1.5 2.5 59.6 第1组测试 739 1203 62.8 1 2.0 3.0 65.6 第2组测试 733 1191 62.5 第3组测试 701 1074 53.2 4 模拟实验与对比测试第4组测试 642 973 51.6 为了模拟真实环境中对SM3算法软件实现的平均 704 1110 57.7 需求，下面的实验中进行了4组测试，每组测试方法上表列出的测试结果表明：1)数据包越大，执行对多个数据包进行杂凑，每个数据包为特定长度字效率越高，这是因为大型数据包减少了一头一尾的节，然后统计耗时和速度。以下为4组测试的详细初始化、消息填充和反初始化等工作：2)优化调整后

１次ＦＦｉ函数和１次ＧＧｉ函数；４）ＦＦｉ函数和ＧＧｉ函数的计算量同优化前的计算量。根据以上统计分析，表２列出了优化后的算法中对一个５１２比特的消息块执行一次完整的压缩所需的计算量。表２优化前后一次压缩函数的计算量Ｔａｂｌｅ２ＴｈｅｃｏｍｐｕｔａｔｉｏｎｏｆｔｈｅｃｏｍｐｒｅｓｓｉｏｎｆｕｎｃｔｉｏｎｏｆｔｈｅｂｅｆｏｒｅａｎｄａｆｔｅｒｏｐｔｉｍｉｚａｔｉｏｎＬＯＡＤＳＴＯＲＥＡＤＤＸＯＲＲＯＴＡＮＤＯＲＮＯＴ合计优化前５９６９００５１２６３２７２０２４０１４４４８３７９２优化后４００２５６５１２６３２５９２２４０１４４４８２８２４从表２可知，优化后的压缩函数通过轮函数的调整和消息扩展函数的优化，大大减少了ＬＯＡＤ和ＳＴＯＲＥ的次数，同时中间变量ＴＴ１和ＴＴ２的优化实现又进一步减少了ＲＯＴ的次数，其余运算的计算量无变化。如果从操作总数的角度考虑，优化后算法的速度可提升（３７９２－２８２４）／２８２４＝３４．３％。但实际上ＣＰＵ执行这些操作指令时，不同的操作具有不同的指令执行周期（ｃｙｃｌｅ），甚至不同的ＣＰＵ执行相同的运算所需的指令周期也各不相同。大部分ＣＰＵ执行整数的算数运算和逻辑运算需１个时钟周期，而执行ＬＯＡＤ和ＳＴＯＲＥ则需要多个时钟周期，且各ＣＰＵ的执行时间也有较大差异。以下假设执行每个算数逻辑运算需１个时钟周期。如果执行ＬＯＡＤ需１个时钟周期，执行ＳＴＯＲＥ需２个时钟周期，则优化后算法的速度可提升５２．３％。；如果假设执行ＬＯＡＤ需１．５个时钟周期，执行ＳＴＯＲＥ需２．５个时钟周期，则优化后算法的速度可提升５９．６％；如果假设执行ＬＯＡＤ需２个时钟周期，执行ＳＴＯＲＥ需３个时钟周期，则优化后算法的速度可提升６５．６％。不同假设下的速度提升情况见下表３。表３不同情况下的优化前后速度提升估计值Ｔａｂｌｅ３Ｔｈｅｓｐｅｅｄｏｆｔｈｅｂｅｆｏｒｅａｎｄａｆｔｅｒｏｐｔｉｍｉｚａｔｉｏｎ算数逻辑运算（ｃｙｃｌｅ）ＬＯＡＤ（ｃｙｃｌｅ）ＳＴＯＲＥ（ｃｙｃｌｅ）速度提升／％１１．０１．０３４．３１１．０２．０５２．３１１．５２．５５９．６１２．０３．０６５．６４模拟实验与对比测试为了模拟真实环境中对ＳＭ３算法软件实现的需求，下面的实验中进行了４组测试，每组测试方法对多个数据包进行杂凑，每个数据包为特定长度字节，然后统计耗时和速度。以下为４组测试的详细情况说明。１）第１组测试中测试１个数据包，该数据包为２５６ × １０６个字节，此测试用以模拟大量数据杂凑的情况，如大型文件杂凑；２）第２组测试中杂凑２００个数据包，每个数据包１．２８ × １０６个字节，此测试用以模拟中型数据包杂凑的情况，如图片等；３）第３组测试中杂凑４００００个数据包，每个数据包６．４ × １０３个字节，此测试用以模拟普通网络数据包杂凑的情况；４）第４组测试中杂凑８ × １０６个数据包，每个数据包３２个字节，此测试用以模拟频繁的微小型数据包杂凑的情况。为了统计每种测试的准确耗时值，每组测试都反复进行２１次并记录各次的时间，最后从大到小排列后取最中间的值作为统计耗时值。测试使用的软件平台详情如下：ＷｉｎｄｏｗｓＸＰＳＰ３３２比特、ＩｎｔｅｌＣｏｒｅｉ３＠３４００ＭＨｚ、４ＧＢＤＤＲ３⁃ １６００ＳＤＲＡＭ、ＭｉｃｒｏｓｏｆｔＶｉｓｕａｌＳｔｕｄｉｏ８．０。速度单位为Ｍｂｉｔ／ｓ。其中处理器的缓存情况为［１３］：一级缓存为每个核心３２ＫＢ，２级缓存为每个核心６４ＫＢ，３级缓存为多核共享３ＭＢ。表４２种实现方式的性能比较Ｔａｂｌｅ４Ｔｈｅｐｅｒｆｏｒｍａｎｃｅｃｏｍｐａｒｉｓｏｎｏｆｔｗｏｉｍｐｌｅｍｅｎｔａ⁃ ｔｉｏｎｍｅｔｈｏｄｓ测试类别速度／（Ｍｂ·ｓ－１）优化前优化后速度提升／％第１组测试７３９１２０３６２．８第２组测试７３３１１９１６２．５第３组测试７０１１０７４５３．２第４组测试６４２９７３５１．６平均７０４１１１０５７．７上表列出的测试结果表明：１）数据包越大，执行效率越高，这是因为大型数据包减少了一头一尾的初始化、消息填充和反初始化等工作：２）优化调整后 ·９５８· 智能系统学报第１０卷

第6期杨先伟，等：SM3杂凑算法的软件快速实现研究 .959. 的算法效率提升显著，可以提升60%左右，在杂凑大 [8]王晓燕，杨先文.基于FPGA的SM3算法优化设计与实中型数据包时速度提升60%以上，即使在杂凑微小现[J].计算机工程，2012,38(6)：244-246. 型数据包时效率也能提升50%以上。 WANG Xiaoyan,YANG Xianwen.Optimization design and implementation of SM3 algorithm based on FPGA[J].Com- 4结束语 puter Engineering,2012,38(6):244-246. [9]伍娟.国密SM3算法在C0S上的研究与实现[J刀].科技本文对我国国家密码管理局发布的SM3密码杂信息，2013，(2)：294-295. 凑算的软件快速实现进行研究，根据算法自身的特 WU Juan.Research and implementation of SM3 algorithm on 点，尤其是压缩函数的特点，给出一种更加适用于软 COS[J].Science Technology Information,2013,(2): 件快速实现的算法描述方式和实现方法。理论分析 294-295. 得出的算法计算量以及模拟实验结果均表明，利用此 [10]曾小波，唐忠彪，焦歆.基于单片机的SM3算法优化及软件快速实现方法可以将算法的效率提升60%左右。 Verilog模型验证[J].电子科技，2015,28(2)：38-40. 另外，此软件快速实现方式不基于特定的平台、架构、 ZENG Xiaobo,TANG Zhongbiao,JIAO Xin.Optimization 指令等，因此具有很强的跨平台性和兼容性。 of SM3 algorithm and Verilog model validation based on SCM[J].Electronic Science and Technology,2015,28 参考文献： (2):38-40. [1l]沈一公，苏厚勤.基于Android的SM3密码杂凑算法研 [1]NIST.Federal information processing standards publication 180-3,secure hash standards (SHS)[S].Gaithersburg, 究与实现[J].电子技术与软件工程，2013(18)：69-70. SHEN Yigong,SU Houqin.Research and implementation MD,USA:Information Technology Laboratory of National of SM3 algorithm based on android[J].Electronic Technol- Institute of Standards and Technology,2008.http://csre. ogy Software Engineering,2013(18):69-70. nist.gov/publications. [12]易叔贤，张非凡.SM系列算法在金融IC卡领域的应用 [2]NIST.Cryptographic hash algorithm competition [EB/OL]. (2005-04-15)[2015-08-05].htp:/csrc.nist.gov/groups/, [J].金融电子化.2013(7)：49-52. YI Shuxian,ZHANG Feifan.Application of SM series algo- ST/hash/sha-3/index.html. [3]国家密码管理局.SM3密码杂凑算法[S].北京：国家密 rithm in the field of financial IC card[J].Financial Com- 码管理局，2010. puterizing,2013(7):49-52. [13]ntel.2nd generation intel coreTM processor family desktop National Cryptography Administration.SM3 cryptographic datasheet[EB/0L].(2011-01-04)[2013-07-08].htp:/ hash algorithm[S].Beijing:National Cryptography Admin- www.intel.com/content/www/us/en/processors/core/2nd- istration,2010. [4]ACIICMEZ O.Fast hashing on pentium SIMD architecture gen-core-desktop-vol-1-datasheet.html. 作者简介： [D].Corvallis,Oregon:Oregon State University,2004. 杨先伟，男，1980年生，讲师，主要 [5]GUERON S,KRASNOV V.Parallelizing message schedules 研究方向为通信与系统工程。 to accelerate the computations of hash functions[R].2012. http://eprint.iacr.org/2012/067.pdf [6]GUERON S,KRASNOV V.Simultaneous hashing of multi- ple messages[J].Journal of Information Security,2012,3 (4):319-325. [7]张倩，李树国.SM3杂凑算法的ASIC设计和实现[J].微康红娟，女，1983年生，工程师，主电子学与计算机，2014,31(9)：143-146,152 要研究方向为保密通信。 ZHANG Qian,LI Shuguo.Design and implementation of SM3 algorithm in ASIC[J].Microelectronics Computer. 2014,31(9)：143-146,152

的算法效率提升显著，可以提升６０％左右，在杂凑大中型数据包时速度提升６０％以上，即使在杂凑微小型数据包时效率也能提升５０％以上。４结束语本文对我国国家密码管理局发布的ＳＭ３密码杂凑算的软件快速实现进行研究，根据算法自身的特点，尤其是压缩函数的特点，给出一种更加适用于软件快速实现的算法描述方式和实现方法。理论分析得出的算法计算量以及模拟实验结果均表明，利用此软件快速实现方法可以将算法的效率提升６０％左右。另外，此软件快速实现方式不基于特定的平台、架构、指令等，因此具有很强的跨平台性和兼容性。参考文献：［１］ＮＩＳＴ．Ｆｅｄｅｒａｌｉｎｆｏｒｍａｔｉｏｎｐｒｏｃｅｓｓｉｎｇｓｔａｎｄａｒｄｓｐｕｂｌｉｃａｔｉｏｎ１８０⁃３，ｓｅｃｕｒｅｈａｓｈｓｔａｎｄａｒｄｓ（ＳＨＳ）［Ｓ］．Ｇａｉｔｈｅｒｓｂｕｒｇ，ＭＤ，ＵＳＡ：ＩｎｆｏｒｍａｔｉｏｎＴｅｃｈｎｏｌｏｇｙＬａｂｏｒａｔｏｒｙｏｆＮａｔｉｏｎａｌＩｎｓｔｉｔｕｔｅｏｆＳｔａｎｄａｒｄｓａｎｄＴｅｃｈｎｏｌｏｇｙ，２００８．ｈｔｔｐ：／／ｃｓｒｃ．ｎｉｓｔ．ｇｏｖ／ｐｕｂｌｉｃａｔｉｏｎｓ．［２］ＮＩＳＴ．Ｃｒｙｐｔｏｇｒａｐｈｉｃｈａｓｈａｌｇｏｒｉｔｈｍｃｏｍｐｅｔｉｔｉｏｎ［ＥＢ／ＯＬ］．（２００５⁃０４⁃１５）［２０１５⁃０８⁃０５］．ｈｔｔｐ：／／ｃｓｒｃ．ｎｉｓｔ．ｇｏｖ／ｇｒｏｕｐｓ／ＳＴ／ｈａｓｈ／ｓｈａ⁃３／ｉｎｄｅｘ．ｈｔｍｌ．［３］国家密码管理局．ＳＭ３密码杂凑算法［Ｓ］．北京：国家密码管理局，２０１０．ＮａｔｉｏｎａｌＣｒｙｐｔｏｇｒａｐｈｙＡｄｍｉｎｉｓｔｒａｔｉｏｎ．ＳＭ３ｃｒｙｐｔｏｇｒａｐｈｉｃｈａｓｈａｌｇｏｒｉｔｈｍ［Ｓ］．Ｂｅｉｊｉｎｇ：ＮａｔｉｏｎａｌＣｒｙｐｔｏｇｒａｐｈｙＡｄｍｉｎ⁃ ｉｓｔｒａｔｉｏｎ，２０１０．［４］ＡＣＩＩＣＭＥＺＯ．ＦａｓｔｈａｓｈｉｎｇｏｎｐｅｎｔｉｕｍＳＩＭＤａｒｃｈｉｔｅｃｔｕｒｅ［Ｄ］．Ｃｏｒｖａｌｌｉｓ，Ｏｒｅｇｏｎ：ＯｒｅｇｏｎＳｔａｔｅＵｎｉｖｅｒｓｉｔｙ，２００４．［５］ＧＵＥＲＯＮＳ，ＫＲＡＳＮＯＶＶ．Ｐａｒａｌｌｅｌｉｚｉｎｇｍｅｓｓａｇｅｓｃｈｅｄｕｌｅｓｔｏａｃｃｅｌｅｒａｔｅｔｈｅｃｏｍｐｕｔａｔｉｏｎｓｏｆｈａｓｈｆｕｎｃｔｉｏｎｓ［Ｒ］．２０１２．ｈｔｔｐ：／／ｅｐｒｉｎｔ．ｉａｃｒ．ｏｒｇ／２０１２／０６７．ｐｄｆ［６］ＧＵＥＲＯＮＳ，ＫＲＡＳＮＯＶＶ．Ｓｉｍｕｌｔａｎｅｏｕｓｈａｓｈｉｎｇｏｆｍｕｌｔｉ⁃ ｐｌｅｍｅｓｓａｇｅｓ［Ｊ］．ＪｏｕｒｎａｌｏｆＩｎｆｏｒｍａｔｉｏｎＳｅｃｕｒｉｔｙ，２０１２，３（４）：３１９⁃３２５．［７］张倩，李树国．ＳＭ３杂凑算法的ＡＳＩＣ设计和实现［Ｊ］．微电子学与计算机，２０１４，３１（９）：１４３⁃１４６，１５２．ＺＨＡＮＧＱｉａｎ，ＬＩＳｈｕｇｕｏ．ＤｅｓｉｇｎａｎｄｉｍｐｌｅｍｅｎｔａｔｉｏｎｏｆＳＭ３ａｌｇｏｒｉｔｈｍｉｎＡＳＩＣ［Ｊ］．Ｍｉｃｒｏｅｌｅｃｔｒｏｎｉｃｓ＆Ｃｏｍｐｕｔｅｒ，２０１４，３１（９）：１４３⁃１４６，１５２．［８］王晓燕，杨先文．基于ＦＰＧＡ的ＳＭ３算法优化设计与实现［Ｊ］．计算机工程，２０１２，３８（６）：２４４⁃２４６．ＷＡＮＧＸｉａｏｙａｎ，ＹＡＮＧＸｉａｎｗｅｎ．ＯｐｔｉｍｉｚａｔｉｏｎｄｅｓｉｇｎａｎｄｉｍｐｌｅｍｅｎｔａｔｉｏｎｏｆＳＭ３ａｌｇｏｒｉｔｈｍｂａｓｅｄｏｎＦＰＧＡ［Ｊ］．Ｃｏｍ⁃ ｐｕｔｅｒＥｎｇｉｎｅｅｒｉｎｇ，２０１２，３８（６）：２４４⁃２４６．［９］伍娟．国密ＳＭ３算法在ＣＯＳ上的研究与实现［Ｊ］．科技信息，２０１３，（２）：２９４⁃２９５．ＷＵＪｕａｎ．ＲｅｓｅａｒｃｈａｎｄｉｍｐｌｅｍｅｎｔａｔｉｏｎｏｆＳＭ３ａｌｇｏｒｉｔｈｍｏｎＣＯＳ［Ｊ］．Ｓｃｉｅｎｃｅ＆ＴｅｃｈｎｏｌｏｇｙＩｎｆｏｒｍａｔｉｏｎ，２０１３，（２）：２９４⁃２９５．［１０］曾小波，唐忠彪，焦歆．基于单片机的ＳＭ３算法优化及Ｖｅｒｉｌｏｇ模型验证［Ｊ］．电子科技，２０１５，２８（２）：３８⁃４０．ＺＥＮＧＸｉａｏｂｏ，ＴＡＮＧＺｈｏｎｇｂｉａｏ，ＪＩＡＯＸｉｎ．ＯｐｔｉｍｉｚａｔｉｏｎｏｆＳＭ３ａｌｇｏｒｉｔｈｍａｎｄＶｅｒｉｌｏｇｍｏｄｅｌｖａｌｉｄａｔｉｏｎｂａｓｅｄｏｎＳＣＭ［Ｊ］．ＥｌｅｃｔｒｏｎｉｃＳｃｉｅｎｃｅａｎｄＴｅｃｈｎｏｌｏｇｙ，２０１５，２８（２）：３８⁃４０．［１１］沈一公，苏厚勤．基于Ａｎｄｒｏｉｄ的ＳＭ３密码杂凑算法研究与实现［Ｊ］．电子技术与软件工程，２０１３（１８）：６９⁃７０．ＳＨＥＮＹｉｇｏｎｇ，ＳＵＨｏｕｑｉｎ．ＲｅｓｅａｒｃｈａｎｄｉｍｐｌｅｍｅｎｔａｔｉｏｎｏｆＳＭ３ａｌｇｏｒｉｔｈｍｂａｓｅｄｏｎａｎｄｒｏｉｄ［Ｊ］．ＥｌｅｃｔｒｏｎｉｃＴｅｃｈｎｏｌ⁃ ｏｇｙ＆ＳｏｆｔｗａｒｅＥｎｇｉｎｅｅｒｉｎｇ，２０１３（１８）：６９⁃７０．［１２］易叔贤，张非凡．ＳＭ系列算法在金融ＩＣ卡领域的应用［Ｊ］．金融电子化，２０１３（７）：４９⁃５２．ＹＩＳｈｕｘｉａｎ，ＺＨＡＮＧＦｅｉｆａｎ．ＡｐｐｌｉｃａｔｉｏｎｏｆＳＭｓｅｒｉｅｓａｌｇｏ⁃ ｒｉｔｈｍｉｎｔｈｅｆｉｅｌｄｏｆｆｉｎａｎｃｉａｌＩＣｃａｒｄ［Ｊ］．ＦｉｎａｎｃｉａｌＣｏｍ⁃ ｐｕｔｅｒｉｚｉｎｇ，２０１３（７）：４９⁃５２．［１３］ｎｔｅｌ．２ｎｄｇｅｎｅｒａｔｉｏｎｉｎｔｅｌ ® ｃｏｒｅＴＭｐｒｏｃｅｓｓｏｒｆａｍｉｌｙｄｅｓｋｔｏｐｄａｔａｓｈｅｅｔ［ＥＢ／ＯＬ］．（２０１１⁃０１⁃０４）［２０１３⁃０７⁃０８］．ｈｔｔｐ：／／ｗｗｗ．ｉｎｔｅｌ．ｃｏｍ／ｃｏｎｔｅｎｔ／ｗｗｗ／ｕｓ／ｅｎ／ｐｒｏｃｅｓｓｏｒｓ／ｃｏｒｅ／２ｎｄ⁃ ｇｅｎ⁃ｃｏｒｅ⁃ｄｅｓｋｔｏｐ⁃ｖｏｌ⁃１⁃ｄａｔａｓｈｅｅｔ．ｈｔｍｌ．作者简介：杨先伟，男，１９８０年生，讲师，主要研究方向为通信与系统工程。康红娟，女，１９８３年生，工程师，主要研究方向为保密通信。第６期杨先伟，等：ＳＭ３杂凑算法的软件快速实现研究 ·９５９·

点击下载完整版文档（PDF格式）

已到末页，全文结束

点击下载（PDF格式）

浏览记录