２）当ｉ＜ｎ／８时执行如下步骤；否则转３）。 ① Ｘ＝Ｅ

正在加载图片...

.516 智能系统学报第11卷 2)当i<n/8时执行如下步骤：否则转3)。如整数的加、减、比较、比特运算及移位等仅需一个 ①X=E:,H=X≥4，L=E:A0xF 时钟周期(eycle)。但数据加载的执行时间则有很 ②C4[H]=C[H]+1, 多因素，无法以准确的值计量。这里仅做粗略估计， C4[L]=C4[L]+1, 因此加速数据加载也仅需要一个时钟周期。这样一 Cs[X]=C[x]+1, 来原算法对一个样本进行检测的粗略估计时间为 ③i=i+1。 64M个时钟周期，算法1对一个样本进行检测的粗 3)计算两个统计值V,和V。略估计时间为6M个时钟周期，以此法粗略估计，算 .-4芝ca-子法1的检测速度为原算法的10.7倍左右。当然，此 =0 处为不精确的粗略估计而已，具体的速度提升情况 2048/ n c,9)-号以实验为准。 :=0 4)如果V,<入且Vg<入g,则认为待检序列通 5模拟实验测试过检测。否则未通过。为更准确地说明本文提出的算法的效率，本节算法1的主要优化方式是直接对输入的待检序测试优化前后算法的执行效率。列按字节而不是比特进行处理，减少了大量不必要的测试数据是利用我国的分组密码算法SM4算数据拆分为单比特等操作；并且将两种参数下的频数法生成的10°bit的伪随机数据，按样本大小10比统计合并在一起，避免了大量的数据加载等操作。特划分为1000个样本。 4优化前后计算量分析与对比测试平台为Intel Core i3@3400MHz处理器、4 GB DDR316 00MHz内存、Windows XP SP3操作系本节对优化前的算法和优化后的算法的计算量统、Visual Studio2008编译器。处理器的缓存情况进行定量评估与对比。为：一级缓存为每个核心32KB,二级缓存为每个核原算法的2)~4)的计算量都很小，因此本节在心64KB,三级缓存为多核共享3MB。进行计算量评估对比时，只比较最关键最耗时的步模拟实验使用的代码情况如下。优化前的测试骤统计频数所需要的运算量。为简化表示，将n比代码来源是先从NIST的官方网站取得检测代码，然特二元序列的字节长度记为M,M=n/8。而且通常后按原算法以及NST代码思想对以比特表示的二情况下输入的二元序列都是以字节表示，因此这里元序列，按比特操作实现扑克检测，NIST代码完成默认待检二元序列的比特长度n能被8整除。字节序列转比特表示的二元序列的相关功能。优化根据第2节的分析结果知，对一个n=10bit 后的代码（参见附录）是对以字节表示的序列按算 (M=125×103字节)的样本而言，原算法1)的计法1的步骤以字节处理为主实现扑克检测。所有的算量为16M次SHFT、16M次L0AD和32M次算法都采用标准C实现。 ADD。扑克检测优化算法1的1)进行简单分析可实验采用欧洲estream算法竞赛的速度测试模知，对一个n=10bit的样本而言，算法1的2)的计型的简化版本，该测试模型不仅在estream算法竞赛算量为M次SHIFT、M次LOAD、M次AND和3M次中采用，后续许多算法的性能评估也常采用该测试 ADD。原算法和优化算法（算法I)的运算量详情以模型。具体来讲速度测试流程如下。1)在被测试及对比情况见表2。代码段的前后各设置一个时间计数器T,和T。;2) 表2两个算法的运算量对比 Table 2 The performance comparison of two algorithms 将两个计时器之差T=T。-T,作为这段代码的耗时：3)重复1)和2)多次，为统计方便设定重复次数运算原算法算法1 为奇数，记重复次数为C,得到一系列的耗时值 LOAD 16M M T[i],1≤i≤C:4)将统计得到的耗时值序列按从 SHIFT 16M M 大到小的顺序排列得到T[1]≥T[2]≥…≥ AND 0 M T[C],当然也可按从小到大的顺序排列：5)取新 ADD 32M 3M 序列的中值T'[(C+1)/2]作为本段代码的统计耗由表2可知，优化后的扑克检测的计算量显著时值。W为了保证测试结果的准确性，本测试模型降低。中1)的时间计数器使用CPU频率计时器，直接调在现在的CPU中，常见的整数运算都比较快，用汇编指令RDTSC,在Windows环境下也可调用_２）当ｉ＜ｎ／８时执行如下步骤；否则转３）。 ① Ｘ＝Ｅｉ，Ｈ＝Ｘ ≫ ４，Ｌ＝Ｅｉ ∧ ０ｘＦ ② Ｃ４［Ｈ］＝Ｃ４［Ｈ］＋１，Ｃ４［Ｌ］＝Ｃ４［Ｌ］＋１，Ｃ８［Ｘ］＝Ｃ８［Ｘ］＋１， ③ ｉ＝ｉ＋１。３）计算两个统计值Ｖ４和Ｖ８。Ｖ４＝６４ｎ ∑ １５ｉ＝０Ｃ４［ｉ］２ ( ) －ｎ４Ｖ８＝２０４８ｎ ∑ ２５５ｉ＝０Ｃ８［ｉ］２ ( ) －ｎ８４）如果Ｖ４＜ λ４且Ｖ８＜ λ８，则认为待检序列通过检测。否则未通过。算法１的主要优化方式是直接对输入的待检序列按字节而不是比特进行处理，减少了大量不必要的数据拆分为单比特等操作；并且将两种参数下的频数统计合并在一起，避免了大量的数据加载等操作。４优化前后计算量分析与对比本节对优化前的算法和优化后的算法的计算量进行定量评估与对比。原算法的２）～４）的计算量都很小，因此本节在进行计算量评估对比时，只比较最关键最耗时的步骤统计频数所需要的运算量。为简化表示，将ｎ比特二元序列的字节长度记为Ｍ，Ｍ＝ｎ／８。而且通常情况下输入的二元序列都是以字节表示，因此这里默认待检二元序列的比特长度ｎ能被８整除。根据第２节的分析结果知，对一个ｎ＝１０６ｂｉｔ（Ｍ＝１２５ × １０３字节）的样本而言，原算法１）的计算量为１６Ｍ次ＳＨＩＦＴ、１６Ｍ次ＬＯＡＤ和３２Ｍ次ＡＤＤ。扑克检测优化算法１的１）进行简单分析可知，对一个ｎ＝１０６ｂｉｔ的样本而言，算法１的２）的计算量为Ｍ次ＳＨＩＦＴ、Ｍ次ＬＯＡＤ、Ｍ次ＡＮＤ和３Ｍ次ＡＤＤ。原算法和优化算法（算法１）的运算量详情以及对比情况见表２。表２两个算法的运算量对比Ｔａｂｌｅ２Ｔｈｅｐｅｒｆｏｒｍａｎｃｅｃｏｍｐａｒｉｓｏｎｏｆｔｗｏａｌｇｏｒｉｔｈｍｓ运算原算法算法１ＬＯＡＤ１６ＭＭＳＨＩＦＴ１６ＭＭＡＮＤ０ＭＡＤＤ３２Ｍ３Ｍ由表２可知，优化后的扑克检测的计算量显著降低。在现在的ＣＰＵ中，常见的整数运算都比较快，如整数的加、减、比较、比特运算及移位等仅需一个时钟周期（ｃｙｃｌｅ）。但数据加载的执行时间则有很多因素，无法以准确的值计量。这里仅做粗略估计，因此加速数据加载也仅需要一个时钟周期。这样一来原算法对一个样本进行检测的粗略估计时间为６４Ｍ个时钟周期，算法１对一个样本进行检测的粗略估计时间为６Ｍ个时钟周期，以此法粗略估计，算法１的检测速度为原算法的１０．７倍左右。当然，此处为不精确的粗略估计而已，具体的速度提升情况以实验为准。５模拟实验测试为更准确地说明本文提出的算法的效率，本节测试优化前后算法的执行效率。测试数据是利用我国的分组密码算法ＳＭ４算法生成的１０９ｂｉｔ的伪随机数据，按样本大小１０６比特划分为１０００个样本。测试平台为ＩｎｔｅｌＣｏｒｅｉ３＠３４００ＭＨｚ处理器、４ＧＢＤＤＲ３１６００ＭＨｚ内存、ＷｉｎｄｏｗｓＸＰＳＰ３操作系统、ＶｉｓｕａｌＳｔｕｄｉｏ２００８编译器。处理器的缓存情况为：一级缓存为每个核心３２ＫＢ，二级缓存为每个核心６４ＫＢ，三级缓存为多核共享３ＭＢ。模拟实验使用的代码情况如下。优化前的测试代码来源是先从ＮＩＳＴ的官方网站取得检测代码，然后按原算法以及ＮＩＳＴ代码思想对以比特表示的二元序列，按比特操作实现扑克检测，ＮＩＳＴ代码完成字节序列转比特表示的二元序列的相关功能。优化后的代码（参见附录）是对以字节表示的序列按算法１的步骤以字节处理为主实现扑克检测。所有的算法都采用标准Ｃ实现。实验采用欧洲ｅｓｔｒｅａｍ算法竞赛的速度测试模型的简化版本，该测试模型不仅在ｅｓｔｒｅａｍ算法竞赛中采用，后续许多算法的性能评估也常采用该测试模型。具体来讲速度测试流程如下。１）在被测试代码段的前后各设置一个时间计数器ＴＳ和ＴＦ；２）将两个计时器之差Ｔ＝ＴＦ－Ｔｓ作为这段代码的耗时；３）重复１）和２）多次，为统计方便设定重复次数为奇数，记重复次数为Ｃ，得到一系列的耗时值Ｔ［ｉ］，１ ≤ ｉ ≤ Ｃ；４）将统计得到的耗时值序列按从大到小的顺序排列得到Ｔ′［１］ ≥ Ｔ′［２］ ≥ … ≥ Ｔ′［Ｃ］，当然也可按从小到大的顺序排列；５）取新序列的中值Ｔ′［（Ｃ＋１）／２］作为本段代码的统计耗时值。ｗ为了保证测试结果的准确性，本测试模型中１）的时间计数器使用ＣＰＵ频率计时器，直接调用汇编指令ＲＤＴＳＣ，在Ｗｉｎｄｏｗｓ环境下也可调用＿＿ ·５１６· 智能系统学报第１１卷

<<向上翻页向下翻页>>

点击下载：【机器感知与模式识别】随机序列的扑克检测优化研究