第1期 于世英,等:基于序列聚类的相似代码检测算法 ·57 表5运行时间随着不同因素改变的变化 ington,DC,USA:IEEE Computer Society,2007:179-180. Table 5 Running time changes with different factors [5]赵长海,晏海华,金茂忠.基于编译优化和反汇编的程序 测试代码 文件 运行 相似性检测方法[J].北京航空航天大学学报,2008,34 函数个数 大小VkB 时间/s (6):711-715. 0.70 ZHAO Changhai,YAN Haihua,JIN Maozhong.Approach 0.562 1.625 2 0.75 based on compiling optimization and disassembling to detect 文件对1 1.515 program similarity J].Journal of Beijing University of 0.80 1.547 0.695 2 Aeronautics and Astronautics,2008,34(6):711-715. 0.90 1.516 [6]于海英.程序代码相似度度量的研究与实现[J].计算机 0.70 6.360 1.370 14 工程,2010,36(4):4549. 0.75 6.844 文件对2 YU Haiying.Research and implementation of program code 0.80 6.360 1.460 15 similarity measurement[J].Computer Engineering,2010, 0.90 2.515 36(4):4549. 0.70 24.687 2.630 [7]JIANG Linxiao.Scalable detection of similar code:tech- 0.75 24.953 文件对3 niques and applications[D].Davis,CA,USA:University 0.80 24.578 2.640 of California Davis,2009:12-45. 0.90 24.875 [8]张丽萍,刘东升,李彦臣,等.一种基于AST的代码抄袭检测 0.70 1581.573 15.200 方法[J】.计算机应用研究,2011,28(12):46164620. 0.751564.016 文件对4 ZHANG Liping,LIU Dongsheng,LI Yanchen,et al.AST- 0.80 1568.953 17.000 based code plagiarism detection method [J].Application 0.90 1521.610 Research of Computers,2011,28(12):4616-4620. [9]钟美,张丽萍,刘东升.基于XML的C代码抄袭检测算 4 结束语 法[J].计算机工程与应用,2011,47(8):215-218. 本文提出一种基于序列聚类的相似代码检测算 ZHONG Mei,ZHANG Liping,LIU Dongsheng.Plagiarism detection algorithm based on XML for C code[J].Computer 法SSCW,以得到相似功能的代码段.该方法采用一 Engineering and Applications,2011,47(8):215-218. 种多级分段方法,把源代码分为不同标准下的多种 [10]戴东波,汤春蕾,熊赟.基于整体和局部相似性的序列 分段,分段的标准有类、函数、语句.将需要检测的代 聚类算法[J].软件学报,2010,21(4):702-717. 码段提取出来后,把不好区分权重的关键字代码转 DAI Dongbo,TANG Chunlei,XIONG Yun.Sequence 换为数字序列,以提出的权重编辑距离为距离度量 clustering algorithms based on global and local similarity [J].Jourmal of Software,2010,21(4):702-717. 标准,对同一个等级内的符号序列进行聚类分析,得到 作者简介: 相似的代码段.在实验时,使用了多个数据集对提出的 于世英,1973年生,女,工程师,主 算法进行了验证,实验结果证明了该算法的有效性 要研究方向为数据挖掘, 参考文献: [1]KONTOGIANNIS K,GALLER M,DEMORI R.Detecting code similarity using patterns[C]//Working Notes of Third Workshop on AI and Software Engineering:Breaking the Toy Mold(AISE).[S.1.],1995:68-73. 袁雪梅,女,1989年生,硕士研究 2]0HNO A.Measure source code similarity using reference vec- 生,主要研究方向为数据挖掘。 tors[Cl//Proceedings of the First International Conference on Innovative Computing,Information and Control.Washington, DC,USA:IEEE Computer Society,2006,2:92-95. [3]YAMAMOTO T,MATSUSHITA M,KAMIYA T,et al. Measuring similarity of large software systems based on source code correspondence[C]//Proceedings of the 6th 卢海涛,女,1975年生,讲师,主要 International Conference on Product Focused Software 研究方向为数据挖掘、虚拟现实. Process Improvement.Berlin/Heidelberg:Springer-Verlag, 2005:530-544. [4]JI J H,PARKS H,WOO G,et al.Source code similarity de- tection using adaptive local alignment of keywords[C]//Pro- ceedings of the Eighth International Conference on Parallel and Distributed Computing,Applications and Technologies.Wash-
©2008-现在 cucdc.com 高等教育资讯网 版权所有