正在加载图片...
·232· 智能系统学报 第3卷 可夫模型提取ML数据,根据ML数据规模统计 为了检测各算法对ML数据的检测能力,以表 准确提取的数据及花费时间。 1提取的数据为基础投影到二维平面上,针对不同 422WPSO与PSO对ML数据的检测能力 数据规模进行测试,实验结果如表3所示。 表1实验中使用的数据子集 Table I Data subsets used n the experient 2006(ACM·1) 2005(ACM.2) 2002(ACM-3) 1999(ACM-4) ML键个数 IndexTem sPage 0 0 0 920 13 Ord inary IssuePage 45 45 30 51 9 ProceedingsPage 6 16 17 14 SigmodRecord 1 6 表2提取不同规模的ML数据及花费时间 Table 2 Picking up different bulk of XML da ta and correspond ing time 记录大小 文档数 有数记录数 花费时间/s 52 2 51 1.1958 143 7 137 57953 297 279 195516 578 22 527 490597 1572 36 1409 1214384 表3ML数据相似性实验 Table 3 The result of XML data si ilar ity test 记录大小 最终距离(pso/wpso) 迭代次数(pso/wps) 花费时间(pso/wpso)/s 52 932479/948851 5029/2803 932479/27.2749 143 3629409/3633528 3729/1356 380556/15.3254 297 6554254/655.8966 3564/976 509508/15.3275 578 10821/10800 1447/289 507136/300117 1573 3180.9/31803 2293/521 1520110/523560 从实验结果可知由于WPSO主要针对ML多 1001 维数据进行投影操作,对比一般优化的P9O算法, 90 80 南…粒子清洗 在最终距离相近情况下,其迭代次数与时间花费却 200 600 1000 1400 至少降低一倍以上,而且随着数据量的加大,效果越 记录/个 98 明显 96 规则清 423不同清洗策略对比实验 一粒字清洗 200 600 1000 1400 为了更好的对比ML数据清洗算法,本文特与 记求/个 500 文献[1516提出的规则清洗与聚类清洗算法在相 规则清洗 同条件下进行对比实验,为了达到更好的清洗效果, ……子清洗 针对不同数据规模加入不同噪音的测试数据,对应 200 600 1000 1400 记录/个 秩序是规则清洗、聚类清洗与粒子清洗,实验结果如 图6ML相似重复数据清洗对比图 表4、图6所示.其对应的平均准确率是94%,905%、 Fig 6 The result of XML si ilarity data cleaning 表4ML相似重复数据清洗实验结果 Table 4 The result of XML sin iar ity da ta clean ng 记录规模 重复记录 检测结果 正确检测 准确率/% 查全率/% 时间/s 52 20 20119/20 19/18/19 100/95/100 95/95/95 37.2/3871/29.5 297 130 127/123/129 123/121/124 98/95199 97198/96 1955/2073/914 578 359 350/346/352 335/336/345 97/96198 96/97198 2528/2473/1715 1573 539 434/410/481 423/401/472 81/76/89 97198/98 4382/4337/259.6 1994-2008 China Academic Journal Electronic Publishing House.All rights reserved. http://www.cnki.net可夫模型提取 XML数据 ,根据 XML数据规模统计 准确提取的数据及花费时间. 4. 2. 2W PSO与 PSO对 XML数据的检测能力 为了检测各算法对 XML数据的检测能力 ,以表 1提取的数据为基础投影到二维平面上 ,针对不同 数据规模进行测试 ,实验结果如表 3所示. 表 1 实验中使用的数据子集 Table 1 Da ta subsets used in the exper im en t 2006 (ACM - 1) 2005 (ACM - 2) 2002 (ACM - 3) 1999 (ACM - 4) XML键个数 IndexTermsPage 0 0 0 920 13 O rdinaryIssuePage 45 45 30 51 9 ProceedingsPage 16 16 17 17 14 SigmodRecord 3 3 1 1 6 表 2 提取不同规模的 XML数据及花费时间 Table 2 Pick ing up d ifferen t bulk of XML da ta and correspond ing tim e 记录大小 文档数 有数记录数 花费时间 /s 52 2 51 1. 195 8 143 7 137 5. 795 3 297 13 279 19. 551 6 578 22 527 49. 059 7 1 572 36 1 409 121. 438 4 表 3 XML数据相似性实验 Table 3 The result of XML da ta sim ilar ity test 记录大小 最终距离 (p so /wp so) 迭代次数 (p so /wp so) 花费时间 (p so /wp so) /s 52 93. 247 9 /94. 885 1 5 029 /2 803 93. 247 9 /27. 274 9 143 362. 940 9 /363. 352 8 3 729 /1 356 38. 055 6 /15. 325 4 297 655. 425 4 /655. 896 6 3 564 /976 50. 950 8 /15. 327 5 578 1 082. 1 /1 080. 0 1 447 /289 50. 713 6 /30. 011 7 1 573 3 180. 9 /3 180. 3 2 293 /521 152. 011 0 /52. 356 0 从实验结果可知由于 W PSO主要针对 XML多 维数据进行投影操作 ,对比一般优化的 PSO 算法 , 在最终距离相近情况下 ,其迭代次数与时间花费却 至少降低一倍以上 ,而且随着数据量的加大 ,效果越 明显. 4. 2. 3 不同清洗策略对比实验 为了更好的对比 XML数据清洗算法 ,本文特与 文献 [ 15216 ]提出的规则清洗与聚类清洗算法在相 同条件下进行对比实验 ,为了达到更好的清洗效果 , 针对不同数据规模加入不同噪音的测试数据 ,对应 秩序是规则清洗、聚类清洗与粒子清洗 ,实验结果如 表 4、图 6所示. 其对应的平均准确率是 94% , 90. 5%、 图 6 XML相似重复数据清洗对比图 Fig. 6 The result of XML similarity data cleaning 表 4 XML相似重复数据清洗实验结果 Table 4 The result of XML sim ilar ity da ta clean ing 记录规模 重复记录 检测结果 正确检测 准确率 /% 查全率 /% 时间 /s 52 20 20 /19 /20 19 /18 /19 100 /95 /100 95 /95 /95 37. 2 /38. 7 /29. 5 297 130 127 /123 /129 123 /121 /124 98 /95 /99 97 /98 /96 195. 5 /207. 3 /91. 4 578 359 350 /346 /352 335 /336 /345 97 /96 /98 96 /97 /98 252. 8 /247. 3 /171. 5 1 573 539 434 /410 /481 423 /401 /472 81 /76 /89 97 /98 /98 438. 2 /433. 7 /259. 6 · 232 · 智 能 系 统 学 报 第 3卷
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有