第3期 刘波,等:融合粒子群算法改进ML数据智能清洗策略 ·233· 965%,平均查全率是9625%、97%、9675%,平均 mantic and hierarchical siilarity measures[J ]Knowledge- 节省时间率是326%、245%、9429%,由此可知本 Based System s.2007,20(6):336-349 文算法的主要优势,随着记录规模的扩大,其时间性 [9]R IERA L J,SALAZAR G J.A branch-and-cut algorithm for the continuous error bcalization problem in data cleaning 能上表现更明显」 [J ]Computers Operatons Research,2007,34 (9): 5结束语 2790-2804 [10]R IERA L J,SALAZAR G J.A heuristic approach for the 本文基于ML键提出ML数据清理新方法, continuous error localization problem in data cleaning[J]. 利用多模板的隐马尔可夫模型抽取ML数据构成 Computers Operations Research,2007,34 (8):2370- 2383 动态知识库,结合波函数优化粒子群算法,简化 [11 ]LEE C S Diagnostic,predictive and compositional model- ML数据相似性判断过程,特别是对ML数据进 ing with data m ining in integrated leaming envirorments 行向量化,有效地避开了粒子群算法的维度灾问题, [J ]Computers Education,2007,49(3):562-580. 有利数据并行比较,简化计算量,在并行处理与时间 [12 Sigmod Signod Record EB /OL ][2007-05-29]ht //www.sigmod org/record/xmI/index xml 性能上有较大的改善,也为ML数据清理的研究提 [13]GEMELLO R,MANA F,SCANZD S,et al Linear hid- 供一些借鉴 den trans-omations for adaptation of hybrid ANN /HMM models[J].Speech Communication,2007,49 (10):827- 参考文献: 835. [1 ]R IERA L J,SALAZAR G J.A branch-and-cut algorithm or [14]CHAR IIOS T,WAAL P R,GAAGL C Convergence in the continuous error bcalization problem in data cleaning Markovian models with mplications or efficiency of infer [J ]Computers Operations Research,2007,34 (9): ence[J]Intematonal Joumal of Approxmate Reasoning. 2790-2804 2007,46(2):300-319 [2]ZHAO Q K,CHEN L,BHOWM CCK S S,etal XML struc- [15叶舟,王东.基于规则引擎的数据清洗[J计算机 tural delta m ining issues and challenges [J ]Data 工程,2006,32(23):52-55 Knowledge Engineering,2006,59(3):652-680 YE Zhou,WANG Dong Rules engine based data cleans- [3郭志懋,周傲英.数据质量和数据清洗研究综述[J小软 ing[J]Computer Engineering,2006,32(23):52-55. 件学报,2002,13(11):20762083 [16冯玉才,桂浩,李华,等.数据分析和清理中相关算 GO Zhmao,ZHOU Aoying Research on data quality and 法研究[J].小型微型计算机系统,2005,26(6):1018- data cleaning a survey J Joumal of Sofware,2002,13 1022 (11):2076-2083. FENG Yucai,G IHao,LIHua,et al Research on relat- 「4掷仕辉,周傲英,张龙.ML文档的相似测度和结构索 ed algoritms in data analysing and cleaning[J ]Joumal of 引研究[J]计算机学报,2003,26(9):1116-1123 Chinese Computer Systems,2005,26(6):1018-1022 ZHENG Shihui,ZHOU Aoying,ZHANG Long Sim ilarity 作者简介: measure and structural index of XML documents [J].Jour 刘波,男,1969年生,博士研究 nal of Computer,,2003,26(9):1116-1123. 生,主要研究方向为软件工程与数据库 [5陈伟,丁秋林.一种ML相似重复数据的清理方法研 技术 究[J]北京航空航天大学学报,2004,30(9):835-838 CHEN Wei,DNGQ iulin Study on an XML app roxmately dup licated data cleaning method[J].Joumal of Beijing Uni- versity ofAeronautics and A stronautics.2004.30(9):835- 838 杨路明,男,1947年生,教授,博士 [6陆凤霞,王静秋,王宁生.一种开放式数据清理框架[J] 生导师,主要研究方向为信息系统与数 南京航空航天大学学报,2006,38(4):459-463 据库技术,发表学术论文40余篇。 LU Fengxia,WANG Jingqiu,WANG Ningsheng Open da- ta cleaning frame [J ]Joumal of Nanjing University of Aeronautics and A stronautics,2006,38(4):459-463. [7正桐,刘大昕.一种基于改进粒子群优化的ML结构 聚类方法[J]小型微型计算机系统,2007,28(5):871- 邓云龙,男,1962年生,教授,博士 生导师,博士,主要研究方向为软件心 875 WANG Tong,L U Daxin XML structural clustering based 理学.获得科研教学成果多项发表学 on the mproved particle sam optm ization [J]Joumal of 术论文50余篇 Chinese Computer System s,2007,28(5):871-875. [8 ]NA YAK R,RYAD IW.XML schema clustering with se- 1994-2008 China Academic Journal Electronic Publishing House.All rights reserved.http://www.cnki.net96. 5% ,平均查全率是 96. 25%、97%、96. 75% ,平均 节省时间率是 3. 26%、2. 45%、94. 29% ,由此可知本 文算法的主要优势 ,随着记录规模的扩大 ,其时间性 能上表现更明显. 5 结束语 本文基于 XML键提出 XML数据清理新方法 , 利用多模板的隐马尔可夫模型抽取 XML数据构成 动态知识库 ,结合波函数优化粒子群算法 ,简化 XML数据相似性判断过程 ,特别是对 XML 数据进 行向量化 ,有效地避开了粒子群算法的维度灾问题 , 有利数据并行比较 ,简化计算量 ,在并行处理与时间 性能上有较大的改善 ,也为 XML数据清理的研究提 供一些借鉴. 参考文献 : [ 1 ]R IERA L J, SALAZAR G J. A branch2and2cut algorithm for the continuous error localization p roblem in data cleaning [J ]. Computers & Operations Research, 2007, 34 ( 9 ) : 279022804. [ 2 ] ZHAO Q K, CHEN L, BHOWM ICK S S, et al. XML struc2 tural delta mining: issues and challenges [ J ]. Data & Knowledge Engineering, 2006, 59 (3) : 6522680. [ 3 ]郭志懋 ,周傲英. 数据质量和数据清洗研究综述 [J ]. 软 件学报 , 2002, 13 (11) : 207622083. GUO Zhimao, ZHOU Aoying. Research on data quality and data cleaning: a survey [ J ]. Journal of Software, 2002, 13 (11) : 207622083. [ 4 ]郑仕辉 ,周傲英 ,张 龙. XML文档的相似测度和结构索 引研究 [J ]. 计算机学报 , 2003, 26 (9) : 111621123. ZHENG Shihui, ZHOU Aoying, ZHANG Long. Sim ilarity measure and structural index of XML documents [J ]. Jour2 nal of Computer, 2003, 26 (9) : 111621123. [ 5 ]陈 伟 ,丁秋林. 一种 XML相似重复数据的清理方法研 究 [J ]. 北京航空航天大学学报 , 2004, 30 (9) : 8352838. CHEN W ei, D ING Q iulin. Study on an XML app roximately dup licated data cleaning method[J ]. Journal of Beijing Uni2 versity ofAeronautics and A stronautics, 2004, 30 (9) : 8352 838. [ 6 ]陆凤霞 ,王静秋 ,王宁生. 一种开放式数据清理框架 [J ]. 南京航空航天大学学报 , 2006, 38 (4) : 4592463. LU Fengxia, WANG Jingqiu, WANG N ingsheng. Open da2 ta cleaning frame [ J ]. Journal of Nanjing University of Aeronautics and A stronautics, 2006, 38 (4) : 4592463. [ 7 ]王 桐 ,刘大昕. 一种基于改进粒子群优化的 XML结构 聚类方法 [J ]. 小型微型计算机系统 , 2007, 28 ( 5) : 8712 875. WANG Tong, L IU Daxin. XML structural clustering based on the imp roved particle swarm op tim ization [J ]. Journal of Chinese Computer Systems, 2007, 28 (5) : 8712875. [ 8 ]NAYAK R, IRYAD IW. XML schema clustering with se2 mantic and hierarchical similarity measures[J ]. Knowledge2 Based System s, 2007, 20 (6) : 3362349. [ 9 ]R IERA L J, SALAZAR G J. A branch2and2cut algorithm for the continuous error localization p roblem in data cleaning [J ]. Computers & Operations Research, 2007, 34 ( 9 ) : 279022804. [ 10 ]R IERA L J, SALAZAR G J. A heuristic app roach for the continuous error localization p roblem in data cleaning[J ]. Computers & Operations Research, 2007, 34 ( 8 ) : 23702 2383. [ 11 ]LEE C S. D iagnostic, p redictive and compositionalmodel2 ing with data mining in integrated learning environments [J ]. Computers & Education, 2007, 49 (3) : 5622580. [ 12 ] Sigmod. Sigmod Record [ EB /OL ]. [ 2007205229 ]. ht2 tp: / /www. sigmod. org/ record /xm l/ index. xml. [ 13 ] GEMELLO R, MANA F, SCANZIO S, et al. L inear hid2 den trans2 formations for adap tation of hybrid ANN /HMM models[J ]. Speech Communication, 2007, 49 (10) : 8272 835. [ 14 ]CHAR ITOS T, WAAL P R, GAAG L C. Convergence in Markovian models with imp lications for efficiency of infer2 ence[J ]. International Journal of App roximate Reasoning, 2007, 46 (2) : 3002319. [ 15 ]叶 舟 ,王 东. 基于规则引擎的数据清洗 [J ]. 计算机 工程 , 2006, 32 (23) : 52255. YE Zhou, WANG Dong. Rules engine based data cleans2 ing[J ]. Computer Engineering, 2006, 32 (23) : 52255. [ 16 ]冯玉才 ,桂 浩 ,李 华 ,等. 数据分析和清理中相关算 法研究 [J ]. 小型微型计算机系统 , 2005, 26 ( 6) : 10182 1022. FENG Yucai, GU IHao, L IHua, et al. Research on relat2 ed algorithm s in data analysing and cleaning[J ]. Journal of Chinese Computer Systems, 2005, 26 (6) : 101821022. 作者简介 : 刘 波 ,男 , 1969年生 ,博士研究 生 ,主要研究方向为软件工程与数据库 技术. 杨路明 ,男 , 1947年生 ,教授 ,博士 生导师 ,主要研究方向为信息系统与数 据库技术 ,发表学术论文 40余篇. 332 · 邓云龙 ,男 , 1962年生 ,教授 ,博士 生导师 ,博士 ,主要研究方向为软件心 理学. 获得科研教学成果多项.发表学 术论文 50余篇. 第 3期 刘 波 ,等 :融合粒子群算法改进 XML数据智能清洗策略 ·