智能系统：基于遗传算法优化综合启发式的中文网页特征提取

团购合买资源类别：文库，文档格式：PDF，文档页数：6，文件大小：373.53KB

第9卷第4期智能系统学报 Vol.9 No.4 2014年8月 CAAI Transactions on Intelligent Systems Agu.2014 D0I:10.3969/i.issn.1673-4785.201305044 基于遗传算法优化综合启发式的中文网页特征提取沈高峰1，谷淑敏 (1.郑州轻工业学院计算机与通信工程学院，河南郑州450002：2.中原工学院信息商务学院基础学科部，河南郑州450007) 摘要：特征提取是信息检索、文本分类，文本聚类以及自动文摘生成等技术的基础。针对传统的特征提取方法不能全面有效地考查待选特征词的缺点，提出了一种基于遗传算法优化综合启发式的中文网页特征提取方法。该方法通过词频、关联度、词性以及位置等多种启发式来综合考查待选特征，并利用遗传算法来优化各启发式的权重参数。通过在不同测试集上进行对比，实验结果表明，与传统方法相比，该方法能够有效避免传统特征提取方法产生的偏差，获得具有代表性的特征集，从而使得该方法具有一定的实用价值。关键词：特征提取：遗传算法：文本分类：文本聚类：词频：关联度中图分类号：TP391.1文献标志码：A文章编号：1673-4785(2014)04-474-06 中文引用格式：沈高峰，谷淑敏.基于遗传算法优化综合启发式的中文网页特征提取[J].智能系统学报，2014,9(4)：474479. 英文引用格式：SHEN Gaofeng,GU Shumin.Chinese Web page feature extraction by optimizing comprehensive heuristics based on GA[J].CAAI Transactions on Intelligent Systems,2014,9(4):474-479. Chinese Web page feature extraction by optimizing comprehensive heuristics based on GA SHEN Gaofeng',GU Shumin2 (1.School of Computer and Communication Engineering,Zhengzhou University of Light Industry,Zhengzhou 450002,China;2.De- partment of Basic Subjects,College Information Business,Zhongyuan University of Technology,Zhengzhou 450007,China) Abstract:Feature extraction is the basis of such technologies as information retrieval,text classification,text clus- tering and automatic summarization.Aiming at the shortcomings of the traditional feature extraction methods which make it difficult to test feature words comprehensively and effectively,this paper proposes a method for extracting Chinese web page features by optimizing the comprehensive heuristic features based on GA.This proposed method employs comprehensive heuristics of word frequency,word correlation,parts of speech (POS)and position features to comprehensively test selected features and uses GA to optimize the weight of each heuristic parameter.The exper- imental results of the different test sets show that the proposed method can effectively avoid the derivations of the traditional extraction methods and obtain more representative features,and therefore it has a certain practical value. Keywords:feature extraction;GA;text classification;text clustering;word frequency;word correlation 特征提取在自然语言处理领域有着非常广泛的具有一定的主观性，因此快速准确地实现中文特征应用，是信息检索、文本分类、文本聚类以及自动文提取成为中文文本处理的关键。摘生成等技术的关键。由于互联网资源时刻都在不目前，国内外学者已提出3类特征提取方法：基断更新，中文文本呈现出“爆炸式”增长。然而，采于概率统计的特征提取方法、基于传统机器学习理用传统人工方式进行特征提取的方法耗时较长，且论的特征提取方法以及基于自然语言理解的特征提取方法。基于概率统计的特征提取方法利用文本特收稿日期：2013-05-10. 征的统计信息进行关键词提取，如TFIDF)、词共基金项目：河南省基础与前沿技术研究计划项目(102300410266)：郑州轻工业学院博士科研基金资助项目. 现]等，该类方法具有简单、通用的特点，不需要复通信作者：沈高蜂.E-mail:45125301@q4.com. 杂的训练过程，但准确率不高。基于传统机器学习

第怨卷第源期摇摇摇摇摇摇摇摇摇摇摇摇摇摇智能系统学报摇摇摇摇摇摇摇摇摇摇摇摇摇摇灾燥造援怨翼援源圆园员源年愿月摇摇摇摇摇摇摇摇摇摇摇摇悦粤粤陨栽则葬灶泽葬糟贼蚤燥灶泽燥灶陨灶贼藻造造蚤早藻灶贼杂赠泽贼藻皂泽摇摇摇摇摇摇摇摇摇摇摇摇粤早怎援圆园员源阅韵陨院员园援猿怨远怨辕躁援蚤泽泽灶援员远苑猿鄄源苑愿缘援圆园员猿园缘园源源基于遗传算法优化综合启发式的中文网页特征提取沈高峰员袁谷淑敏圆渊员援郑州轻工业学院计算机与通信工程学院袁河南郑州源缘园园园圆曰圆援中原工学院信息商务学院基础学科部袁河南郑州源缘园园园苑冤摘要院特征提取是信息检索尧文本分类尧文本聚类以及自动文摘生成等技术的基础遥针对传统的特征提取方法不能全面有效地考查待选特征词的缺点袁提出了一种基于遗传算法优化综合启发式的中文网页特征提取方法遥该方法通过词频尧关联度尧词性以及位置等多种启发式来综合考查待选特征袁并利用遗传算法来优化各启发式的权重参数遥通过在不同测试集上进行对比袁实验结果表明袁与传统方法相比袁该方法能够有效避免传统特征提取方法产生的偏差袁获得具有代表性的特征集袁从而使得该方法具有一定的实用价值遥关键词院特征提取曰遗传算法曰文本分类曰文本聚类曰词频曰关联度中图分类号院栽孕猿怨员援员摇文献标志码院粤摇文章编号院员远苑猿鄄源苑愿缘渊圆园员源冤园源鄄源苑源鄄园远中文引用格式院沈高峰袁谷淑敏援基于遗传算法优化综合启发式的中文网页特征提取咱允暂援智能系统学报袁圆园员源袁怨渊源冤院源苑源鄄源苑怨援英文引用格式院杂匀耘晕郧葬燥枣藻灶早袁郧哉杂澡怎皂蚤灶援悦澡蚤灶藻泽藻宰藻遭责葬早藻枣藻葬贼怎则藻藻曾贼则葬糟贼蚤燥灶遭赠燥责贼蚤皂蚤扎蚤灶早糟燥皂责则藻澡藻灶泽蚤增藻澡藻怎则蚤泽贼蚤糟泽遭葬泽藻凿燥灶郧粤咱允暂援悦粤粤陨栽则葬灶泽葬糟贼蚤燥灶泽燥灶陨灶贼藻造造蚤早藻灶贼杂赠泽贼藻皂泽袁圆园员源袁怨渊源冤院源苑源鄄源苑怨援悦澡蚤灶藻泽藻宰藻遭责葬早藻枣藻葬贼怎则藻藻曾贼则葬糟贼蚤燥灶遭赠燥责贼蚤皂蚤扎蚤灶早糟燥皂责则藻澡藻灶泽蚤增藻澡藻怎则蚤泽贼蚤糟泽遭葬泽藻凿燥灶郧粤杂匀耘晕郧葬燥枣藻灶早员袁郧哉杂澡怎皂蚤灶圆渊员援杂糟澡燥燥造燥枣悦燥皂责怎贼藻则葬灶凿悦燥皂皂怎灶蚤糟葬贼蚤燥灶耘灶早蚤灶藻藻则蚤灶早袁在澡藻灶早扎澡燥怎哉灶蚤增藻则泽蚤贼赠燥枣蕴蚤早澡贼陨灶凿怎泽贼则赠袁在澡藻灶早扎澡燥怎源缘园园园圆袁悦澡蚤灶葬曰圆援阅藻鄄责葬则贼皂藻灶贼燥枣月葬泽蚤糟杂怎遭躁藻糟贼泽袁悦燥造造藻早藻陨灶枣燥则皂葬贼蚤燥灶驭月怎泽蚤灶藻泽泽袁在澡燥灶早赠怎葬灶哉灶蚤增藻则泽蚤贼赠燥枣栽藻糟澡灶燥造燥早赠袁在澡藻灶早扎澡燥怎源缘园园园苑袁悦澡蚤灶葬冤粤遭泽贼则葬糟贼院云藻葬贼怎则藻藻曾贼则葬糟贼蚤燥灶蚤泽贼澡藻遭葬泽蚤泽燥枣泽怎糟澡贼藻糟澡灶燥造燥早蚤藻泽葬泽蚤灶枣燥则皂葬贼蚤燥灶则藻贼则蚤藻增葬造袁贼藻曾贼糟造葬泽泽蚤枣蚤糟葬贼蚤燥灶袁贼藻曾贼糟造怎泽鄄贼藻则蚤灶早葬灶凿葬怎贼燥皂葬贼蚤糟泽怎皂皂葬则蚤扎葬贼蚤燥灶援粤蚤皂蚤灶早葬贼贼澡藻泽澡燥则贼糟燥皂蚤灶早泽燥枣贼澡藻贼则葬凿蚤贼蚤燥灶葬造枣藻葬贼怎则藻藻曾贼则葬糟贼蚤燥灶皂藻贼澡燥凿泽憎澡蚤糟澡皂葬噪藻蚤贼凿蚤枣枣蚤糟怎造贼贼燥贼藻泽贼枣藻葬贼怎则藻憎燥则凿泽糟燥皂责则藻澡藻灶泽蚤增藻造赠葬灶凿藻枣枣藻糟贼蚤增藻造赠袁贼澡蚤泽责葬责藻则责则燥责燥泽藻泽葬皂藻贼澡燥凿枣燥则藻曾贼则葬糟贼蚤灶早悦澡蚤灶藻泽藻憎藻遭责葬早藻枣藻葬贼怎则藻泽遭赠燥责贼蚤皂蚤扎蚤灶早贼澡藻糟燥皂责则藻澡藻灶泽蚤增藻澡藻怎则蚤泽贼蚤糟枣藻葬贼怎则藻泽遭葬泽藻凿燥灶郧粤援栽澡蚤泽责则燥责燥泽藻凿皂藻贼澡燥凿藻皂责造燥赠泽糟燥皂责则藻澡藻灶泽蚤增藻澡藻怎则蚤泽贼蚤糟泽燥枣憎燥则凿枣则藻择怎藻灶糟赠袁憎燥则凿糟燥则则藻造葬贼蚤燥灶袁责葬则贼泽燥枣泽责藻藻糟澡渊孕韵杂冤葬灶凿责燥泽蚤贼蚤燥灶枣藻葬贼怎则藻泽贼燥糟燥皂责则藻澡藻灶泽蚤增藻造赠贼藻泽贼泽藻造藻糟贼藻凿枣藻葬贼怎则藻泽葬灶凿怎泽藻泽郧粤贼燥燥责贼蚤皂蚤扎藻贼澡藻憎藻蚤早澡贼燥枣藻葬糟澡澡藻怎则蚤泽贼蚤糟责葬则葬皂藻贼藻则援栽澡藻藻曾责藻则鄄蚤皂藻灶贼葬造则藻泽怎造贼泽燥枣贼澡藻凿蚤枣枣藻则藻灶贼贼藻泽贼泽藻贼泽泽澡燥憎贼澡葬贼贼澡藻责则燥责燥泽藻凿皂藻贼澡燥凿糟葬灶藻枣枣藻糟贼蚤增藻造赠葬增燥蚤凿贼澡藻凿藻则蚤增葬贼蚤燥灶泽燥枣贼澡藻贼则葬凿蚤贼蚤燥灶葬造藻曾贼则葬糟贼蚤燥灶皂藻贼澡燥凿泽葬灶凿燥遭贼葬蚤灶皂燥则藻则藻责则藻泽藻灶贼葬贼蚤增藻枣藻葬贼怎则藻泽袁葬灶凿贼澡藻则藻枣燥则藻蚤贼澡葬泽葬糟藻则贼葬蚤灶责则葬糟贼蚤糟葬造增葬造怎藻援运藻赠憎燥则凿泽院枣藻葬贼怎则藻藻曾贼则葬糟贼蚤燥灶曰郧粤曰贼藻曾贼糟造葬泽泽蚤枣蚤糟葬贼蚤燥灶曰贼藻曾贼糟造怎泽贼藻则蚤灶早曰憎燥则凿枣则藻择怎藻灶糟赠曰憎燥则凿糟燥则则藻造葬贼蚤燥灶收稿日期院圆园员猿鄄园缘鄄员园援摇基金项目院河南省基础与前沿技术研究计划项目渊员园圆猿园园源员园圆远远冤曰郑州轻工业学院博士科研基金资助项目援通信作者院沈高峰援耘鄄皂葬蚤造院源缘员圆缘猿园员岳择择援糟燥皂援摇摇特征提取在自然语言处理领域有着非常广泛的应用袁是信息检索尧文本分类尧文本聚类以及自动文摘生成等技术的关键遥由于互联网资源时刻都在不断更新袁中文文本呈现出野爆炸式冶增长遥然而袁采用传统人工方式进行特征提取的方法耗时较长袁且具有一定的主观性袁因此快速准确地实现中文特征提取成为中文文本处理的关键遥目前袁国内外学者已提出猿类特征提取方法院基于概率统计的特征提取方法尧基于传统机器学习理论的特征提取方法以及基于自然语言理解的特征提取方法遥基于概率统计的特征提取方法利用文本特征的统计信息进行关键词提取袁如栽云陨阅云咱员暂尧词共现咱圆暂等袁该类方法具有简单尧通用的特点袁不需要复杂的训练过程袁但准确率不高遥基于传统机器学习

第4期沈高峰，等：基于遗传算法优化综合启发式的中文网页特征提取 .475 理论的特征提取方法通过对大规模语料库进行学 1{(号e):(,y)∈E(:,)∈E,,,∈V}I 习，采用决策树)、贝叶斯算法[4)、最大熵模型)等 (3) 方法对训练集进行训练，从而得到相关模型，然后再顶点的聚集度系数C:为利用该模型对关键词进行提取，但该类方法较为复 2K, 杂。基于自然语言理解的特征提取方法通常需要对 C:= D(D-1) (4) 中文文本从词、句、语义、篇章等层级进行分析，从而 2」获得相关关键词，这类方法更加符合关键词提取的由式(3)和式(4)可得特征关联度为标注过程，但如何对文章进行准确的语言学分析还没有得到有效解决，该方法的抽取性能非常有限。 CF:=aC/ ∑C+(1-)D,/N (5) 针对上述传统特征提取方法的特点和不足，提根据式(3)~(6)，词语网络中节点的度和聚集出了一种基于遗传算法优化综合启发式的中文网页度系数可以描述特征在文本中的连接特性，处于重特征提取方法。该方法首先对文本文档的分词结果要位置的特征往往具有较高的关联度。进行词性标注，然后计算文档词语的词性、位置、 1.3词性 T℉DF以及聚集特征等综合启发式，并用遗传算法词性是一种浅层语言学知识的表示，该因素的优化各启发式的权重参数，最终提取获得中文网页获取不需要对文本进行复杂的语言学标注和分析，特征词。从而能有效避免传统采用语言学方法的缺陷。一般 1 基础知识简介而言，中文文本特征的词性往往集中在名词、动词形容词等实词中。根据人工标注结果，对特征的词 1.1频率性分布进行了统计分析，其结果如表1所示。 TFIDF是一种常用的信息检索方法[6)。设N 表1特征词性分布表示给定文档集合2中的总文档数目。对于给定 Table 1 Characteristics distribution 文档d,采用T℉IDF算法得到该文档中词条t的权词性名词动词形容词副词其他重心，为数目 843134051830659 675 (w,=TF x IDF (1) 百分比/%56.2 22.7 12.2 4.4 IDF log(N/n) 4.5 式中：TF表示t在文档d中出现的频率。IDF表示从特征词性统计分布可以看到，词性能够有效表文档d在文档集中出现的文档数目，n表示文档集征文档的中文特征。排名前4位的名词、动词、形容词中出现特征t的文档数目。和副词达到关键词总数的95.5%。因此，论文引人词性从式(1)可知，如果特征t在文档d出现的次数作为特征提取的重要因素之一。该因素能够有效区分较多而在其他文档中出现次数较少的话，那么特征t 停用词等，克服了传统基于统计方法无法解决高频但的权值就较大，表明该特征对文档d的区分能力就无实际意义的中文词语，从而提高特征提取的性能。较强，就可以作为文档特征的候选之一。 1.4位置 1.2关联度位置是文本特征提取的一个重要因素。根据特征词语的关联表现为词与词之间构成的复杂网所在的位置，主要包括标题、摘要和正文3种。根据词络[)。复杂网络方面的研究表明，汉语语言的词语语所在的具体位置，还可细分为小标题、起始段、中间之间的关联度具有高度的局部聚集性和全局连接段、末尾段、起始句、中间句、末尾句等9。由于网络文性，能够用于表征文本特征)。本一般不存在摘要，本文主要考虑特征位于标题、起始设V={1,2,…,n}表示文档特征的集合，段以及其他3种情况。通常特征位于标题和起始段的 (:,)表示特征"：和特征之间的一条边。概率较高，因此根据文本中特征所在的位置，按照标 G(V,E)表示的是一个图，其中V为图的顶点集合，题、起始段、其他的顺序分别赋给不同的权重。 EC{(:,)::,∈V}为图的边集。对于顶点：，其度定义如下： 2论文所提方法 D=l{(e:,):(:,)∈E,,y∈V}I(2) 2.1综合启发式顶点v,的聚集度K为仅仅根据单词频率进行特征提取的T℉DF方 K= 法虽然简单，但是也存在一定的缺陷，如数据集偏

理论的特征提取方法通过对大规模语料库进行学习袁采用决策树咱猿暂尧贝叶斯算法咱源暂尧最大熵模型咱缘暂等方法对训练集进行训练袁从而得到相关模型袁然后再利用该模型对关键词进行提取袁但该类方法较为复杂遥基于自然语言理解的特征提取方法通常需要对中文文本从词尧句尧语义尧篇章等层级进行分析袁从而获得相关关键词袁这类方法更加符合关键词提取的标注过程袁但如何对文章进行准确的语言学分析还没有得到有效解决袁该方法的抽取性能非常有限遥针对上述传统特征提取方法的特点和不足袁提出了一种基于遗传算法优化综合启发式的中文网页特征提取方法遥该方法首先对文本文档的分词结果进行词性标注袁然后计算文档词语的词性尧位置尧栽云陨阅云以及聚集特征等综合启发式袁并用遗传算法优化各启发式的权重参数袁最终提取获得中文网页特征词遥员摇基础知识简介员援员摇频率摇摇栽云陨阅云是一种常用的信息检索方法咱远暂遥设晕表示给定文档集合赘中的总文档数目遥对于给定文档凿袁采用栽云陨阅云算法得到该文档中词条贼的权重憎贼为憎贼越栽云伊陨阅云陨阅云越造燥早渊晕辕灶冤  渊员冤式中院栽云表示贼在文档凿中出现的频率遥陨阅云表示文档凿在文档集中出现的文档数目袁灶表示文档集中出现特征贼的文档数目遥从式渊员冤可知袁如果特征贼在文档凿出现的次数较多而在其他文档中出现次数较少的话袁那么特征贼的权值就较大袁表明该特征对文档凿的区分能力就较强袁就可以作为文档特征的候选之一遥员援圆摇关联度词语的关联表现为词与词之间构成的复杂网络咱苑暂遥复杂网络方面的研究表明袁汉语语言的词语之间的关联度具有高度的局部聚集性和全局连接性袁能够用于表征文本特征咱愿暂遥设灾越喳增员袁增圆袁噎袁增灶札表示文档特征的集合袁增蚤袁增躁   表示特征增蚤和特征增躁之间的一条边遥郧灾  袁耘表示的是一个图袁其中灾为图的顶点集合袁耘哿喳增蚤袁增躁   院增蚤袁增躁沂灾札为图的边集遥对于顶点增蚤袁其度定义如下院阅蚤越渣喳增蚤袁增躁   院增蚤袁增躁   沂耘袁增蚤袁增躁沂灾札渣渊圆冤顶点增蚤的聚集度运蚤为运蚤越渣喳渊增躁袁增噪冤院渊增蚤袁增躁冤沂耘渊增蚤袁增噪冤沂耘袁增蚤袁增躁袁增噪沂灾札渣渊猿冤顶点增蚤的聚集度系数悦蚤为悦蚤越运蚤阅蚤圆         越圆运蚤阅蚤渊阅蚤原员冤渊源冤由式渊猿冤和式渊源冤可得特征关联度为悦云蚤越琢悦蚤辕移晕躁越员悦躁垣渊员原琢冤阅蚤辕晕渊缘冤摇摇根据式渊猿冤耀渊远冤袁词语网络中节点的度和聚集度系数可以描述特征在文本中的连接特性袁处于重要位置的特征往往具有较高的关联度遥员援猿摇词性词性是一种浅层语言学知识的表示袁该因素的获取不需要对文本进行复杂的语言学标注和分析袁从而能有效避免传统采用语言学方法的缺陷遥一般而言袁中文文本特征的词性往往集中在名词尧动词尧形容词等实词中遥根据人工标注结果袁对特征的词性分布进行了统计分析袁其结果如表员所示遥表员摇特征词性分布栽葬遭造藻员摇悦澡葬则葬糟贼藻则蚤泽贼蚤糟泽凿蚤泽贼则蚤遭怎贼蚤燥灶词性名词动词形容词副词其他数目愿源猿员猿源园缘员愿猿园远缘怨远苑缘百分比辕豫缘远援圆圆圆援苑员圆援圆源援源源援缘摇摇从特征词性统计分布可以看到袁词性能够有效表征文档的中文特征遥排名前源位的名词尧动词尧形容词和副词达到关键词总数的怨缘援缘豫遥因此袁论文引入词性作为特征提取的重要因素之一遥该因素能够有效区分停用词等袁克服了传统基于统计方法无法解决高频但无实际意义的中文词语袁从而提高特征提取的性能遥员援源摇位置位置是文本特征提取的一个重要因素遥根据特征所在的位置袁主要包括标题尧摘要和正文猿种遥根据词语所在的具体位置袁还可细分为小标题尧起始段尧中间段尧末尾段尧起始句尧中间句尧末尾句等咱怨暂遥由于网络文本一般不存在摘要袁本文主要考虑特征位于标题尧起始段以及其他猿种情况遥通常特征位于标题和起始段的概率较高袁因此根据文本中特征所在的位置袁按照标题尧起始段尧其他的顺序分别赋给不同的权重遥圆摇论文所提方法圆援员摇综合启发式仅仅根据单词频率进行特征提取的栽云陨阅云方法虽然简单袁但是也存在一定的缺陷袁如数据集偏第源期摇摇摇摇摇摇摇摇摇摇沈高峰袁等院基于遗传算法优化综合启发式的中文网页特征提取窑源苑缘窑

·476 智能系统学报第9卷斜[o],类间、类内分布偏差)等。而单纯依靠复杂 TFIDF、关联度、位置和词性等启发式。网络中词语之间关联度的特征提取方法，则忽略了 3)启发式融合。根据多启发式融合模型，对词特征本身的频率，容易造成特征提取聚集到某些无语的4个启发式进行融合，并计算得到综合得分。意义的高频词，如“的”等，从而导致特征提取出现 4)输出结果。最后根据各特征得分的大小进偏差。研究显示，融合频率和关联特征[)]能够有效行排序，选择最优的特征并输出。避免单一方法的缺陷，从而提高特征提取的效率。 2.3遗传算法优化权重参数此外，仅仅依靠统计知识容易造成特征提取偏本文方法中各启发式的参数权重选择是一个典型差，特别是一些高频词如“是”、“和”等容易成为特的组合优化问题。由于遗传算法简单、易理解、易实征的候选。尽管这些词可以通过建立“停词表”对现，且在解决组合优化问题有强大的优势)，因此，论其进行过滤，但是构建合适的词表非常困难，因此引文采用遗传算法对式(6)中的参数权重进行优化，从而入特征的词性以及位置对特征进行进一步选取。得到一定范围的最佳组合参数权重。这里限定4个参综合以上因素，论文采用特征的频率、关联度数权重的取值范围为(0,1)，并且满足α+B+y+8= 词性以及位置4个因素来衡量待选特征。对于文本 1。然后根据经验选取适当的初始值，并经过迭代计中的每个特征，其权重计算公式为算，得到每个启发式的参数权重。利用遗传算法获取各特征参数权重具体过程描述如下： score(w)=a x WFre +B x WLe+ 1)依据经验，初始化各特征参数权重α=0.2， y×Wcs+8×Wos (6) 式中：Wm表示特征的TFIDF启发式，Wos表示特征 B=0.2,y=0.4,8=0.2; 2)采用十进制编码对染色体进行编码。首先的词性启发式，W表示特征的关联度启发式，W 把各参数都乘以10或100使它们变成整数，然后再表示特征的位置启发式。每个启发式的具体描述如对它们进行编码，具体格式如下：L=ayδ。其中表2所示。各参数均用3位十进制数来表示，例如：α=0.2，B= 表2特征各启发式描述 0.2,y=0.4,8=0.2,则先把它们转化为a=020,B= Table 2 Description of feature heuristics 020,y=040,8=020,则相应染色体编码为：L= 类型表示描述 020020040020。词性 POS 特征的词性信息，如名词、动词、形容词等 3)利用各参数权重计算相应召回率，以召回率作为染色体的适应度函数，召回率计算公式为位置根据特征位置，分为标题、起始段和其他 Loc 3个部分： recall n/N 频率 Freq 采用TFDF值表示特征的频率信息：式中：n代表同所标注的特征相符的特征的数目，N 关联度 CF 表征特征网络之间的链接关系：代表文档集中所标注的特征总数目。 4)交叉和变异操作：遗传算法的收敛速度以及 2.2特征提取流程解的质量在很大程度上取决于交叉概率和变异概特征提取的基本流程如图1所示，其中虚线部率。为了防止算法陷于局部最优以及加快算法搜索分为训练模块。对于给定的输入本文，特征提取具效率，仅让种群中较优个体参与交叉和变异，而当前体过程如下。种群最优个体则不参与。具体交叉概率和变异概率、1片6. 计算公式如下：经上· P。 /,sin( 2 ),f≥fg =t.白 (8) 中小数专“ 后左午分1·小世心 T assin( 柱N出： P 2 f-),.≥fm(9) 图1 本文方法特征提取基本流程 Fig.1 Flow of feature extraction in this paper 式中：a1、a2、a3、a4为0~1的随机数，fm是当前群 1)预处理。将网络文本去除HTML格式，保留文体中最优个体的适应度值，f是当前群体的平均本词语的位置信息，并对文本进行分词和词性标注。适应度值，∫是参加交叉操作的个体中较大的适应 2)各启发式计算。计算文本中每个词语的度值，f是变异个体的适应度值。 5)终止条件：当代种群最佳染色体适应度值和前

斜咱员园暂袁类间尧类内分布偏差咱员员暂等遥而单纯依靠复杂网络中词语之间关联度的特征提取方法袁则忽略了特征本身的频率袁容易造成特征提取聚集到某些无意义的高频词袁如野的冶等袁从而导致特征提取出现偏差遥研究显示袁融合频率和关联特征咱员圆暂能够有效避免单一方法的缺陷袁从而提高特征提取的效率遥此外袁仅仅依靠统计知识容易造成特征提取偏差袁特别是一些高频词如野是冶尧野和冶等容易成为特征的候选遥尽管这些词可以通过建立野停词表冶对其进行过滤袁但是构建合适的词表非常困难袁因此引入特征的词性以及位置对特征进行进一步选取遥综合以上因素袁论文采用特征的频率尧关联度尧词性以及位置源个因素来衡量待选特征遥对于文本中的每个特征憎袁其权重计算公式为泽糟燥则藻渊憎冤越琢伊宰云则藻择垣茁伊宰蕴燥糟垣酌伊宰悦云垣啄伊宰孕韵杂渊远冤式中院宰云则藻择表示特征的栽云陨阅云启发式袁宰孕韵杂表示特征的词性启发式袁宰悦云表示特征的关联度启发式袁宰蕴燥糟表示特征的位置启发式遥每个启发式的具体描述如表圆所示遥表圆摇特征各启发式描述栽葬遭造藻圆摇阅藻泽糟则蚤责贼蚤燥灶燥枣枣藻葬贼怎则藻澡藻怎则蚤泽贼蚤糟泽类型表示描述词性孕韵杂特征的词性信息袁如名词尧动词尧形容词等位置蕴燥糟根据特征位置袁分为标题尧起始段和其他猿个部分曰频率云则藻择采用栽云陨阅云值表示特征的频率信息曰关联度悦云表征特征网络之间的链接关系曰圆援圆摇特征提取流程特征提取的基本流程如图员所示袁其中虚线部分为训练模块遥对于给定的输入本文袁特征提取具体过程如下遥图员摇本文方法特征提取基本流程云蚤早援员摇云造燥憎燥枣枣藻葬贼怎则藻藻曾贼则葬糟贼蚤燥灶蚤灶贼澡蚤泽责葬责藻则员冤预处理遥将网络文本去除匀栽酝蕴格式袁保留文本词语的位置信息袁并对文本进行分词和词性标注遥圆冤各启发式计算遥计算文本中每个词语的栽云陨阅云尧关联度尧位置和词性等启发式遥猿冤启发式融合遥根据多启发式融合模型袁对词语的源个启发式进行融合袁并计算得到综合得分遥源冤输出结果遥最后根据各特征得分的大小进行排序袁选择最优的特征并输出遥圆援猿摇遗传算法优化权重参数本文方法中各启发式的参数权重选择是一个典型的组合优化问题遥由于遗传算法简单尧易理解尧易实现袁且在解决组合优化问题有强大的优势咱员猿暂袁因此袁论文采用遗传算法对式渊远冤中的参数权重进行优化袁从而得到一定范围的最佳组合参数权重遥这里限定源个参数权重的取值范围为渊园袁员冤袁并且满足琢垣茁垣酌垣啄越员遥然后根据经验选取适当的初始值袁并经过迭代计算袁得到每个启发式的参数权重遥利用遗传算法获取各特征参数权重具体过程描述如下院员冤依据经验袁初始化各特征参数权重琢越园援圆袁茁越园援圆袁酌越园援源袁啄越园援圆曰圆冤采用十进制编码对染色体进行编码遥首先把各参数都乘以员园或员园园使它们变成整数袁然后再对它们进行编码袁具体格式如下院蕴越琢茁酌啄遥其中各参数均用猿位十进制数来表示袁例如院琢越园援圆袁茁越园援圆袁酌越园援源袁啄越园援圆袁则先把它们转化为琢越园圆园袁茁越园圆园袁酌越园源园袁啄越园圆园袁则相应染色体编码为院蕴越园圆园园圆园园源园园圆园遥猿冤利用各参数权重计算相应召回率袁以召回率作为染色体的适应度函数袁召回率计算公式为则藻糟葬造造越灶辕晕式中院灶代表同所标注的特征相符的特征的数目袁晕代表文档集中所标注的特征总数目遥源冤交叉和变异操作院遗传算法的收敛速度以及解的质量在很大程度上取决于交叉概率和变异概率遥为了防止算法陷于局部最优以及加快算法搜索效率袁仅让种群中较优个体参与交叉和变异袁而当前种群最优个体则不参与遥具体交叉概率和变异概率计算公式如下院责糟越葬员泽蚤灶渊仔圆伊枣皂葬曾原枣糟枣皂葬曾原枣葬增早冤袁摇枣糟逸枣葬增早葬圆袁摇枣糟约枣葬增早        渊愿冤责皂越葬猿泽蚤灶渊仔圆伊枣皂葬曾原枣皂枣皂葬曾原枣葬增早冤袁摇枣皂逸枣葬增早葬源袁摇枣皂约枣葬增早        渊怨冤式中院葬员尧葬圆尧葬猿尧葬源为园耀员的随机数袁枣皂葬曾是当前群体中最优个体的适应度值袁枣葬增早是当前群体的平均适应度值袁枣糟是参加交叉操作的个体中较大的适应度值袁枣皂是变异个体的适应度值遥缘冤终止条件院当代种群最佳染色体适应度值和前窑源苑远窑智能系统学报摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇第怨卷

第4期沈高蜂，等：基于遗传算法优化综合启发式的中文网页特征提取 .477. 代种群最佳染色体适应度值之差绝对值不超过10。得分最高的前10个词语作为最后的关键词。表4 采用遗传算法优化选择各启发式的参数权重，能为实验对比结果。其中，基于频率的方法用TFDF 够有效避免通过主观经验来确定参数的主观性，从而来表示，基于关联度的方法用C℉来表示，本文方法实现参数能够依据训练数据自适应地调优。下面的用Muli来表示。实验验证结果表明，采用该遗传算法获得参数权重能表33种方法下召回率对比结果够使本文特征提取方法获得良好的提取效果。 Table 3 Comparison results of recall rate on three methods 3 实验验证方法关键词召回率/% 3.1实验总体设置负增长、收入、中央、降、季度、以Intel Core2 Duo CPU T6500、2.4GHz、2GB 参考答案财政、利润、降低、涨幅、增长内存和Windows XP2SP2操作系统的PC机作为实负增长、收人、中央、季度数据验平台，以MATLAB7.0为仿真工具，进行2组实验： TFIDF 50 降、影响、进口、今年、同比第1组实验数据来自互联网抓取的1500个中文文档，论文根据该数据集的来源将这些文档分为负增长、收入、中央、财政、季度、 CF 60 5个类别，分别包括新闻、财经、科技、体育和娱乐，降低、都、进口、随后、做各类文档数目分布均匀，都包含300篇文档。实验负增长、收入、中央、财政，降低 Multi 70 中选择每个类别的200篇文档作为训练集，剩下的进口、利润、季度、累计、财政部 100篇作为测试集。从表4可以看出，对于“都”、“随后”这类词，本第2组实验数据采用复旦大学计算机信息与技术文方法能够有效地滤除。由于这类单词在文本中通系国际数据库中心自然语言处理小组构建的中文文本常具有较高的频率，很难通过统计的方法有效去除。分类语料库作为实验数据，其下载网址为：而且本文方法召回率能够达到70%，表现出较好的 http://www.nlp.org.cn/categories/default.php?cat_id= 提取性能。此外，比较特征词自动提取和人工选择， 16。该语料库由20个类别的14378篇文档组成，其中 3种提取方法都得到了“进口”这个特征词，但人工 6164篇为测试文本，8214篇为训练文本：各类别的测标注却忽略了这个词语。通过查看原文，“进口”确试文本集和训练文本集之间互不重叠，也即一篇文档实应该标注为特征词，反映出人工选择带有较强的仅属一个文本集并且每篇文本仅属于一个类别。该语主观性，这种主观性很容易产生实验误差。同样也料库各类别训练文档数分布极其不均匀，其中训练文反映出特征词自动提取能够在一定程度上克服这种档数较小的类别占大多数，约为11个类别，它们的训主观性的缺点。练文档数均少于100篇，如通信类文档数仅有25篇。 3.2.2召回率实验结果由于所选语料库是中文性质的，所以这2组实针对测试集的不同类别，论文分别对比不同特验都采用中科院计算技术研究所的“汉语词法分析征词提取方法的性能。由于不同类别的多启发式融系统ICTCLAS”对它进行分词处理；分类工具软件合参数不同，论文利用每个类别的训练语料分别训都采用纽西兰的Waikato大学开发的Weka工具：因练得到各个类别的多启发式融合参数。各特征词提 KNN分类器简单、易实现而被广泛应用，这2组实取方法性能采用该类别测试集上的平均召回率表验选它作为实验分类器（其中距离采用向量夹角余示，实验结果如图2所示。弦来度量，K=20)。 70 为了对论文所提方法性能进行全面考查，论文对这2组实验分别做了不同方面的实验内容：第1 组实验主要做特征词选择和召回率方面的实验：第 C 2组主要做耗时和分类性能方面的实验。 --下」入ig在方 3.2第1组实验（各类别数据分布均匀） ·+论的万在该组实验中，论文对比了基于频率的特征提取 1投什方法、基于关联度的特征提取方法以及本文方法性能。 w品 3.2.1特征词选择实验结果图2 各特征提取方法在各类别下的召回率对比结果分别采用上面3种方法计算全部词语的4个启 Fig.2 Comparison results of recall rate on feature ex- traction methods 发式值，并根据不同启发式权重进行排序，最后提取

代种群最佳染色体适应度值之差绝对值不超过员园原缘遥采用遗传算法优化选择各启发式的参数权重袁能够有效避免通过主观经验来确定参数的主观性袁从而实现参数能够依据训练数据自适应地调优遥下面的实验验证结果表明袁采用该遗传算法获得参数权重能够使本文特征提取方法获得良好的提取效果遥猿摇实验验证猿援员摇实验总体设置以陨灶贼藻造悦燥则藻圆阅怎燥悦孕哉栽远缘园园尧圆援源郧匀扎尧圆郧月内存和宰蚤灶凿燥憎泽载孕圆杂孕圆操作系统的孕悦机作为实验平台袁以酝粤栽蕴粤月苑援园为仿真工具袁进行圆组实验院第员组实验数据来自互联网抓取的员缘园园个中文文档袁论文根据该数据集的来源将这些文档分为缘个类别袁分别包括新闻尧财经尧科技尧体育和娱乐袁各类文档数目分布均匀袁都包含猿园园篇文档遥实验中选择每个类别的圆园园篇文档作为训练集袁剩下的员园园篇作为测试集遥第圆组实验数据采用复旦大学计算机信息与技术系国际数据库中心自然语言处理小组构建的中文文本分类语料库作为实验数据袁其下载网址为院澡贼贼责院辕辕憎憎憎援灶造责援燥则早援糟灶辕糟葬贼藻早燥则蚤藻泽辕凿藻枣葬怎造贼援责澡责钥糟葬贼赃蚤凿越员远遥该语料库由圆园个类别的员源猿苑愿篇文档组成袁其中远员远源篇为测试文本袁愿圆员源篇为训练文本曰各类别的测试文本集和训练文本集之间互不重叠袁也即一篇文档仅属一个文本集并且每篇文本仅属于一个类别遥该语料库各类别训练文档数分布极其不均匀袁其中训练文档数较小的类别占大多数袁约为员员个类别袁它们的训练文档数均少于员园园篇袁如通信类文档数仅有圆缘篇遥由于所选语料库是中文性质的袁所以这圆组实验都采用中科院计算技术研究所的野汉语词法分析系统陨悦栽悦蕴粤杂冶对它进行分词处理曰分类工具软件都采用纽西兰的宰葬蚤噪葬贼燥大学开发的宰藻噪葬工具曰因运晕晕分类器简单尧易实现而被广泛应用袁这圆组实验选它作为实验分类器渊其中距离采用向量夹角余弦来度量袁运越圆园冤遥为了对论文所提方法性能进行全面考查袁论文对这圆组实验分别做了不同方面的实验内容院第员组实验主要做特征词选择和召回率方面的实验曰第圆组主要做耗时和分类性能方面的实验遥猿援圆摇第员组实验渊各类别数据分布均匀冤在该组实验中袁论文对比了基于频率的特征提取方法尧基于关联度的特征提取方法以及本文方法性能遥猿援圆援员摇特征词选择实验结果分别采用上面猿种方法计算全部词语的源个启发式值袁并根据不同启发式权重进行排序袁最后提取得分最高的前员园个词语作为最后的关键词遥表源为实验对比结果遥其中袁基于频率的方法用栽云陨阅云来表示袁基于关联度的方法用悦云来表示袁本文方法用酝怎造贼蚤来表示遥表猿摇猿种方法下召回率对比结果栽葬遭造藻猿摇悦燥皂责葬则蚤泽燥灶则藻泽怎造贼泽燥枣则藻糟葬造造则葬贼藻燥灶贼澡则藻藻皂藻贼澡燥凿泽方法关键词召回率辕豫参考答案负增长尧收入尧中央尧降尧季度尧财政尧利润尧降低尧涨幅尧增长要栽云陨阅云负增长尧收入尧中央尧季度尧数据尧降尧影响尧进口尧今年尧同比缘园悦云负增长尧收入尧中央尧财政尧季度尧降低尧都尧进口尧随后尧做远园酝怎造贼蚤负增长尧收入尧中央尧财政尧降低尧进口尧利润尧季度尧累计尧财政部苑园摇摇从表源可以看出袁对于野都冶尧野随后冶这类词袁本文方法能够有效地滤除遥由于这类单词在文本中通常具有较高的频率袁很难通过统计的方法有效去除遥而且本文方法召回率能够达到苑园豫袁表现出较好的提取性能遥此外袁比较特征词自动提取和人工选择袁猿种提取方法都得到了野进口冶这个特征词袁但人工标注却忽略了这个词语遥通过查看原文袁野进口冶确实应该标注为特征词袁反映出人工选择带有较强的主观性袁这种主观性很容易产生实验误差遥同样也反映出特征词自动提取能够在一定程度上克服这种主观性的缺点遥猿援圆援圆摇召回率实验结果针对测试集的不同类别袁论文分别对比不同特征词提取方法的性能遥由于不同类别的多启发式融合参数不同袁论文利用每个类别的训练语料分别训练得到各个类别的多启发式融合参数遥各特征词提取方法性能采用该类别测试集上的平均召回率表示袁实验结果如图圆所示遥图圆摇各特征提取方法在各类别下的召回率对比结果云蚤早援圆摇悦燥皂责葬则蚤泽燥灶则藻泽怎造贼泽燥枣则藻糟葬造造则葬贼藻燥灶枣藻葬贼怎则藻藻曾鄄贼则葬糟贼蚤燥灶皂藻贼澡燥凿泽第源期摇摇摇摇摇摇摇摇摇摇沈高峰袁等院基于遗传算法优化综合启发式的中文网页特征提取窑源苑苑窑

·478 智能系统学报第9卷从图2可以看出，采用本文方法在各个测试集 5 上的平均召回率均高于基于关联度的方法和基于频圳率的方法的性能，这说明该方法提取特征词的性能 8i 4年9 稳定，在各个类别的提取效果均得到明显提高。 iu 3.3第2组实验（各类别数据分布极其不均匀）》 75 --大…米·二次 e年广学在这组实验中，采用宏平均F,值和微平均F 7H. 值作为分类性能评价标准，使用3种经典的特征提 5 取方法：信息增益(IG)、x2统计量(CH)、互信息 6 (M)与本文所提特征提取方法作比较。时 250 城r : 3.3.1耗时实验结果图5微平均F,实验结果在实验中，记录了各特征提取方法从开始执行 Fig.5 Comparison results of micro-average F 到执行结束整个过程所消耗的时间，其结果如图3。利用特征数目的变化来考查分类器的性能，可以比较准确地反映出该分类器数对据样本变化是否敏感。图4表明：随着特征数目的递增，宏平均F 值不断增加，但是由于实验数据中各类别样本分布 ÷1 极其不均匀而有所波动：图4表明：随着特征个数的不断增加，微平均F,值也递增并趋于一个相对较稳定的值。书之1冰1.小*汀%护心方出从图4和图5可以看出：在本文方法所选的前图3各方法消耗的时间 1500个特征上KNN分类器性能最佳，宏平均F,值 Fig.3 Comparison results of consuming time 约为84%，微平均F,值约为92%：在CHⅢ方法所选由于本文方法采用了多个指标以及组合方的前1500个特征上KNN分类器性能最佳，宏平均法，耗时有所增加。从图3可以看出，在该组实 F,值约为74%，微平均F,值约为86%：在M方法验中，本文方法在消耗时间方面劣于互信息方法所选的前1500个特征上KNN分类器性能最佳，宏和信息增益方法，但优于最耗时的x2统计量方平均F值约为70%，微平均F,值约为84%：在1G 法，但它们耗时相差不大，这也使得本文方法有方法所选的前2O00个特征上KNN分类器性能最一定的实用价值。佳，宏平均F,值约为61%，微平均F,值约为67%。 3.3.2宏平均和微平均实验结果这表明在该组实验中，这4个特征提取方法的优劣从各个特征提取方法所获得的特征集（其中的依次为本文方法、CH、MI、IG。原因在于：本文方法特征已按权重逆序进行了排序)中，分别选取相应在选择特征时，不但考查了特征的词性和词频还考数目的特征对实验数据进行宏平均F,和微平均F, 查了特征的位置和关联度，从而有效地对待选特征计算，具体结果如图4和图5所示。进行全面考查，这使得本文方法受类别分布影响较小，因此所选特征集较具代表性。CHⅢ方法在选择特征时不但考查了特征在文档中存在的情况而且还考查了特征不在文档中的情况，MI方法仅考查了特征在文档中存在的情况，但它们都没能有效地消除 a 。b以冗余特征。因此，这2个方法要劣于本文方法，但是 CHⅢI方法要优于MI方法：由于实验中所用语料库中 -5芯，各类别样本分布相差较大，而IG方法对类别样本分 4 10 A 三74方出布极其敏感，因此，在此情况下G方法所选择的特 vi 征集代表性最差。 l 图4 宏平均F,实验结果 4结束语 Fig.4 Comparison results of macro-average F 基于统计方法和基于语言学的特征提取方法已

从图圆可以看出袁采用本文方法在各个测试集上的平均召回率均高于基于关联度的方法和基于频率的方法的性能袁这说明该方法提取特征词的性能稳定袁在各个类别的提取效果均得到明显提高遥猿援猿摇第圆组实验渊各类别数据分布极其不均匀冤在这组实验中袁采用宏平均云员值和微平均云员值作为分类性能评价标准袁使用猿种经典的特征提取方法院信息增益渊陨郧冤尧曾圆统计量渊悦匀陨冤尧互信息渊酝陨冤与本文所提特征提取方法作比较遥猿援猿援员摇耗时实验结果在实验中袁记录了各特征提取方法从开始执行到执行结束整个过程所消耗的时间袁其结果如图猿遥图猿摇各方法消耗的时间云蚤早援猿摇悦燥皂责葬则蚤泽燥灶则藻泽怎造贼泽燥枣糟燥灶泽怎皂蚤灶早贼蚤皂藻由于本文方法采用了多个指标以及组合方法袁耗时有所增加遥从图猿可以看出袁在该组实验中袁本文方法在消耗时间方面劣于互信息方法和信息增益方法袁但优于最耗时的曾圆统计量方法袁但它们耗时相差不大袁这也使得本文方法有一定的实用价值遥猿援猿援圆摇宏平均和微平均实验结果从各个特征提取方法所获得的特征集渊其中的特征已按权重逆序进行了排序冤中袁分别选取相应数目的特征对实验数据进行宏平均云员和微平均云员计算袁具体结果如图源和图缘所示遥图源摇宏平均云员实验结果云蚤早援源摇悦燥皂责葬则蚤泽燥灶则藻泽怎造贼泽燥枣皂葬糟则燥鄄葬增藻则葬早藻云员图缘摇微平均云员实验结果云蚤早援缘摇悦燥皂责葬则蚤泽燥灶则藻泽怎造贼泽燥枣皂蚤糟则燥鄄葬增藻则葬早藻云员利用特征数目的变化来考查分类器的性能袁可以比较准确地反映出该分类器数对据样本变化是否敏感遥图源表明院随着特征数目的递增袁宏平均云员值不断增加袁但是由于实验数据中各类别样本分布极其不均匀而有所波动曰图源表明院随着特征个数的不断增加袁微平均云员值也递增并趋于一个相对较稳定的值遥从图源和图缘可以看出院在本文方法所选的前员缘园园个特征上运晕晕分类器性能最佳袁宏平均云员值约为愿源豫袁微平均云员值约为怨圆豫曰在悦匀陨方法所选的前员缘园园个特征上运晕晕分类器性能最佳袁宏平均云员值约为苑源豫袁微平均云员值约为愿远豫曰在酝陨方法所选的前员缘园园个特征上运晕晕分类器性能最佳袁宏平均云员值约为苑园豫袁微平均云员值约为愿源豫曰在陨郧方法所选的前圆园园园个特征上运晕晕分类器性能最佳袁宏平均云员值约为远员豫袁微平均云员值约为远苑豫遥这表明在该组实验中袁这源个特征提取方法的优劣依次为本文方法尧悦匀陨尧酝陨尧陨郧遥原因在于院本文方法在选择特征时袁不但考查了特征的词性和词频还考查了特征的位置和关联度袁从而有效地对待选特征进行全面考查袁这使得本文方法受类别分布影响较小袁因此所选特征集较具代表性遥悦匀陨方法在选择特征时不但考查了特征在文档中存在的情况而且还考查了特征不在文档中的情况袁酝陨方法仅考查了特征在文档中存在的情况袁但它们都没能有效地消除冗余特征遥因此袁这圆个方法要劣于本文方法袁但是悦匀陨方法要优于酝陨方法曰由于实验中所用语料库中各类别样本分布相差较大袁而陨郧方法对类别样本分布极其敏感袁因此袁在此情况下陨郧方法所选择的特征集代表性最差遥源摇结束语基于统计方法和基于语言学的特征提取方法已窑源苑愿窑智能系统学报摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇第怨卷

第4期沈高峰，等：基于遗传算法优化综合启发式的中文网页特征提取 ·479· 经被广泛应用于特征词提取。本文结合2种方法的 [6]LEE S,PARK C,KOO J Y.Feature selection in the Lapla- 优点，提出了一种基于遗传算法优化综合启发式的 cian support vector machine[J].Computational Statistics 中文网页特征提取方法。该方法能够有效利用词语 and Data Analysis,2011.55(1):567-577. 的内在属性和词语之间的链接关系，通过多种启发 [7]SONG Qinbao,NI Jingjie,WANG Guangtao.A fast cluste- 式表征中文文本的特征，对特征词进行较全面的考 ring-based feature subset selection algorithm for high-dimen- 查。实验结果表明该方法能够有效融合不同因素的 sional data[J].IEEE Transactions on Knowledge and Data Engineering.2013.25(1):1-14. 优点，与传统方法相比，该方法具有一定的优势，从 [8]CHUANG L Y,YANG C H,LI J C.Chaotic maps based on 而使得该方法在文本挖掘方面有一定的实用价值。 binary particle swarm optimization for feature selection[]. 由于不同类别的文档的因素分布不尽相同，论 Journal of Applied Soft Computing,2011,11 (1):239- 文接下来的工作将继续研究不同领域内采用该方法 248. 的特征词提取的性能。另外通过实验发现，对于人 [9]李纲，戴强斌.基于词汇链的关键词自动标引方法[J] 工标注的结果，主观性因素的影响依然存在。论文图书情报知识，2011,12(3)：67-71. 还将进一步研究合理的标注方式，对现有网页数据 LI Gang,DAI Qiangbin.Keywords automatic indexing based 进行处理，减少主观因素带来的实验误差。 on lexical chains[J].Document,Information and Knowl- 另外，本文方法虽然采用了十进制编码以及自适 edge,2011,12(3):67-71 应交叉变异操作等措施来确保遗传算法的性能，进而 [10]朱颢东，李红婵.基于互信息和粗糙集理论的特征选择保证本文特征抽取方法的性能，但是目前有些智能优 [J].计算机工程，2011,37(15)：181-183. 化算法比遗传算法优秀，例如粒子群优化算法、蜂群 ZHU Haodong,LI Hongchan.Feature selection based on 优化算法等，如果把它们用于本文方法的参数权重优 mutual information and rough set theory[J].Computer En- gineering,2011,37(15):181-183. 化，效果可能会优于遗传算法。为此，作者下一步研 [11]JEONG Y S,KANG I H,JEONG M K.A new feature se- 究工作就是尝试把其他智能优化算法用于本文方法 lection method for one-class classification problemsJ. 的参数权重优化，以进一步提高本文方法的性能。 IEEE Transactions on Systems,Man,and Cybernetics, 参考文献： Part C:Applications and Reviews,2012,42(6):1500- 1509. [1]GHEYAS I A,SMITH L S.Feature subset selection in large [12]LIU Z,LIU Q.Balanced feature selection method for Inter- dimensionality domains[J].Pattern Recognition,2010,43 net traffic classification[]]Networks,2012,1 (2):74- (1):5-13. 83. [2]NGUYEN M H,TORRE F D.Optimal feature selection for [13]MAHROOGHY M.YOUNAN N H,ANANTHARAJ V G. support vector machines[J].Pattern Recognition,2010,43 On the use of the genetic algorithm filter-based feature se- (3):584-591 lection technique for satellite precipitation estimation[J]. [3]ZHAO Zheng,WANG Lei,LIU Huan.On similarity preser- Geoscience and Remote Sensing Letters,2012,9(5): ving feature selection[J].IEEE Transactions on Knowledge 963-967. and Data Engineering,2013,25(3):619-632. 作者简介： [4]JAVED K,BABRI H A,SAEED M.Feature selection 沈高峰，男，1978年生，讲师，主要 based on class-dependent densities for high-dimensional bi- 研究方向为数据库应用、数据挖掘。通 nary data[].IEEE Transactions on Knowledge and Data 过省级成果鉴定8项，先后发表学术论 Engineering,2012,24(3):465-477. 文11篇，参与编写教材4部。 [5]WU Xindong,YU Kui DING Wei.Online feature selection with streaming features[].IEEE Transactions on Pattern Analysis and Machine Intelligence,2013,35(5):1178- 1192

经被广泛应用于特征词提取遥本文结合圆种方法的优点袁提出了一种基于遗传算法优化综合启发式的中文网页特征提取方法遥该方法能够有效利用词语的内在属性和词语之间的链接关系袁通过多种启发式表征中文文本的特征袁对特征词进行较全面的考查遥实验结果表明该方法能够有效融合不同因素的优点袁与传统方法相比袁该方法具有一定的优势袁从而使得该方法在文本挖掘方面有一定的实用价值遥由于不同类别的文档的因素分布不尽相同袁论文接下来的工作将继续研究不同领域内采用该方法的特征词提取的性能遥另外通过实验发现袁对于人工标注的结果袁主观性因素的影响依然存在遥论文还将进一步研究合理的标注方式袁对现有网页数据进行处理袁减少主观因素带来的实验误差遥另外袁本文方法虽然采用了十进制编码以及自适应交叉变异操作等措施来确保遗传算法的性能袁进而保证本文特征抽取方法的性能袁但是目前有些智能优化算法比遗传算法优秀袁例如粒子群优化算法尧蜂群优化算法等袁如果把它们用于本文方法的参数权重优化袁效果可能会优于遗传算法遥为此袁作者下一步研究工作就是尝试把其他智能优化算法用于本文方法的参数权重优化袁以进一步提高本文方法的性能遥参考文献院咱员暂郧匀耘再粤杂陨粤袁杂酝陨栽匀蕴杂援云藻葬贼怎则藻泽怎遭泽藻贼泽藻造藻糟贼蚤燥灶蚤灶造葬则早藻凿蚤皂藻灶泽蚤燥灶葬造蚤贼赠凿燥皂葬蚤灶泽咱允暂援孕葬贼贼藻则灶砸藻糟燥早灶蚤贼蚤燥灶袁圆园员园袁源猿渊员冤院缘鄄员猿援咱圆暂晕郧哉再耘晕酝匀袁栽韵砸砸耘云阅援韵责贼蚤皂葬造枣藻葬贼怎则藻泽藻造藻糟贼蚤燥灶枣燥则泽怎责责燥则贼增藻糟贼燥则皂葬糟澡蚤灶藻泽咱允暂援孕葬贼贼藻则灶砸藻糟燥早灶蚤贼蚤燥灶袁圆园员园袁源猿渊猿冤院缘愿源鄄缘怨员援咱猿暂在匀粤韵在澡藻灶早袁宰粤晕郧蕴藻蚤袁蕴陨哉匀怎葬灶援韵灶泽蚤皂蚤造葬则蚤贼赠责则藻泽藻则鄄增蚤灶早枣藻葬贼怎则藻泽藻造藻糟贼蚤燥灶咱允暂援陨耘耘耘栽则葬灶泽葬糟贼蚤燥灶泽燥灶运灶燥憎造藻凿早藻葬灶凿阅葬贼葬耘灶早蚤灶藻藻则蚤灶早袁圆园员猿袁圆缘渊猿冤院远员怨鄄远猿圆援咱源暂允粤灾耘阅运袁月粤月砸陨匀粤袁杂粤耘耘阅酝援云藻葬贼怎则藻泽藻造藻糟贼蚤燥灶遭葬泽藻凿燥灶糟造葬泽泽鄄凿藻责藻灶凿藻灶贼凿藻灶泽蚤贼蚤藻泽枣燥则澡蚤早澡鄄凿蚤皂藻灶泽蚤燥灶葬造遭蚤鄄灶葬则赠凿葬贼葬咱允暂援陨耘耘耘栽则葬灶泽葬糟贼蚤燥灶泽燥灶运灶燥憎造藻凿早藻葬灶凿阅葬贼葬耘灶早蚤灶藻藻则蚤灶早袁圆园员圆袁圆源渊猿冤院源远缘鄄源苑苑援咱缘暂宰哉载蚤灶凿燥灶早袁再哉运怎蚤袁阅陨晕郧宰藻蚤援韵灶造蚤灶藻枣藻葬贼怎则藻泽藻造藻糟贼蚤燥灶憎蚤贼澡泽贼则藻葬皂蚤灶早枣藻葬贼怎则藻泽咱允暂援陨耘耘耘栽则葬灶泽葬糟贼蚤燥灶泽燥灶孕葬贼贼藻则灶粤灶葬造赠泽蚤泽葬灶凿酝葬糟澡蚤灶藻陨灶贼藻造造蚤早藻灶糟藻袁圆园员猿袁猿缘渊缘冤院员员苑愿鄄员员怨圆援咱远暂蕴耘耘杂袁孕粤砸运悦袁运韵韵允再援云藻葬贼怎则藻泽藻造藻糟贼蚤燥灶蚤灶贼澡藻蕴葬责造葬鄄糟蚤葬灶泽怎责责燥则贼增藻糟贼燥则皂葬糟澡蚤灶藻咱允暂援悦燥皂责怎贼葬贼蚤燥灶葬造杂贼葬贼蚤泽贼蚤糟泽葬灶凿阅葬贼葬粤灶葬造赠泽蚤泽袁圆园员员袁缘缘渊员冤院缘远苑鄄缘苑苑援咱苑暂杂韵晕郧匝蚤灶遭葬燥袁晕陨允蚤灶早躁蚤藻袁宰粤晕郧郧怎葬灶早贼葬燥援粤枣葬泽贼糟造怎泽贼藻鄄则蚤灶早鄄遭葬泽藻凿枣藻葬贼怎则藻泽怎遭泽藻贼泽藻造藻糟贼蚤燥灶葬造早燥则蚤贼澡皂枣燥则澡蚤早澡鄄凿蚤皂藻灶鄄泽蚤燥灶葬造凿葬贼葬咱允暂援陨耘耘耘栽则葬灶泽葬糟贼蚤燥灶泽燥灶运灶燥憎造藻凿早藻葬灶凿阅葬贼葬耘灶早蚤灶藻藻则蚤灶早袁圆园员猿袁圆缘渊员冤院员鄄员源援咱愿暂悦匀哉粤晕郧蕴再袁再粤晕郧悦匀袁蕴陨允悦援悦澡葬燥贼蚤糟皂葬责泽遭葬泽藻凿燥灶遭蚤灶葬则赠责葬则贼蚤糟造藻泽憎葬则皂燥责贼蚤皂蚤扎葬贼蚤燥灶枣燥则枣藻葬贼怎则藻泽藻造藻糟贼蚤燥灶咱允暂援允燥怎则灶葬造燥枣粤责责造蚤藻凿杂燥枣贼悦燥皂责怎贼蚤灶早袁圆园员员袁员员渊员冤院圆猿怨鄄圆源愿援咱怨暂李纲袁戴强斌援基于词汇链的关键词自动标引方法咱允暂援图书情报知识袁圆园员员袁员圆渊猿冤院远苑鄄苑员援蕴陨郧葬灶早袁阅粤陨匝蚤葬灶早遭蚤灶援运藻赠憎燥则凿泽葬怎贼燥皂葬贼蚤糟蚤灶凿藻曾蚤灶早遭葬泽藻凿燥灶造藻曾蚤糟葬造糟澡葬蚤灶泽咱允暂援阅燥糟怎皂藻灶贼袁陨灶枣燥则皂葬贼蚤燥灶葬灶凿运灶燥憎造鄄藻凿早藻袁圆园员员袁员圆渊猿冤院远苑鄄苑员咱员园暂朱颢东袁李红婵援基于互信息和粗糙集理论的特征选择咱允暂援计算机工程袁圆园员员袁猿苑渊员缘冤院员愿员鄄员愿猿援在匀哉匀葬燥凿燥灶早袁蕴陨匀燥灶早糟澡葬灶援云藻葬贼怎则藻泽藻造藻糟贼蚤燥灶遭葬泽藻凿燥灶皂怎贼怎葬造蚤灶枣燥则皂葬贼蚤燥灶葬灶凿则燥怎早澡泽藻贼贼澡藻燥则赠咱允暂援悦燥皂责怎贼藻则耘灶鄄早蚤灶藻藻则蚤灶早袁圆园员员袁猿苑渊员缘冤院员愿员鄄员愿猿援咱员员暂允耘韵晕郧再杂袁运粤晕郧陨匀袁允耘韵晕郧酝运援粤灶藻憎枣藻葬贼怎则藻泽藻鄄造藻糟贼蚤燥灶皂藻贼澡燥凿枣燥则燥灶藻鄄糟造葬泽泽糟造葬泽泽蚤枣蚤糟葬贼蚤燥灶责则燥遭造藻皂泽咱允暂援陨耘耘耘栽则葬灶泽葬糟贼蚤燥灶泽燥灶杂赠泽贼藻皂泽袁酝葬灶袁葬灶凿悦赠遭藻则灶藻贼蚤糟泽袁孕葬则贼悦院粤责责造蚤糟葬贼蚤燥灶泽葬灶凿砸藻增蚤藻憎泽袁圆园员圆袁源圆渊远冤院员缘园园鄄员缘园怨援咱员圆暂蕴陨哉在袁蕴陨哉匝援月葬造葬灶糟藻凿枣藻葬贼怎则藻泽藻造藻糟贼蚤燥灶皂藻贼澡燥凿枣燥则陨灶贼藻则鄄灶藻贼贼则葬枣枣蚤糟糟造葬泽泽蚤枣蚤糟葬贼蚤燥灶咱允暂援晕藻贼憎燥则噪泽袁圆园员圆袁员渊圆冤院苑源鄄愿猿援咱员猿暂酝粤匀砸韵韵郧匀再酝袁再韵哉晕粤晕晕匀袁粤晕粤晕栽匀粤砸粤允灾郧援韵灶贼澡藻怎泽藻燥枣贼澡藻早藻灶藻贼蚤糟葬造早燥则蚤贼澡皂枣蚤造贼藻则鄄遭葬泽藻凿枣藻葬贼怎则藻泽藻鄄造藻糟贼蚤燥灶贼藻糟澡灶蚤择怎藻枣燥则泽葬贼藻造造蚤贼藻责则藻糟蚤责蚤贼葬贼蚤燥灶藻泽贼蚤皂葬贼蚤燥灶咱允暂援郧藻燥泽糟蚤藻灶糟藻葬灶凿砸藻皂燥贼藻杂藻灶泽蚤灶早蕴藻贼贼藻则泽袁圆园员圆袁怨渊缘冤院怨远猿鄄怨远苑援作者简介院沈高峰袁男袁员怨苑愿年生袁讲师袁主要研究方向为数据库应用尧数据挖掘遥通过省级成果鉴定愿项袁先后发表学术论文员员篇袁参与编写教材源部遥第源期摇摇摇摇摇摇摇摇摇摇沈高峰袁等院基于遗传算法优化综合启发式的中文网页特征提取窑源苑怨窑

点击下载完整版文档（PDF格式）

已到末页，全文结束

点击下载（PDF格式）

浏览记录