第4期 沈高峰,等:基于遗传算法优化综合启发式的中文网页特征提取 ·479· 经被广泛应用于特征词提取。本文结合2种方法的 [6]LEE S,PARK C,KOO J Y.Feature selection in the Lapla- 优点,提出了一种基于遗传算法优化综合启发式的 cian support vector machine[J].Computational Statistics 中文网页特征提取方法。该方法能够有效利用词语 and Data Analysis,2011.55(1):567-577. 的内在属性和词语之间的链接关系,通过多种启发 [7]SONG Qinbao,NI Jingjie,WANG Guangtao.A fast cluste- 式表征中文文本的特征,对特征词进行较全面的考 ring-based feature subset selection algorithm for high-dimen- 查。实验结果表明该方法能够有效融合不同因素的 sional data[J].IEEE Transactions on Knowledge and Data Engineering.2013.25(1):1-14. 优点,与传统方法相比,该方法具有一定的优势,从 [8]CHUANG L Y,YANG C H,LI J C.Chaotic maps based on 而使得该方法在文本挖掘方面有一定的实用价值。 binary particle swarm optimization for feature selection[]. 由于不同类别的文档的因素分布不尽相同,论 Journal of Applied Soft Computing,2011,11 (1):239- 文接下来的工作将继续研究不同领域内采用该方法 248. 的特征词提取的性能。另外通过实验发现,对于人 [9]李纲,戴强斌.基于词汇链的关键词自动标引方法[J] 工标注的结果,主观性因素的影响依然存在。论文 图书情报知识,2011,12(3):67-71. 还将进一步研究合理的标注方式,对现有网页数据 LI Gang,DAI Qiangbin.Keywords automatic indexing based 进行处理,减少主观因素带来的实验误差。 on lexical chains[J].Document,Information and Knowl- 另外,本文方法虽然采用了十进制编码以及自适 edge,2011,12(3):67-71 应交叉变异操作等措施来确保遗传算法的性能,进而 [10]朱颢东,李红婵.基于互信息和粗糙集理论的特征选择 保证本文特征抽取方法的性能,但是目前有些智能优 [J].计算机工程,2011,37(15):181-183. 化算法比遗传算法优秀,例如粒子群优化算法、蜂群 ZHU Haodong,LI Hongchan.Feature selection based on 优化算法等,如果把它们用于本文方法的参数权重优 mutual information and rough set theory[J].Computer En- gineering,2011,37(15):181-183. 化,效果可能会优于遗传算法。为此,作者下一步研 [11]JEONG Y S,KANG I H,JEONG M K.A new feature se- 究工作就是尝试把其他智能优化算法用于本文方法 lection method for one-class classification problemsJ. 的参数权重优化,以进一步提高本文方法的性能。 IEEE Transactions on Systems,Man,and Cybernetics, 参考文献: Part C:Applications and Reviews,2012,42(6):1500- 1509. [1]GHEYAS I A,SMITH L S.Feature subset selection in large [12]LIU Z,LIU Q.Balanced feature selection method for Inter- dimensionality domains[J].Pattern Recognition,2010,43 net traffic classification[]]Networks,2012,1 (2):74- (1):5-13. 83. [2]NGUYEN M H,TORRE F D.Optimal feature selection for [13]MAHROOGHY M.YOUNAN N H,ANANTHARAJ V G. support vector machines[J].Pattern Recognition,2010,43 On the use of the genetic algorithm filter-based feature se- (3):584-591 lection technique for satellite precipitation estimation[J]. [3]ZHAO Zheng,WANG Lei,LIU Huan.On similarity preser- Geoscience and Remote Sensing Letters,2012,9(5): ving feature selection[J].IEEE Transactions on Knowledge 963-967. and Data Engineering,2013,25(3):619-632. 作者简介: [4]JAVED K,BABRI H A,SAEED M.Feature selection 沈高峰,男,1978年生,讲师,主要 based on class-dependent densities for high-dimensional bi- 研究方向为数据库应用、数据挖掘。通 nary data[].IEEE Transactions on Knowledge and Data 过省级成果鉴定8项,先后发表学术论 Engineering,2012,24(3):465-477. 文11篇,参与编写教材4部。 [5]WU Xindong,YU Kui DING Wei.Online feature selection with streaming features[].IEEE Transactions on Pattern Analysis and Machine Intelligence,2013,35(5):1178- 1192.经被广泛应用于特征词提取遥 本文结合 圆 种方法的 优点袁提出了一种基于遗传算法优化综合启发式的 中文网页特征提取方法遥 该方法能够有效利用词语 的内在属性和词语之间的链接关系袁通过多种启发 式表征中文文本的特征袁对特征词进行较全面的考 查遥 实验结果表明该方法能够有效融合不同因素的 优点袁与传统方法相比袁该方法具有一定的优势袁从 而使得该方法在文本挖掘方面有一定的实用价值遥 由于不同类别的文档的因素分布不尽相同袁论 文接下来的工作将继续研究不同领域内采用该方法 的特征词提取的性能遥 另外通过实验发现袁对于人 工标注的结果袁主观性因素的影响依然存在遥 论文 还将进一步研究合理的标注方式袁对现有网页数据 进行处理袁减少主观因素带来的实验误差遥 另外袁本文方法虽然采用了十进制编码以及自适 应交叉变异操作等措施来确保遗传算法的性能袁进而 保证本文特征抽取方法的性能袁但是目前有些智能优 化算法比遗传算法优秀袁例如粒子群优化算法尧蜂群 优化算法等袁如果把它们用于本文方法的参数权重优 化袁效果可能会优于遗传算法遥 为此袁作者下一步研 究工作就是尝试把其他智能优化算法用于本文方法 的参数权重优化袁以进一步提高本文方法的性能遥 参考文献院 咱员暂郧匀耘再粤杂 陨 粤袁 杂酝陨栽匀 蕴 杂援 云藻葬贼怎则藻 泽怎遭泽藻贼 泽藻造藻糟贼蚤燥灶 蚤灶 造葬则早藻 凿蚤皂藻灶泽蚤燥灶葬造蚤贼赠 凿燥皂葬蚤灶泽咱 允暂援 孕葬贼贼藻则灶 砸藻糟燥早灶蚤贼蚤燥灶袁 圆园员园袁 源猿 渊员冤 院 缘鄄员猿援 咱圆暂晕郧哉再耘晕 酝 匀袁 栽韵砸砸耘 云 阅援 韵责贼蚤皂葬造 枣藻葬贼怎则藻 泽藻造藻糟贼蚤燥灶 枣燥则 泽怎责责燥则贼 增藻糟贼燥则 皂葬糟澡蚤灶藻泽咱 允暂援 孕葬贼贼藻则灶 砸藻糟燥早灶蚤贼蚤燥灶袁 圆园员园袁 源猿 渊猿冤 院 缘愿源鄄缘怨员援 咱猿暂在匀粤韵 在澡藻灶早袁 宰粤晕郧 蕴藻蚤袁 蕴陨哉 匀怎葬灶援 韵灶 泽蚤皂蚤造葬则蚤贼赠 责则藻泽藻则鄄 增蚤灶早 枣藻葬贼怎则藻 泽藻造藻糟贼蚤燥灶咱 允暂援 陨耘耘耘 栽则葬灶泽葬糟贼蚤燥灶泽 燥灶 运灶燥憎造藻凿早藻 葬灶凿 阅葬贼葬 耘灶早蚤灶藻藻则蚤灶早袁 圆园员猿袁 圆缘渊猿冤 院 远员怨鄄远猿圆援 咱 源 暂 允粤灾耘阅 运袁 月粤月砸陨 匀 粤袁 杂粤耘耘阅 酝援 云藻葬贼怎则藻 泽藻造藻糟贼蚤燥灶 遭葬泽藻凿 燥灶 糟造葬泽泽鄄凿藻责藻灶凿藻灶贼 凿藻灶泽蚤贼蚤藻泽 枣燥则 澡蚤早澡鄄凿蚤皂藻灶泽蚤燥灶葬造 遭蚤鄄 灶葬则赠 凿葬贼葬咱 允暂援 陨耘耘耘 栽则葬灶泽葬糟贼蚤燥灶泽 燥灶 运灶燥憎造藻凿早藻 葬灶凿 阅葬贼葬 耘灶早蚤灶藻藻则蚤灶早袁 圆园员圆袁 圆源渊猿冤 院 源远缘鄄源苑苑援 咱缘暂宰哉 载蚤灶凿燥灶早袁 再哉 运怎蚤 袁阅陨晕郧 宰藻蚤援 韵灶造蚤灶藻 枣藻葬贼怎则藻 泽藻造藻糟贼蚤燥灶 憎蚤贼澡 泽贼则藻葬皂蚤灶早 枣藻葬贼怎则藻泽 咱 允暂援 陨耘耘耘 栽则葬灶泽葬糟贼蚤燥灶泽 燥灶 孕葬贼贼藻则灶 粤灶葬造赠泽蚤泽 葬灶凿 酝葬糟澡蚤灶藻 陨灶贼藻造造蚤早藻灶糟藻袁 圆园员猿袁 猿缘 渊 缘冤 院 员员苑愿鄄 员员怨圆援 咱远暂蕴耘耘 杂袁 孕粤砸运 悦袁 运韵韵 允 再援 云藻葬贼怎则藻 泽藻造藻糟贼蚤燥灶 蚤灶 贼澡藻 蕴葬责造葬鄄 糟蚤葬灶 泽怎责责燥则贼 增藻糟贼燥则 皂葬糟澡蚤灶藻 咱 允 暂援 悦燥皂责怎贼葬贼蚤燥灶葬造 杂贼葬贼蚤泽贼蚤糟泽 葬灶凿 阅葬贼葬 粤灶葬造赠泽蚤泽袁 圆园员员袁 缘缘渊员冤 院 缘远苑鄄缘苑苑援 咱苑暂 杂韵晕郧 匝蚤灶遭葬燥袁 晕陨 允蚤灶早躁蚤藻袁 宰粤晕郧 郧怎葬灶早贼葬燥援 粤 枣葬泽贼 糟造怎泽贼藻鄄 则蚤灶早鄄遭葬泽藻凿 枣藻葬贼怎则藻 泽怎遭泽藻贼 泽藻造藻糟贼蚤燥灶 葬造早燥则蚤贼澡皂 枣燥则 澡蚤早澡鄄凿蚤皂藻灶鄄 泽蚤燥灶葬造 凿葬贼葬咱 允暂援 陨耘耘耘 栽则葬灶泽葬糟贼蚤燥灶泽 燥灶 运灶燥憎造藻凿早藻 葬灶凿 阅葬贼葬 耘灶早蚤灶藻藻则蚤灶早袁 圆园员猿袁 圆缘渊员冤 院 员鄄员源援 咱愿暂悦匀哉粤晕郧 蕴 再袁 再粤晕郧 悦 匀袁 蕴陨 允 悦援 悦澡葬燥贼蚤糟 皂葬责泽 遭葬泽藻凿 燥灶 遭蚤灶葬则赠 责葬则贼蚤糟造藻 泽憎葬则皂 燥责贼蚤皂蚤扎葬贼蚤燥灶 枣燥则 枣藻葬贼怎则藻 泽藻造藻糟贼蚤燥灶咱 允暂援 允燥怎则灶葬造 燥枣 粤责责造蚤藻凿 杂燥枣贼 悦燥皂责怎贼蚤灶早袁 圆园员员袁 员员 渊 员冤 院 圆猿怨鄄 圆源愿援 咱怨暂李纲袁戴强斌援 基于词汇链的关键词自动标引方法咱允暂援 图书情报知识袁 圆园员员袁员圆渊猿冤 院 远苑鄄苑员援 蕴陨 郧葬灶早袁 阅粤陨 匝蚤葬灶早遭蚤灶援 运藻赠憎燥则凿泽 葬怎贼燥皂葬贼蚤糟 蚤灶凿藻曾蚤灶早 遭葬泽藻凿 燥灶 造藻曾蚤糟葬造 糟澡葬蚤灶泽 咱 允暂援 阅燥糟怎皂藻灶贼袁 陨灶枣燥则皂葬贼蚤燥灶 葬灶凿 运灶燥憎造鄄 藻凿早藻袁 圆园员员袁 员圆渊猿冤 院 远苑鄄苑员 咱员园暂朱颢东袁 李红婵援 基于互信息和粗糙集理论的特征选择 咱允暂援计算机工程袁 圆园员员袁 猿苑 渊员缘冤 院 员愿员鄄员愿猿援 在匀哉 匀葬燥凿燥灶早袁 蕴陨 匀燥灶早糟澡葬灶援 云藻葬贼怎则藻 泽藻造藻糟贼蚤燥灶 遭葬泽藻凿 燥灶 皂怎贼怎葬造 蚤灶枣燥则皂葬贼蚤燥灶 葬灶凿 则燥怎早澡 泽藻贼 贼澡藻燥则赠咱 允暂援 悦燥皂责怎贼藻则 耘灶鄄 早蚤灶藻藻则蚤灶早袁 圆园员员袁 猿苑 渊员缘冤 院 员愿员鄄员愿猿援 咱员员暂 允耘韵晕郧 再 杂袁 运粤晕郧 陨 匀袁 允耘韵晕郧 酝 运援 粤 灶藻憎 枣藻葬贼怎则藻 泽藻鄄 造藻糟贼蚤燥灶 皂藻贼澡燥凿 枣燥则 燥灶藻鄄糟造葬泽泽 糟造葬泽泽蚤枣蚤糟葬贼蚤燥灶 责则燥遭造藻皂泽 咱 允 暂援 陨耘耘耘 栽则葬灶泽葬糟贼蚤燥灶泽 燥灶 杂赠泽贼藻皂泽袁 酝葬灶袁 葬灶凿 悦赠遭藻则灶藻贼蚤糟泽袁 孕葬则贼 悦院 粤责责造蚤糟葬贼蚤燥灶泽 葬灶凿 砸藻增蚤藻憎泽袁 圆园员圆袁 源圆渊 远冤 院 员缘园园鄄 员缘园怨援 咱员圆暂蕴陨哉 在袁 蕴陨哉 匝援 月葬造葬灶糟藻凿 枣藻葬贼怎则藻 泽藻造藻糟贼蚤燥灶 皂藻贼澡燥凿 枣燥则 陨灶贼藻则鄄 灶藻贼 贼则葬枣枣蚤糟 糟造葬泽泽蚤枣蚤糟葬贼蚤燥灶咱 允暂援 晕藻贼憎燥则噪泽袁 圆园员圆袁 员 渊 圆冤 院 苑源鄄 愿猿援 咱员猿暂酝粤匀砸韵韵郧匀再 酝袁再韵哉晕粤晕 晕 匀袁 粤晕粤晕栽匀粤砸粤允 灾 郧援 韵灶 贼澡藻 怎泽藻 燥枣 贼澡藻 早藻灶藻贼蚤糟 葬造早燥则蚤贼澡皂 枣蚤造贼藻则鄄遭葬泽藻凿 枣藻葬贼怎则藻 泽藻鄄 造藻糟贼蚤燥灶 贼藻糟澡灶蚤择怎藻 枣燥则 泽葬贼藻造造蚤贼藻 责则藻糟蚤责蚤贼葬贼蚤燥灶 藻泽贼蚤皂葬贼蚤燥灶 咱 允暂援 郧藻燥泽糟蚤藻灶糟藻 葬灶凿 砸藻皂燥贼藻 杂藻灶泽蚤灶早 蕴藻贼贼藻则泽袁 圆园员圆袁 怨 渊 缘 冤 院 怨远猿鄄怨远苑援 作者简介院 沈高峰袁男袁员怨苑愿 年生袁讲师袁主要 研究方向为数据库应用尧数据挖掘遥 通 过省级成果鉴定 愿 项袁先后发表学术论 文 员员 篇袁参与编写教材 源 部遥 第 源 期摇摇摇摇摇摇摇摇摇摇 沈高峰袁等院基于遗传算法优化综合启发式的中文网页特征提取 窑源苑怨窑