正在加载图片...
第9卷第4期 智能系统学报 Vol.9 No.4 2014年8月 CAAI Transactions on Intelligent Systems Agu.2014 D0I:10.3969/i.issn.1673-4785.201305044 基于遗传算法优化综合启发式的中文网页特征提取 沈高峰1,谷淑敏 (1.郑州轻工业学院计算机与通信工程学院,河南郑州450002:2.中原工学院信息商务学院基础学科部,河南郑州450007) 摘要:特征提取是信息检索、文本分类,文本聚类以及自动文摘生成等技术的基础。针对传统的特征提取方法不 能全面有效地考查待选特征词的缺点,提出了一种基于遗传算法优化综合启发式的中文网页特征提取方法。该方 法通过词频、关联度、词性以及位置等多种启发式来综合考查待选特征,并利用遗传算法来优化各启发式的权重参 数。通过在不同测试集上进行对比,实验结果表明,与传统方法相比,该方法能够有效避免传统特征提取方法产生 的偏差,获得具有代表性的特征集,从而使得该方法具有一定的实用价值。 关键词:特征提取:遗传算法:文本分类:文本聚类:词频:关联度 中图分类号:TP391.1文献标志码:A文章编号:1673-4785(2014)04-474-06 中文引用格式:沈高峰,谷淑敏.基于遗传算法优化综合启发式的中文网页特征提取[J].智能系统学报,2014,9(4):474479. 英文引用格式:SHEN Gaofeng,GU Shumin.Chinese Web page feature extraction by optimizing comprehensive heuristics based on GA[J].CAAI Transactions on Intelligent Systems,2014,9(4):474-479. Chinese Web page feature extraction by optimizing comprehensive heuristics based on GA SHEN Gaofeng',GU Shumin2 (1.School of Computer and Communication Engineering,Zhengzhou University of Light Industry,Zhengzhou 450002,China;2.De- partment of Basic Subjects,College Information Business,Zhongyuan University of Technology,Zhengzhou 450007,China) Abstract:Feature extraction is the basis of such technologies as information retrieval,text classification,text clus- tering and automatic summarization.Aiming at the shortcomings of the traditional feature extraction methods which make it difficult to test feature words comprehensively and effectively,this paper proposes a method for extracting Chinese web page features by optimizing the comprehensive heuristic features based on GA.This proposed method employs comprehensive heuristics of word frequency,word correlation,parts of speech (POS)and position features to comprehensively test selected features and uses GA to optimize the weight of each heuristic parameter.The exper- imental results of the different test sets show that the proposed method can effectively avoid the derivations of the traditional extraction methods and obtain more representative features,and therefore it has a certain practical value. Keywords:feature extraction;GA;text classification;text clustering;word frequency;word correlation 特征提取在自然语言处理领域有着非常广泛的具有一定的主观性,因此快速准确地实现中文特征 应用,是信息检索、文本分类、文本聚类以及自动文 提取成为中文文本处理的关键。 摘生成等技术的关键。由于互联网资源时刻都在不 目前,国内外学者已提出3类特征提取方法:基 断更新,中文文本呈现出“爆炸式”增长。然而,采 于概率统计的特征提取方法、基于传统机器学习理 用传统人工方式进行特征提取的方法耗时较长,且 论的特征提取方法以及基于自然语言理解的特征提 取方法。基于概率统计的特征提取方法利用文本特 收稿日期:2013-05-10. 征的统计信息进行关键词提取,如TFIDF)、词共 基金项目:河南省基础与前沿技术研究计划项目(102300410266):郑 州轻工业学院博士科研基金资助项目. 现]等,该类方法具有简单、通用的特点,不需要复 通信作者:沈高蜂.E-mail:45125301@q4.com. 杂的训练过程,但准确率不高。基于传统机器学习第 怨 卷第 源 期摇摇摇摇摇 摇摇摇 摇摇摇 摇摇摇 智 能 系 统 学 报摇摇摇摇摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 灾燥造援怨 翼援源 圆园员源 年 愿 月摇摇摇摇摇摇摇摇摇摇摇摇 悦粤粤陨 栽则葬灶泽葬糟贼蚤燥灶泽 燥灶 陨灶贼藻造造蚤早藻灶贼 杂赠泽贼藻皂泽 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 粤早怎援 圆园员源 阅韵陨院员园援猿怨远怨 辕 躁援蚤泽泽灶援员远苑猿鄄源苑愿缘援圆园员猿园缘园源源 基于遗传算法优化综合启发式的中文网页特征提取 沈高峰员 袁谷淑敏圆 渊员援郑州轻工业学院 计算机与通信工程学院袁河南 郑州 源缘园园园圆曰 圆援中原工学院信息商务学院 基础学科部袁河南 郑州 源缘园园园苑冤 摘 要院特征提取是信息检索尧文本分类尧文本聚类以及自动文摘生成等技术的基础遥 针对传统的特征提取方法不 能全面有效地考查待选特征词的缺点袁提出了一种基于遗传算法优化综合启发式的中文网页特征提取方法遥 该方 法通过词频尧关联度尧词性以及位置等多种启发式来综合考查待选特征袁并利用遗传算法来优化各启发式的权重参 数遥 通过在不同测试集上进行对比袁实验结果表明袁与传统方法相比袁该方法能够有效避免传统特征提取方法产生 的偏差袁获得具有代表性的特征集袁从而使得该方法具有一定的实用价值遥 关键词院特征提取曰遗传算法曰文本分类曰文本聚类曰词频曰关联度 中图分类号院栽孕猿怨员援员 摇 文献标志码院粤摇 文章编号院员远苑猿鄄源苑愿缘渊圆园员源冤园源鄄源苑源鄄园远 中文引用格式院沈高峰 袁谷淑敏援 基于遗传算法优化综合启发式的中文网页特征提取咱允暂援 智能系统学报袁 圆园员源袁 怨渊源冤 院 源苑源鄄源苑怨援 英文引用格式院杂匀耘晕 郧葬燥枣藻灶早袁 郧哉 杂澡怎皂蚤灶援 悦澡蚤灶藻泽藻 宰藻遭 责葬早藻 枣藻葬贼怎则藻 藻曾贼则葬糟贼蚤燥灶 遭赠 燥责贼蚤皂蚤扎蚤灶早 糟燥皂责则藻澡藻灶泽蚤增藻 澡藻怎则蚤泽贼蚤糟泽 遭葬泽藻凿 燥灶 郧粤咱允暂援 悦粤粤陨 栽则葬灶泽葬糟贼蚤燥灶泽 燥灶 陨灶贼藻造造蚤早藻灶贼 杂赠泽贼藻皂泽袁 圆园员源袁 怨渊源冤 院 源苑源鄄源苑怨援 悦澡蚤灶藻泽藻 宰藻遭 责葬早藻 枣藻葬贼怎则藻 藻曾贼则葬糟贼蚤燥灶 遭赠 燥责贼蚤皂蚤扎蚤灶早 糟燥皂责则藻澡藻灶泽蚤增藻 澡藻怎则蚤泽贼蚤糟泽 遭葬泽藻凿 燥灶 郧粤 杂匀耘晕 郧葬燥枣藻灶早员 袁 郧哉 杂澡怎皂蚤灶圆 渊员援杂糟澡燥燥造 燥枣 悦燥皂责怎贼藻则 葬灶凿 悦燥皂皂怎灶蚤糟葬贼蚤燥灶 耘灶早蚤灶藻藻则蚤灶早袁 在澡藻灶早扎澡燥怎 哉灶蚤增藻则泽蚤贼赠 燥枣 蕴蚤早澡贼 陨灶凿怎泽贼则赠袁 在澡藻灶早扎澡燥怎 源缘园园园圆袁 悦澡蚤灶葬曰 圆援 阅藻鄄 责葬则贼皂藻灶贼 燥枣 月葬泽蚤糟 杂怎遭躁藻糟贼泽袁 悦燥造造藻早藻 陨灶枣燥则皂葬贼蚤燥灶 驭 月怎泽蚤灶藻泽泽袁在澡燥灶早赠怎葬灶 哉灶蚤增藻则泽蚤贼赠 燥枣 栽藻糟澡灶燥造燥早赠袁 在澡藻灶早扎澡燥怎 源缘园园园苑袁 悦澡蚤灶葬冤 粤遭泽贼则葬糟贼院云藻葬贼怎则藻 藻曾贼则葬糟贼蚤燥灶 蚤泽 贼澡藻 遭葬泽蚤泽 燥枣 泽怎糟澡 贼藻糟澡灶燥造燥早蚤藻泽 葬泽 蚤灶枣燥则皂葬贼蚤燥灶 则藻贼则蚤藻增葬造袁 贼藻曾贼 糟造葬泽泽蚤枣蚤糟葬贼蚤燥灶袁 贼藻曾贼 糟造怎泽鄄 贼藻则蚤灶早 葬灶凿 葬怎贼燥皂葬贼蚤糟 泽怎皂皂葬则蚤扎葬贼蚤燥灶援 粤蚤皂蚤灶早 葬贼 贼澡藻 泽澡燥则贼糟燥皂蚤灶早泽 燥枣 贼澡藻 贼则葬凿蚤贼蚤燥灶葬造 枣藻葬贼怎则藻 藻曾贼则葬糟贼蚤燥灶 皂藻贼澡燥凿泽 憎澡蚤糟澡 皂葬噪藻 蚤贼 凿蚤枣枣蚤糟怎造贼 贼燥 贼藻泽贼 枣藻葬贼怎则藻 憎燥则凿泽 糟燥皂责则藻澡藻灶泽蚤增藻造赠 葬灶凿 藻枣枣藻糟贼蚤增藻造赠袁 贼澡蚤泽 责葬责藻则 责则燥责燥泽藻泽 葬 皂藻贼澡燥凿 枣燥则 藻曾贼则葬糟贼蚤灶早 悦澡蚤灶藻泽藻 憎藻遭 责葬早藻 枣藻葬贼怎则藻泽 遭赠 燥责贼蚤皂蚤扎蚤灶早 贼澡藻 糟燥皂责则藻澡藻灶泽蚤增藻 澡藻怎则蚤泽贼蚤糟 枣藻葬贼怎则藻泽 遭葬泽藻凿 燥灶 郧粤援 栽澡蚤泽 责则燥责燥泽藻凿 皂藻贼澡燥凿 藻皂责造燥赠泽 糟燥皂责则藻澡藻灶泽蚤增藻 澡藻怎则蚤泽贼蚤糟泽 燥枣 憎燥则凿 枣则藻择怎藻灶糟赠袁 憎燥则凿 糟燥则则藻造葬贼蚤燥灶袁 责葬则贼泽 燥枣 泽责藻藻糟澡 渊孕韵杂冤 葬灶凿 责燥泽蚤贼蚤燥灶 枣藻葬贼怎则藻泽 贼燥 糟燥皂责则藻澡藻灶泽蚤增藻造赠 贼藻泽贼 泽藻造藻糟贼藻凿 枣藻葬贼怎则藻泽 葬灶凿 怎泽藻泽 郧粤 贼燥 燥责贼蚤皂蚤扎藻 贼澡藻 憎藻蚤早澡贼 燥枣 藻葬糟澡 澡藻怎则蚤泽贼蚤糟 责葬则葬皂藻贼藻则援 栽澡藻 藻曾责藻则鄄 蚤皂藻灶贼葬造 则藻泽怎造贼泽 燥枣 贼澡藻 凿蚤枣枣藻则藻灶贼 贼藻泽贼 泽藻贼泽 泽澡燥憎 贼澡葬贼 贼澡藻 责则燥责燥泽藻凿 皂藻贼澡燥凿 糟葬灶 藻枣枣藻糟贼蚤增藻造赠 葬增燥蚤凿 贼澡藻 凿藻则蚤增葬贼蚤燥灶泽 燥枣 贼澡藻 贼则葬凿蚤贼蚤燥灶葬造 藻曾贼则葬糟贼蚤燥灶 皂藻贼澡燥凿泽 葬灶凿 燥遭贼葬蚤灶 皂燥则藻 则藻责则藻泽藻灶贼葬贼蚤增藻 枣藻葬贼怎则藻泽袁 葬灶凿 贼澡藻则藻枣燥则藻 蚤贼 澡葬泽 葬 糟藻则贼葬蚤灶 责则葬糟贼蚤糟葬造 增葬造怎藻援 运藻赠憎燥则凿泽院枣藻葬贼怎则藻 藻曾贼则葬糟贼蚤燥灶曰 郧粤曰 贼藻曾贼 糟造葬泽泽蚤枣蚤糟葬贼蚤燥灶曰 贼藻曾贼 糟造怎泽贼藻则蚤灶早曰 憎燥则凿 枣则藻择怎藻灶糟赠曰 憎燥则凿 糟燥则则藻造葬贼蚤燥灶 收稿日期院圆园员猿鄄园缘鄄员园援 摇 基金项目院河南省基础与前沿技术研究计划项目渊 员园圆猿园园源员园圆远远冤 曰 郑 州轻工业学院博士科研基金资助项目援 通信作者院沈高峰援耘鄄皂葬蚤造院源缘员圆缘猿园员岳 择择援糟燥皂援 摇 摇 特征提取在自然语言处理领域有着非常广泛的 应用袁是信息检索尧文本分类尧文本聚类以及自动文 摘生成等技术的关键遥 由于互联网资源时刻都在不 断更新袁中文文本呈现出野爆炸式冶增长遥 然而袁采 用传统人工方式进行特征提取的方法耗时较长袁且 具有一定的主观性袁因此快速准确地实现中文特征 提取成为中文文本处理的关键遥 目前袁国内外学者已提出 猿 类特征提取方法院基 于概率统计的特征提取方法尧基于传统机器学习理 论的特征提取方法以及基于自然语言理解的特征提 取方法遥 基于概率统计的特征提取方法利用文本特 征的统计信息进行关键词提取袁如 栽云陨阅云咱员暂 尧词共 现咱圆暂等袁该类方法具有简单尧通用的特点袁不需要复 杂的训练过程袁但准确率不高遥 基于传统机器学习
向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有