代种群最佳染色体适应度值之差绝对值不超过员园原缘遥采用遗传算法优化选

正在加载图片...

第4期沈高蜂，等：基于遗传算法优化综合启发式的中文网页特征提取 .477. 代种群最佳染色体适应度值之差绝对值不超过10。得分最高的前10个词语作为最后的关键词。表4 采用遗传算法优化选择各启发式的参数权重，能为实验对比结果。其中，基于频率的方法用TFDF 够有效避免通过主观经验来确定参数的主观性，从而来表示，基于关联度的方法用C℉来表示，本文方法实现参数能够依据训练数据自适应地调优。下面的用Muli来表示。实验验证结果表明，采用该遗传算法获得参数权重能表33种方法下召回率对比结果够使本文特征提取方法获得良好的提取效果。 Table 3 Comparison results of recall rate on three methods 3 实验验证方法关键词召回率/% 3.1实验总体设置负增长、收入、中央、降、季度、以Intel Core2 Duo CPU T6500、2.4GHz、2GB 参考答案财政、利润、降低、涨幅、增长内存和Windows XP2SP2操作系统的PC机作为实负增长、收人、中央、季度数据验平台，以MATLAB7.0为仿真工具，进行2组实验： TFIDF 50 降、影响、进口、今年、同比第1组实验数据来自互联网抓取的1500个中文文档，论文根据该数据集的来源将这些文档分为负增长、收入、中央、财政、季度、 CF 60 5个类别，分别包括新闻、财经、科技、体育和娱乐，降低、都、进口、随后、做各类文档数目分布均匀，都包含300篇文档。实验负增长、收入、中央、财政，降低 Multi 70 中选择每个类别的200篇文档作为训练集，剩下的进口、利润、季度、累计、财政部 100篇作为测试集。从表4可以看出，对于“都”、“随后”这类词，本第2组实验数据采用复旦大学计算机信息与技术文方法能够有效地滤除。由于这类单词在文本中通系国际数据库中心自然语言处理小组构建的中文文本常具有较高的频率，很难通过统计的方法有效去除。分类语料库作为实验数据，其下载网址为：而且本文方法召回率能够达到70%，表现出较好的 http://www.nlp.org.cn/categories/default.php?cat_id= 提取性能。此外，比较特征词自动提取和人工选择， 16。该语料库由20个类别的14378篇文档组成，其中 3种提取方法都得到了“进口”这个特征词，但人工 6164篇为测试文本，8214篇为训练文本：各类别的测标注却忽略了这个词语。通过查看原文，“进口”确试文本集和训练文本集之间互不重叠，也即一篇文档实应该标注为特征词，反映出人工选择带有较强的仅属一个文本集并且每篇文本仅属于一个类别。该语主观性，这种主观性很容易产生实验误差。同样也料库各类别训练文档数分布极其不均匀，其中训练文反映出特征词自动提取能够在一定程度上克服这种档数较小的类别占大多数，约为11个类别，它们的训主观性的缺点。练文档数均少于100篇，如通信类文档数仅有25篇。 3.2.2召回率实验结果由于所选语料库是中文性质的，所以这2组实针对测试集的不同类别，论文分别对比不同特验都采用中科院计算技术研究所的“汉语词法分析征词提取方法的性能。由于不同类别的多启发式融系统ICTCLAS”对它进行分词处理；分类工具软件合参数不同，论文利用每个类别的训练语料分别训都采用纽西兰的Waikato大学开发的Weka工具：因练得到各个类别的多启发式融合参数。各特征词提 KNN分类器简单、易实现而被广泛应用，这2组实取方法性能采用该类别测试集上的平均召回率表验选它作为实验分类器（其中距离采用向量夹角余示，实验结果如图2所示。弦来度量，K=20)。 70 为了对论文所提方法性能进行全面考查，论文对这2组实验分别做了不同方面的实验内容：第1 组实验主要做特征词选择和召回率方面的实验：第 C 2组主要做耗时和分类性能方面的实验。 --下」入ig在方 3.2第1组实验（各类别数据分布均匀） ·+论的万在该组实验中，论文对比了基于频率的特征提取 1投什方法、基于关联度的特征提取方法以及本文方法性能。 w品 3.2.1特征词选择实验结果图2 各特征提取方法在各类别下的召回率对比结果分别采用上面3种方法计算全部词语的4个启 Fig.2 Comparison results of recall rate on feature ex- traction methods 发式值，并根据不同启发式权重进行排序，最后提取代种群最佳染色体适应度值之差绝对值不超过员园原缘遥采用遗传算法优化选择各启发式的参数权重袁能够有效避免通过主观经验来确定参数的主观性袁从而实现参数能够依据训练数据自适应地调优遥下面的实验验证结果表明袁采用该遗传算法获得参数权重能够使本文特征提取方法获得良好的提取效果遥猿摇实验验证猿援员摇实验总体设置以陨灶贼藻造悦燥则藻圆阅怎燥悦孕哉栽远缘园园尧圆援源郧匀扎尧圆郧月内存和宰蚤灶凿燥憎泽载孕圆杂孕圆操作系统的孕悦机作为实验平台袁以酝粤栽蕴粤月苑援园为仿真工具袁进行圆组实验院第员组实验数据来自互联网抓取的员缘园园个中文文档袁论文根据该数据集的来源将这些文档分为缘个类别袁分别包括新闻尧财经尧科技尧体育和娱乐袁各类文档数目分布均匀袁都包含猿园园篇文档遥实验中选择每个类别的圆园园篇文档作为训练集袁剩下的员园园篇作为测试集遥第圆组实验数据采用复旦大学计算机信息与技术系国际数据库中心自然语言处理小组构建的中文文本分类语料库作为实验数据袁其下载网址为院澡贼贼责院辕辕憎憎憎援灶造责援燥则早援糟灶辕糟葬贼藻早燥则蚤藻泽辕凿藻枣葬怎造贼援责澡责钥糟葬贼赃蚤凿越员远遥该语料库由圆园个类别的员源猿苑愿篇文档组成袁其中远员远源篇为测试文本袁愿圆员源篇为训练文本曰各类别的测试文本集和训练文本集之间互不重叠袁也即一篇文档仅属一个文本集并且每篇文本仅属于一个类别遥该语料库各类别训练文档数分布极其不均匀袁其中训练文档数较小的类别占大多数袁约为员员个类别袁它们的训练文档数均少于员园园篇袁如通信类文档数仅有圆缘篇遥由于所选语料库是中文性质的袁所以这圆组实验都采用中科院计算技术研究所的野汉语词法分析系统陨悦栽悦蕴粤杂冶对它进行分词处理曰分类工具软件都采用纽西兰的宰葬蚤噪葬贼燥大学开发的宰藻噪葬工具曰因运晕晕分类器简单尧易实现而被广泛应用袁这圆组实验选它作为实验分类器渊其中距离采用向量夹角余弦来度量袁运越圆园冤遥为了对论文所提方法性能进行全面考查袁论文对这圆组实验分别做了不同方面的实验内容院第员组实验主要做特征词选择和召回率方面的实验曰第圆组主要做耗时和分类性能方面的实验遥猿援圆摇第员组实验渊各类别数据分布均匀冤在该组实验中袁论文对比了基于频率的特征提取方法尧基于关联度的特征提取方法以及本文方法性能遥猿援圆援员摇特征词选择实验结果分别采用上面猿种方法计算全部词语的源个启发式值袁并根据不同启发式权重进行排序袁最后提取得分最高的前员园个词语作为最后的关键词遥表源为实验对比结果遥其中袁基于频率的方法用栽云陨阅云来表示袁基于关联度的方法用悦云来表示袁本文方法用酝怎造贼蚤来表示遥表猿摇猿种方法下召回率对比结果栽葬遭造藻猿摇悦燥皂责葬则蚤泽燥灶则藻泽怎造贼泽燥枣则藻糟葬造造则葬贼藻燥灶贼澡则藻藻皂藻贼澡燥凿泽方法关键词召回率辕豫参考答案负增长尧收入尧中央尧降尧季度尧财政尧利润尧降低尧涨幅尧增长要栽云陨阅云负增长尧收入尧中央尧季度尧数据尧降尧影响尧进口尧今年尧同比缘园悦云负增长尧收入尧中央尧财政尧季度尧降低尧都尧进口尧随后尧做远园酝怎造贼蚤负增长尧收入尧中央尧财政尧降低尧进口尧利润尧季度尧累计尧财政部苑园摇摇从表源可以看出袁对于野都冶尧野随后冶这类词袁本文方法能够有效地滤除遥由于这类单词在文本中通常具有较高的频率袁很难通过统计的方法有效去除遥而且本文方法召回率能够达到苑园豫袁表现出较好的提取性能遥此外袁比较特征词自动提取和人工选择袁猿种提取方法都得到了野进口冶这个特征词袁但人工标注却忽略了这个词语遥通过查看原文袁野进口冶确实应该标注为特征词袁反映出人工选择带有较强的主观性袁这种主观性很容易产生实验误差遥同样也反映出特征词自动提取能够在一定程度上克服这种主观性的缺点遥猿援圆援圆摇召回率实验结果针对测试集的不同类别袁论文分别对比不同特征词提取方法的性能遥由于不同类别的多启发式融合参数不同袁论文利用每个类别的训练语料分别训练得到各个类别的多启发式融合参数遥各特征词提取方法性能采用该类别测试集上的平均召回率表示袁实验结果如图圆所示遥图圆摇各特征提取方法在各类别下的召回率对比结果云蚤早援圆摇悦燥皂责葬则蚤泽燥灶则藻泽怎造贼泽燥枣则藻糟葬造造则葬贼藻燥灶枣藻葬贼怎则藻藻曾鄄贼则葬糟贼蚤燥灶皂藻贼澡燥凿泽第源期摇摇摇摇摇摇摇摇摇摇沈高峰袁等院基于遗传算法优化综合启发式的中文网页特征提取窑源苑苑窑

<<向上翻页向下翻页>>

点击下载：智能系统：基于遗传算法优化综合启发式的中文网页特征提取