正在加载图片...
第4期 沈高蜂,等:基于遗传算法优化综合启发式的中文网页特征提取 .477. 代种群最佳染色体适应度值之差绝对值不超过10。 得分最高的前10个词语作为最后的关键词。表4 采用遗传算法优化选择各启发式的参数权重,能 为实验对比结果。其中,基于频率的方法用TFDF 够有效避免通过主观经验来确定参数的主观性,从而 来表示,基于关联度的方法用C℉来表示,本文方法 实现参数能够依据训练数据自适应地调优。下面的 用Muli来表示。 实验验证结果表明,采用该遗传算法获得参数权重能 表33种方法下召回率对比结果 够使本文特征提取方法获得良好的提取效果。 Table 3 Comparison results of recall rate on three methods 3 实验验证 方法 关键词 召回率/% 3.1实验总体设置 负增长、收入、中央、降、季度、 以Intel Core2 Duo CPU T6500、2.4GHz、2GB 参考答案 财政、利润、降低、涨幅、增长 内存和Windows XP2SP2操作系统的PC机作为实 负增长、收人、中央、季度数据 验平台,以MATLAB7.0为仿真工具,进行2组实验: TFIDF 50 降、影响、进口、今年、同比 第1组实验数据来自互联网抓取的1500个中 文文档,论文根据该数据集的来源将这些文档分为 负增长、收入、中央、财政、季度、 CF 60 5个类别,分别包括新闻、财经、科技、体育和娱乐, 降低、都、进口、随后、做 各类文档数目分布均匀,都包含300篇文档。实验 负增长、收入、中央、财政,降低 Multi 70 中选择每个类别的200篇文档作为训练集,剩下的 进口、利润、季度、累计、财政部 100篇作为测试集。 从表4可以看出,对于“都”、“随后”这类词,本 第2组实验数据采用复旦大学计算机信息与技术 文方法能够有效地滤除。由于这类单词在文本中通 系国际数据库中心自然语言处理小组构建的中文文本 常具有较高的频率,很难通过统计的方法有效去除。 分类语料库作为实验数据,其下载网址为: 而且本文方法召回率能够达到70%,表现出较好的 http://www.nlp.org.cn/categories/default.php?cat_id= 提取性能。此外,比较特征词自动提取和人工选择, 16。该语料库由20个类别的14378篇文档组成,其中 3种提取方法都得到了“进口”这个特征词,但人工 6164篇为测试文本,8214篇为训练文本:各类别的测 标注却忽略了这个词语。通过查看原文,“进口”确 试文本集和训练文本集之间互不重叠,也即一篇文档 实应该标注为特征词,反映出人工选择带有较强的 仅属一个文本集并且每篇文本仅属于一个类别。该语 主观性,这种主观性很容易产生实验误差。同样也 料库各类别训练文档数分布极其不均匀,其中训练文 反映出特征词自动提取能够在一定程度上克服这种 档数较小的类别占大多数,约为11个类别,它们的训 主观性的缺点。 练文档数均少于100篇,如通信类文档数仅有25篇。 3.2.2召回率实验结果 由于所选语料库是中文性质的,所以这2组实 针对测试集的不同类别,论文分别对比不同特 验都采用中科院计算技术研究所的“汉语词法分析 征词提取方法的性能。由于不同类别的多启发式融 系统ICTCLAS”对它进行分词处理;分类工具软件 合参数不同,论文利用每个类别的训练语料分别训 都采用纽西兰的Waikato大学开发的Weka工具:因 练得到各个类别的多启发式融合参数。各特征词提 KNN分类器简单、易实现而被广泛应用,这2组实 取方法性能采用该类别测试集上的平均召回率表 验选它作为实验分类器(其中距离采用向量夹角余 示,实验结果如图2所示。 弦来度量,K=20)。 70 为了对论文所提方法性能进行全面考查,论文 对这2组实验分别做了不同方面的实验内容:第1 组实验主要做特征词选择和召回率方面的实验:第 C 2组主要做耗时和分类性能方面的实验。 --下」入ig在方 3.2第1组实验(各类别数据分布均匀) ·+论的万 在该组实验中,论文对比了基于频率的特征提取 1投 什 方法、基于关联度的特征提取方法以及本文方法性能。 w品 3.2.1特征词选择实验结果 图2 各特征提取方法在各类别下的召回率对比结果 分别采用上面3种方法计算全部词语的4个启 Fig.2 Comparison results of recall rate on feature ex- traction methods 发式值,并根据不同启发式权重进行排序,最后提取代种群最佳染色体适应度值之差绝对值不超过 员园原缘 遥 采用遗传算法优化选择各启发式的参数权重袁能 够有效避免通过主观经验来确定参数的主观性袁从而 实现参数能够依据训练数据自适应地调优遥 下面的 实验验证结果表明袁采用该遗传算法获得参数权重能 够使本文特征提取方法获得良好的提取效果遥 猿摇 实验验证 猿援员摇 实验总体设置 以 陨灶贼藻造 悦燥则藻圆 阅怎燥 悦孕哉 栽远缘园园尧圆援源 郧匀扎尧 圆 郧月 内存和 宰蚤灶凿燥憎泽 载孕 圆杂孕圆 操作系统的 孕悦 机作为实 验平台袁以 酝粤栽蕴粤月苑援园 为仿真工具袁进行 圆 组实验院 第 员 组实验数据来自互联网抓取的 员 缘园园 个中 文文档袁论文根据该数据集的来源将这些文档分为 缘 个类别袁分别包括新闻尧财经尧科技尧体育和娱乐袁 各类文档数目分布均匀袁都包含 猿园园 篇文档遥 实验 中选择每个类别的 圆园园 篇文档作为训练集袁剩下的 员园园 篇作为测试集遥 第 圆 组实验数据采用复旦大学计算机信息与技术 系国际数据库中心自然语言处理小组构建的中文文本 分类语料库作为实验数据袁 其下载网址为院 澡贼贼责院辕 辕 憎憎憎援灶造责援燥则早援糟灶 辕 糟葬贼藻早燥则蚤藻泽 辕 凿藻枣葬怎造贼援责澡责钥 糟葬贼赃蚤凿越 员远遥 该语料库由 圆园 个类别的 员源 猿苑愿 篇文档组成袁其中 远 员远源 篇为测试文本袁愿 圆员源 篇为训练文本曰各类别的测 试文本集和训练文本集之间互不重叠袁也即一篇文档 仅属一个文本集并且每篇文本仅属于一个类别遥 该语 料库各类别训练文档数分布极其不均匀袁其中训练文 档数较小的类别占大多数袁约为 员员 个类别袁它们的训 练文档数均少于 员园园 篇袁如通信类文档数仅有 圆缘 篇遥 由于所选语料库是中文性质的袁所以这 圆 组实 验都采用中科院计算技术研究所的野汉语词法分析 系统 陨悦栽悦蕴粤杂冶对它进行分词处理曰分类工具软件 都采用纽西兰的 宰葬蚤噪葬贼燥 大学开发的 宰藻噪葬 工具曰因 运晕晕 分类器简单尧易实现而被广泛应用袁这 圆 组实 验选它作为实验分类器 渊其中距离采用向量夹角余 弦来度量袁 运 越 圆园冤遥 为了对论文所提方法性能进行全面考查袁论文 对这 圆 组实验分别做了不同方面的实验内容院第 员 组实验主要做特征词选择和召回率方面的实验曰第 圆 组主要做耗时和分类性能方面的实验遥 猿援圆摇 第 员 组实验渊各类别数据分布均匀冤 在该组实验中袁论文对比了基于频率的特征提取 方法尧基于关联度的特征提取方法以及本文方法性能遥 猿援圆援员摇 特征词选择实验结果 分别采用上面 猿 种方法计算全部词语的 源 个启 发式值袁并根据不同启发式权重进行排序袁最后提取 得分最高的前 员园 个词语作为最后的关键词遥 表 源 为实验对比结果遥 其中袁基于频率的方法用 栽云陨阅云 来表示袁基于关联度的方法用 悦云 来表示袁本文方法 用 酝怎造贼蚤 来表示遥 表 猿摇 猿 种方法下召回率对比结果 栽葬遭造藻 猿 摇 悦燥皂责葬则蚤泽燥灶 则藻泽怎造贼泽 燥枣 则藻糟葬造造 则葬贼藻 燥灶 贼澡则藻藻 皂藻贼澡燥凿泽 方法 关键词 召回率辕 豫 参考答案 负增长尧收入尧中央尧降尧季度尧 财政尧利润尧降低尧涨幅尧增长 要 栽云陨阅云 负增长尧收入尧中央尧季度尧数据尧 降尧影响尧进口尧今年尧同比 缘园 悦云 负增长尧收入尧中央尧财政尧季度尧 降低尧都尧进口尧随后尧做 远园 酝怎造贼蚤 负增长尧收入尧中央尧财政尧降低尧 进口尧利润尧季度尧累计尧财政部 苑园 摇 摇 从表 源 可以看出袁对于野都冶尧野随后冶这类词袁本 文方法能够有效地滤除遥 由于这类单词在文本中通 常具有较高的频率袁很难通过统计的方法有效去除遥 而且本文方法召回率能够达到 苑园豫袁表现出较好的 提取性能遥 此外袁比较特征词自动提取和人工选择袁 猿 种提取方法都得到了 野进口冶这个特征词袁但人工 标注却忽略了这个词语遥 通过查看原文袁野进口冶确 实应该标注为特征词袁反映出人工选择带有较强的 主观性袁这种主观性很容易产生实验误差遥 同样也 反映出特征词自动提取能够在一定程度上克服这种 主观性的缺点遥 猿援圆援圆摇 召回率实验结果 针对测试集的不同类别袁论文分别对比不同特 征词提取方法的性能遥 由于不同类别的多启发式融 合参数不同袁论文利用每个类别的训练语料分别训 练得到各个类别的多启发式融合参数遥 各特征词提 取方法性能采用该类别测试集上的平均召回率表 示袁实验结果如图 圆 所示遥 图 圆摇 各特征提取方法在各类别下的召回率对比结果 云蚤早援圆摇 悦燥皂责葬则蚤泽燥灶 则藻泽怎造贼泽 燥枣 则藻糟葬造造 则葬贼藻 燥灶 枣藻葬贼怎则藻 藻曾鄄 贼则葬糟贼蚤燥灶 皂藻贼澡燥凿泽 第 源 期摇摇摇摇摇摇摇摇摇摇 沈高峰袁等院基于遗传算法优化综合启发式的中文网页特征提取 窑源苑苑窑
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有