正在加载图片...
第4期 沈高峰,等:基于遗传算法优化综合启发式的中文网页特征提取 .475 理论的特征提取方法通过对大规模语料库进行学 1{(号e):(,y)∈E(:,)∈E,,,∈V}I 习,采用决策树)、贝叶斯算法[4)、最大熵模型)等 (3) 方法对训练集进行训练,从而得到相关模型,然后再 顶点的聚集度系数C:为 利用该模型对关键词进行提取,但该类方法较为复 2K, 杂。基于自然语言理解的特征提取方法通常需要对 C:= D(D-1) (4) 中文文本从词、句、语义、篇章等层级进行分析,从而 2」 获得相关关键词,这类方法更加符合关键词提取的 由式(3)和式(4)可得特征关联度为 标注过程,但如何对文章进行准确的语言学分析还 没有得到有效解决,该方法的抽取性能非常有限。 CF:=aC/ ∑C+(1-)D,/N (5) 针对上述传统特征提取方法的特点和不足,提 根据式(3)~(6),词语网络中节点的度和聚集 出了一种基于遗传算法优化综合启发式的中文网页 度系数可以描述特征在文本中的连接特性,处于重 特征提取方法。该方法首先对文本文档的分词结果 要位置的特征往往具有较高的关联度。 进行词性标注,然后计算文档词语的词性、位置、 1.3词性 T℉DF以及聚集特征等综合启发式,并用遗传算法 词性是一种浅层语言学知识的表示,该因素的 优化各启发式的权重参数,最终提取获得中文网页 获取不需要对文本进行复杂的语言学标注和分析, 特征词。 从而能有效避免传统采用语言学方法的缺陷。一般 1 基础知识简介 而言,中文文本特征的词性往往集中在名词、动词 形容词等实词中。根据人工标注结果,对特征的词 1.1频率 性分布进行了统计分析,其结果如表1所示。 TFIDF是一种常用的信息检索方法[6)。设N 表1特征词性分布 表示给定文档集合2中的总文档数目。对于给定 Table 1 Characteristics distribution 文档d,采用T℉IDF算法得到该文档中词条t的权 词性 名词动词形容词副词其他 重心,为 数目 843134051830659 675 (w,=TF x IDF (1) 百分比/%56.2 22.7 12.2 4.4 IDF log(N/n) 4.5 式中:TF表示t在文档d中出现的频率。IDF表示 从特征词性统计分布可以看到,词性能够有效表 文档d在文档集中出现的文档数目,n表示文档集 征文档的中文特征。排名前4位的名词、动词、形容词 中出现特征t的文档数目。 和副词达到关键词总数的95.5%。因此,论文引人词性 从式(1)可知,如果特征t在文档d出现的次数 作为特征提取的重要因素之一。该因素能够有效区分 较多而在其他文档中出现次数较少的话,那么特征t 停用词等,克服了传统基于统计方法无法解决高频但 的权值就较大,表明该特征对文档d的区分能力就 无实际意义的中文词语,从而提高特征提取的性能。 较强,就可以作为文档特征的候选之一。 1.4位置 1.2关联度 位置是文本特征提取的一个重要因素。根据特征 词语的关联表现为词与词之间构成的复杂网 所在的位置,主要包括标题、摘要和正文3种。根据词 络[)。复杂网络方面的研究表明,汉语语言的词语 语所在的具体位置,还可细分为小标题、起始段、中间 之间的关联度具有高度的局部聚集性和全局连接 段、末尾段、起始句、中间句、末尾句等9。由于网络文 性,能够用于表征文本特征)。 本一般不存在摘要,本文主要考虑特征位于标题、起始 设V={1,2,…,n}表示文档特征的集合, 段以及其他3种情况。通常特征位于标题和起始段的 (:,)表示特征":和特征之间的一条边。 概率较高,因此根据文本中特征所在的位置,按照标 G(V,E)表示的是一个图,其中V为图的顶点集合, 题、起始段、其他的顺序分别赋给不同的权重。 EC{(:,)::,∈V}为图的边集。对于顶点:, 其度定义如下: 2论文所提方法 D=l{(e:,):(:,)∈E,,y∈V}I(2) 2.1综合启发式 顶点v,的聚集度K为 仅仅根据单词频率进行特征提取的T℉DF方 K= 法虽然简单,但是也存在一定的缺陷,如数据集偏理论的特征提取方法通过对大规模语料库进行学 习袁采用决策树咱猿暂 尧贝叶斯算法咱源暂 尧最大熵模型咱缘暂 等 方法对训练集进行训练袁从而得到相关模型袁然后再 利用该模型对关键词进行提取袁但该类方法较为复 杂遥 基于自然语言理解的特征提取方法通常需要对 中文文本从词尧句尧语义尧篇章等层级进行分析袁从而 获得相关关键词袁这类方法更加符合关键词提取的 标注过程袁但如何对文章进行准确的语言学分析还 没有得到有效解决袁该方法的抽取性能非常有限遥 针对上述传统特征提取方法的特点和不足袁提 出了一种基于遗传算法优化综合启发式的中文网页 特征提取方法遥 该方法首先对文本文档的分词结果 进行词性标注袁然后计算文档词语的词性尧位置尧 栽云陨阅云 以及聚集特征等综合启发式袁并用遗传算法 优化各启发式的权重参数袁最终提取获得中文网页 特征词遥 员摇 基础知识简介 员援员摇 频率 摇 摇 栽云陨阅云 是一种常用的信息检索方法咱远暂 遥 设 晕 表示给定文档集合 赘 中的总文档数目遥 对于给定 文档 凿袁采用 栽云陨阅云 算法得到该文档中词条 贼 的权 重 憎贼为 憎贼 越 栽云 伊 陨阅云 陨阅云 越 造燥早渊晕辕灶冤  渊员冤 式中院栽云 表示 贼 在文档 凿 中出现的频率遥 陨阅云 表示 文档 凿 在文档集中出现的文档数目袁灶 表示文档集 中出现特征 贼 的文档数目遥 从式渊员冤可知袁如果特征 贼 在文档 凿 出现的次数 较多而在其他文档中出现次数较少的话袁那么特征 贼 的权值就较大袁表明该特征对文档 凿 的区分能力就 较强袁就可以作为文档特征的候选之一遥 员援圆 摇 关联度 词语的关联表现为词与词之间构成的复杂网 络咱苑暂 遥 复杂网络方面的研究表明袁汉语语言的词语 之间的关联度具有高度的局部聚集性和全局连接 性袁能够用于表征文本特征咱愿暂 遥 设 灾 越 喳 增员 袁 增圆 袁噎袁 增灶 札 表示文档特征的集合袁 增蚤袁增躁   表示特征 增蚤 和特征 增躁 之间的一条边遥 郧 灾  袁耘 表示的是一个图袁其中 灾 为图的顶点集合袁 耘 哿 喳 增蚤袁增躁   院增蚤袁增躁 沂 灾札 为图的边集遥 对于顶点 增蚤袁 其度定义如下院 阅蚤 越渣 喳 增蚤袁增躁   院 增蚤袁增躁   沂 耘袁增蚤袁增躁 沂 灾札 渣 渊圆冤 顶点 增蚤的聚集度 运蚤为 运蚤 越 渣 喳渊增躁 袁增噪冤 院渊增蚤袁增躁 冤 沂 耘渊增蚤袁增噪冤 沂 耘袁增蚤袁 增躁 袁 增噪 沂 灾 札 渣 渊猿冤 顶点 增蚤的聚集度系数 悦蚤为 悦蚤 越 运蚤 阅蚤 圆         越 圆运蚤 阅蚤 渊阅蚤 原 员冤 渊源冤 由式渊猿冤和式渊源冤可得特征关联度为 悦云蚤 越 琢悦蚤 辕移 晕 躁 越 员 悦躁 垣 渊员 原 琢冤阅蚤 辕 晕 渊缘冤 摇 摇 根据式渊猿冤 耀 渊远冤袁词语网络中节点的度和聚集 度系数可以描述特征在文本中的连接特性袁处于重 要位置的特征往往具有较高的关联度遥 员援猿摇 词性 词性是一种浅层语言学知识的表示袁该因素的 获取不需要对文本进行复杂的语言学标注和分析袁 从而能有效避免传统采用语言学方法的缺陷遥 一般 而言袁中文文本特征的词性往往集中在名词尧动词尧 形容词等实词中遥 根据人工标注结果袁对特征的词 性分布进行了统计分析袁其结果如表 员 所示遥 表 员摇 特征词性分布 栽葬遭造藻 员摇 悦澡葬则葬糟贼藻则蚤泽贼蚤糟泽 凿蚤泽贼则蚤遭怎贼蚤燥灶 词性 名词 动词 形容词 副词 其他 数目 愿 源猿员 猿 源园缘 员 愿猿园 远缘怨 远苑缘 百分比辕 豫 缘远援圆 圆圆援苑 员圆援圆 源援源 源援缘 摇 摇 从特征词性统计分布可以看到袁词性能够有效表 征文档的中文特征遥 排名前 源 位的名词尧动词尧形容词 和副词达到关键词总数的 怨缘援缘豫遥 因此袁论文引入词性 作为特征提取的重要因素之一遥 该因素能够有效区分 停用词等袁克服了传统基于统计方法无法解决高频但 无实际意义的中文词语袁从而提高特征提取的性能遥 员援源摇 位置 位置是文本特征提取的一个重要因素遥 根据特征 所在的位置袁主要包括标题尧摘要和正文 猿 种遥 根据词 语所在的具体位置袁还可细分为小标题尧起始段尧中间 段尧末尾段尧起始句尧中间句尧末尾句等咱怨暂 遥 由于网络文 本一般不存在摘要袁本文主要考虑特征位于标题尧起始 段以及其他 猿 种情况遥 通常特征位于标题和起始段的 概率较高袁因此根据文本中特征所在的位置袁按照标 题尧起始段尧其他的顺序分别赋给不同的权重遥 圆摇 论文所提方法 圆援员摇 综合启发式 仅仅根据单词频率进行特征提取的 栽云陨阅云 方 法虽然简单袁但是也存在一定的缺陷袁如数据集偏 第 源 期摇摇摇摇摇摇摇摇摇摇 沈高峰袁等院基于遗传算法优化综合启发式的中文网页特征提取 窑源苑缘窑
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有