正在加载图片...
对于传统的 TFIDE特征提取算法,目前已有文献对 其的不足进行分析及改进,效果比较显著的是通过引入信 息熵对其进行改进,解决了词语在类别间的分布不均造成 的问题。比如字面不同的词语但可以表示同一个含义,这 样的一组词的语义特征是一样的,不能忽视它们共同出现 对词频的影响。若忽视了语义,就无法准确表达文档的内 容,同时也会影响计算特征词权值的精确度。之前的大多 工作是计算独立的字或词的权重值,以选出特征词,很 涉及词汇语义部分的研究,容易忽视多义词和同义词现象。 本文针对这一问题,先对词语进行语义信息的分析,然后 将有语义关联的归为一组,进而分析信息熵,改进信息增 益的公式,提出一种新的基于语义关联和信息增益的 TEIDE特征选择算法。实验结果表明,改进后的特征选择 算法,在文本分类的查准率和召回率两方面均有不同程度 的提高。对于传统的TFIDF 特征提取算法,目前已有文献对 其的不足进行分析及改进,效果比较显著的是通过引入信 息熵对其进行改进,解决了词语在类别间的分布不均造成 的问题。比如字面不同的词语但可以表示同一个含义,这 样的一组词的语义特征是一样的,不能忽视它们共同出现 对词频的影响。若忽视了语义,就无法准确表达文档的内 容,同时也会影响计算特征词权值的精确度。之前的大多 工作是计算独立的字或词的权重值,以选出特征词,很少 涉及词汇语义部分的研究,容易忽视多义词和同义词现象。 本文针对这一问题,先对词语进行语义信息的分析,然后 将有语义关联的归为一组,进而分析信息熵,改进信息增 益的公式,提出一种新的基于语义关联和信息增益的 TFIDF特征选择算法。实验结果表明,改进后的特征选择 算法,在文本分类的查准率和召回率两方面均有不同程度 的提高
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有