对于传统的TFIDF 特征提取算法，目前已有文献对其的不足进行分析及改进

正在加载图片...

对于传统的 TFIDE特征提取算法,目前已有文献对其的不足进行分析及改进,效果比较显著的是通过引入信息熵对其进行改进,解决了词语在类别间的分布不均造成的问题。比如字面不同的词语但可以表示同一个含义,这样的一组词的语义特征是一样的,不能忽视它们共同出现对词频的影响。若忽视了语义,就无法准确表达文档的内容,同时也会影响计算特征词权值的精确度。之前的大多工作是计算独立的字或词的权重值,以选出特征词,很涉及词汇语义部分的研究,容易忽视多义词和同义词现象。本文针对这一问题,先对词语进行语义信息的分析,然后将有语义关联的归为一组,进而分析信息熵,改进信息增益的公式,提出一种新的基于语义关联和信息增益的 TEIDE特征选择算法。实验结果表明,改进后的特征选择算法,在文本分类的查准率和召回率两方面均有不同程度的提高。对于传统的TFIDF 特征提取算法，目前已有文献对其的不足进行分析及改进，效果比较显著的是通过引入信息熵对其进行改进，解决了词语在类别间的分布不均造成的问题。比如字面不同的词语但可以表示同一个含义，这样的一组词的语义特征是一样的，不能忽视它们共同出现对词频的影响。若忽视了语义，就无法准确表达文档的内容，同时也会影响计算特征词权值的精确度。之前的大多工作是计算独立的字或词的权重值，以选出特征词，很少涉及词汇语义部分的研究，容易忽视多义词和同义词现象。本文针对这一问题，先对词语进行语义信息的分析，然后将有语义关联的归为一组，进而分析信息熵，改进信息增益的公式，提出一种新的基于语义关联和信息增益的 TFIDF特征选择算法。实验结果表明，改进后的特征选择算法，在文本分类的查准率和召回率两方面均有不同程度的提高

<<向上翻页向下翻页>>

点击下载：基于语义关联和信息增益的TFIDF改进算法研究