显然，传统的TFIDF特征选择方法中，某个词语的权重值与该词语的频率成正

正在加载图片...

显然,传统的 TFIDE特征选择方法中,某个词语的权重值与该词语的频率成正比,与文档频率成反比。但这个方法有着明显的不足, 即忽视了文档在每个类中的分布情况。对于文档频率,一方面只考虑了包含某个词语文档数绝对量的多少,而没有考虑这些文档在类别中的分布;另一方面,假如说包含某词条的文档数比较少,但如果这个词语均匀分布于各个类别中么对分类的贡献是微乎其微的,不能秤名普续出的複鉴知定较重值米签的舞荃璇 TFIDF将文档集合作为整体考虑,没有考虑词语在类别间的分布情况。针对这个问题,文献对传统TFDF方法进行了改进,引入了信息熵与信息增益的概念,用以解决词语在类别间的分布不均。但有些文献在处理方法上未考虑同一个文档中词与词之间的语义关联,只是将每个词语孤立地进行权重值的计算,这样的处理将词语割裂开,不利于文恣裔囊聋着態对裘盆藿存计聋本文在基于语义关改进。显然，传统的TFIDF特征选择方法中，某个词语的权重值与该词语的频率成正比，与文档频率成反比。但这个方法有着明显的不足，即忽视了文档在每个类中的分布情况。对于文档频率，一方面只考虑了包含某个词语文档数绝对量的多少，而没有考虑这些文档在类别中的分布；另一方面，假如说包含某词条的文档数比较少，但如果这个词语均匀分布于各个类别中，那么对分类的贡献是微乎其微的，不能很好地区分类别。相应地，它的权重值应该比较小，但是按照传统 TFIDF 算法得出的权重值却比较大。上述两个明显的缺点主要是因为 TFIDF 将文档集合作为整体考虑，没有考虑词语在类别间的分布情况。针对这个问题，文献对传统TFIDF 方法进行了改进，引入了信息熵与信息增益的概念，用以解决词语在类别间的分布不均。但有些文献在处理方法上未考虑同一个文档中词与词之间的语义关联，只是将每个词语孤立地进行权重值的计算，这样的处理将词语割裂开，不利于文本内容表达的完整性，对文本分类有一定的影响。本文在基于语义关联的前提下计算信息熵，对权重值的计算方法进行改进

<<向上翻页向下翻页>>

点击下载：基于语义关联和信息增益的TFIDF改进算法研究