正在加载图片...
显然,传统的 TFIDE特征选择方法中,某个词语的权重值与该 词语的频率成正比,与文档频率成反比。但这个方法有着明显的不足, 即忽视了文档在每个类中的分布情况。对于文档频率,一方面只考虑 了包含某个词语文档数绝对量的多少,而没有考虑这些文档在类别中 的分布;另一方面,假如说包含某词条的文档数比较少,但如果这个 词语均匀分布于各个类别中 么对分类的贡献是微乎其微的,不能 秤名普续出的複鉴知定较重值米签的舞荃璇 TFIDF将文档集合作为整体考虑,没有考虑词语在类别间的分布情况。 针对这个问题,文献对传统TFDF方法进行了改进,引入了信息熵与 信息增益的概念,用以解决词语在类别间的分布不均。但有些文献在 处理方法上未考虑同一个文档中词与词之间的语义关联,只是将每个 词语孤立地进行权重值的计算,这样的处理将词语割裂开,不利于文 恣裔囊聋着態对裘盆藿存计聋 本文在基于语义关 改进。显然,传统的TFIDF特征选择方法中,某个词语的权重值与该 词语的频率成正比,与文档频率成反比。但这个方法有着明显的不足, 即忽视了文档在每个类中的分布情况。对于文档频率,一方面只考虑 了包含某个词语文档数绝对量的多少,而没有考虑这些文档在类别中 的分布;另一方面,假如说包含某词条的文档数比较少,但如果这个 词语均匀分布于各个类别中,那么对分类的贡献是微乎其微的,不能 很好地区分类别。相应地,它的权重值应该比较小,但是按照传统 TFIDF 算法得出的权重值却比较大。上述两个明显的缺点主要是因为 TFIDF 将文档集合作为整体考虑,没有考虑词语在类别间的分布情况。 针对这个问题,文献对传统TFIDF 方法进行了改进,引入了信息熵与 信息增益的概念,用以解决词语在类别间的分布不均。但有些文献在 处理方法上未考虑同一个文档中词与词之间的语义关联,只是将每个 词语孤立地进行权重值的计算,这样的处理将词语割裂开,不利于文 本内容表达的完整性,对文本分类有一定的影响。本文在基于语义关 联的前提下计算信息熵,对权重值的计算方法进行改进
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有