对式(3)研究得出，可以解决传统TFIDF中存在的不足，即当词语t 在类

正在加载图片...

weighttfidr(ti )=tf x idf x IG(C, Li) (3) 其中: lG(C,1)=E(C)-E(C/1) (4) E(C) p(C)×log(p(C) (5 E(C/t1)=-2p(C/1)×log(p(C/1) 对式(3)研究得出,可以解决传统 TEIDE中存在的不足,即当词语t在类别中分布不均匀时,在某个类别中大量出现而其他类别中分布较少,理论上这个词带有很大的类别信息,由改进后的公式也恰怡算出它的权重值较高另一种情况是某个词语虽然在整个文档集合中数量很少, 但均匀分布于各个类别间,则其对区分类别的影响比较小理论上它的权重值相应地比较低,由式(3)算出的权重也确实比较低。对式(3)研究得出，可以解决传统TFIDF中存在的不足，即当词语t 在类别中分布不均匀时，在某个类别中大量出现而其他类别中分布较少，理论上这个词带有很大的类别信息，由改进后的公式也恰恰算出它的权重值较高。另一种情况是某个词语虽然在整个文档集合中数量很少，但均匀分布于各个类别间，则其对区分类别的影响比较小，理论上它的权重值相应地比较低，由式(3)算出的权重也确实比较低

<<向上翻页向下翻页>>

点击下载：基于语义关联和信息增益的TFIDF改进算法研究