正在加载图片...
weighttfidr(ti )=tf x idf x IG(C, Li) (3) 其中: lG(C,1)=E(C)-E(C/1) (4) E(C) p(C)×log(p(C) (5 E(C/t1)=-2p(C/1)×log(p(C/1) 对式(3)研究得出,可以解决传统 TEIDE中存在的不 足,即当词语t在类别中分布不均匀时,在某个类别中大 量出现而其他类别中分布较少,理论上这个词带有很大的 类别信息,由改进后的公式也恰怡算出它的权重值较高 另一种情况是某个词语虽然在整个文档集合中数量很少, 但均匀分布于各个类别间,则其对区分类别的影响比较小 理论上它的权重值相应地比较低,由式(3)算出的权重也确 实比较低。对式(3)研究得出,可以解决传统TFIDF中存在的不 足,即当词语t 在类别中分布不均匀时,在某个类别中大 量出现而其他类别中分布较少,理论上这个词带有很大的 类别信息,由改进后的公式也恰恰算出它的权重值较高。 另一种情况是某个词语虽然在整个文档集合中数量很少, 但均匀分布于各个类别间,则其对区分类别的影响比较小, 理论上它的权重值相应地比较低,由式(3)算出的权重也确 实比较低
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有