正在加载图片...
由公式得出的不确定程度减少量就是信息增益, 即表示词语y对分类的影响。倘若简单地将信息增益 作为一个乘数因子加入TFDF中,修改TFDF算法中 的权重公式为 tf*idf*Ig,并不能解决传统 TFIDE的不 足,所以在 tf*idf*ig公式的基础上,将信息增益公式 进行变形并引入到文档集合的类别间,将文档类别看 做信息源,由训练数据集合的类别信息熵和文档类别 中词语的条件熵之间信息量的增益关系共同决定该词 语在文本分类中所提供的信息量,即建立起信息熵和 词语权重值之间的关系。则权重值的计算公式为由公式得出的不确定程度减少量就是信息增益, 即表示词语y 对分类的影响。倘若简单地将信息增益 作为一个乘数因子加入TFIDF中,修改TFIDF算法中 的权重公式为tf*idf*IG,并不能解决传统TFIDF的不 足,所以在tf*idf*IG公式的基础上,将信息增益公式 进行变形并引入到文档集合的类别间,将文档类别看 做信息源,由训练数据集合的类别信息熵和文档类别 中词语的条件熵之间信息量的增益关系共同决定该词 语在文本分类中所提供的信息量,即建立起信息熵和 词语权重值之间的关系。则权重值的计算公式为:
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有