在文本分类领域中，最常用的是Salton在1975年提出的向量空间模型（

正在加载图片...

1.1TF|DF特征选择在文本分类领域中,最常用的是 Salton在1975年提出的向量空间模型(VSM)。VSM将文本d看做向量空间中的一个n维向量(t1,wt1),t2,Wt2),t3, w(t Wtn),则t1, 3,…,tn是该文本的特征词,Wt),i=1,2,3,,n是该文本对应的第i个特征词的权重值。对文本文档进行分类主要依据文档的内容,而特征词的权重值便是刻画词语表达文档内容的重要指标。权重值的计算按其值类型通常分为以下两种: a)布尔型,即将所有训练文档的词语作为全集,当一个词语t出现在文档中时,其权值设为1,否则设为O b)实数型,将文档的词语通过权重计算公式求出其权重在文本分类领域中，最常用的是Salton在1975年提出的向量空间模型（VSM）。 VSM 将文本di看做向量空间中的一个n 维向量（t1，w(t1 )， t2，w(t2 )， t3， w(t3 )，⋯， tn，w(tn )），则t1， t2， t3，⋯， tn是该文本的特征词，w(ti )，i＝1,2,3,…,n 是该文本对应的第i 个特征词的权重值。对文本文档进行分类主要依据文档的内容，而特征词的权重值便是刻画词语表达文档内容的重要指标。权重值的计算按其值类型通常分为以下两种：ａ）布尔型，即将所有训练文档的词语作为全集，当一个词语ti 出现在文档中时，其权值设为１，否则设为０；ｂ）实数型，将文档的词语通过权重计算公式求出其权重值

<<向上翻页向下翻页>>

点击下载：基于语义关联和信息增益的TFIDF改进算法研究