1.1TF|DF特征选择 在文本分类领域中,最常用的是 Salton在1975年 提出的向量空间模型(VSM)。VSM将文本d看做向量 空间中的一个n维向量(t1,wt1),t2,Wt2),t3, w(t Wtn),则t1, 3,…,tn是该文本 的特征词,Wt),i=1,2,3,,n是该文本对应的第i个特 征词的权重值。 对文本文档进行分类主要依据文档的内容,而特征词 的权重值便是刻画词语表达文档内容的重要指标。权重值 的计算按其值类型通常分为以下两种: a)布尔型,即将所有训练文档的词语作为全集,当一个 词语t出现在文档中时,其权值设为1,否则设为O b)实数型,将文档的词语通过权重计算公式求出其权重在文本分类领域中,最常用的是Salton在1975年 提出的向量空间模型(VSM)。 VSM 将文本di看做向量 空间中的一个n 维向量(t1,w(t1 ), t2,w(t2 ), t3, w(t3 ),⋯, tn,w(tn )),则t1, t2, t3,⋯, tn是该文本 的特征词,w(ti ),i=1,2,3,…,n 是该文本对应的第i 个特 征词的权重值。 对文本文档进行分类主要依据文档的内容,而特征词 的权重值便是刻画词语表达文档内容的重要指标。权重值 的计算按其值类型通常分为以下两种 : a)布尔型,即将所有训练文档的词语作为全集,当一个 词语ti 出现在文档中时,其权值设为1,否则设为0; b)实数型,将文档的词语通过权重计算公式求出其权重 值