基于语义关联和信息增益的 TFDF改进算法研究
基于词频反文档频率( TFIDE)的现有文本特 征提取算法及其改进算法未能考虑类别内部词语之间 的语义关联,如果脱离语义,提取出的特征不能很好 地刻画文档的内容。为准确提取特征,在信息熵与信 息增益的基础上,加入词语的语义关联因素,实现融 合语义信息的特征提取,进而提出语义和信息增益相 结合的TFDF改进算法,该算法弥补了统计方法丢失 语义信息的弊端
基于词频反文档频率(TFIDF)的现有文本特 征提取算法及其改进算法未能考虑类别内部词语之间 的语义关联,如果脱离语义,提取出的特征不能很好 地刻画文档的内容。为准确提取特征,在信息熵与信 息增益的基础上,加入词语的语义关联因素,实现融 合语义信息的特征提取,进而提出语义和信息增益相 结合的TFIDF改进算法,该算法弥补了统计方法丢失 语义信息的弊端
文本分类通常有文本的预处理、文本的向量空 间模型表示、文本特征提取和分类器的训练四个步 骤。在研究文本分类的过程中,特征提取是最关键 的环节之一,可以起到降低向量维数、简化计算 去除噪声等作用。故而,特征提取的好坏将直接影 响文本分类的准确率。特征提取的基本思想是构造 个评估函数,对特征集中的每个特征词进行权重 计算,然后对所有的特征词按照其权重值的大小进 行排序,选择预定数目的最佳特征作为最终的特征 子集。在文本分类中常使用的特征选择方法包括文 档频率7 document frequency)互信意 ( mutual information)、信息增益 ( information gain)、X2统计(CH|)、期望 交叉熵( cross entropy 文本证据权(the eight of evidence for text) 优势率(odds at0)和词频反文档频率等
文本分类通常有文本的预处理、文本的向量空 间模型表示、文本特征提取和分类器的训练四个步 骤。在研究文本分类的过程中,特征提取是最关键 的环节之一,可以起到降低向量维数、简化计算、 去除噪声等作用。故而,特征提取的好坏将直接影 响文本分类的准确率。特征提取的基本思想是构造 一个评估函数,对特征集中的每个特征词进行权重 计算,然后对所有的特征词按照其权重值的大小进 行排序,选择预定数目的最佳特征作为最终的特征 子集。在文本分类中常使用的特征选择方法包括文 档频率(document frequency)、互信息 (mutual information)、信息增益 (information gain)、χ2 统计(CHI)、期望 交叉熵(cross entropy)、文本证据权(the weight of evidence for text)、优势率(odds ratio)和词频反文档频率等
对于传统的 TFIDE特征提取算法,目前已有文献对 其的不足进行分析及改进,效果比较显著的是通过引入信 息熵对其进行改进,解决了词语在类别间的分布不均造成 的问题。比如字面不同的词语但可以表示同一个含义,这 样的一组词的语义特征是一样的,不能忽视它们共同出现 对词频的影响。若忽视了语义,就无法准确表达文档的内 容,同时也会影响计算特征词权值的精确度。之前的大多 工作是计算独立的字或词的权重值,以选出特征词,很 涉及词汇语义部分的研究,容易忽视多义词和同义词现象。 本文针对这一问题,先对词语进行语义信息的分析,然后 将有语义关联的归为一组,进而分析信息熵,改进信息增 益的公式,提出一种新的基于语义关联和信息增益的 TEIDE特征选择算法。实验结果表明,改进后的特征选择 算法,在文本分类的查准率和召回率两方面均有不同程度 的提高
对于传统的TFIDF 特征提取算法,目前已有文献对 其的不足进行分析及改进,效果比较显著的是通过引入信 息熵对其进行改进,解决了词语在类别间的分布不均造成 的问题。比如字面不同的词语但可以表示同一个含义,这 样的一组词的语义特征是一样的,不能忽视它们共同出现 对词频的影响。若忽视了语义,就无法准确表达文档的内 容,同时也会影响计算特征词权值的精确度。之前的大多 工作是计算独立的字或词的权重值,以选出特征词,很少 涉及词汇语义部分的研究,容易忽视多义词和同义词现象。 本文针对这一问题,先对词语进行语义信息的分析,然后 将有语义关联的归为一组,进而分析信息熵,改进信息增 益的公式,提出一种新的基于语义关联和信息增益的 TFIDF特征选择算法。实验结果表明,改进后的特征选择 算法,在文本分类的查准率和召回率两方面均有不同程度 的提高
1.1TF|DF特征选择 在文本分类领域中,最常用的是 Salton在1975年 提出的向量空间模型(VSM)。VSM将文本d看做向量 空间中的一个n维向量(t1,wt1),t2,Wt2),t3, w(t Wtn),则t1, 3,…,tn是该文本 的特征词,Wt),i=1,2,3,,n是该文本对应的第i个特 征词的权重值。 对文本文档进行分类主要依据文档的内容,而特征词 的权重值便是刻画词语表达文档内容的重要指标。权重值 的计算按其值类型通常分为以下两种: a)布尔型,即将所有训练文档的词语作为全集,当一个 词语t出现在文档中时,其权值设为1,否则设为O b)实数型,将文档的词语通过权重计算公式求出其权重
在文本分类领域中,最常用的是Salton在1975年 提出的向量空间模型(VSM)。 VSM 将文本di看做向量 空间中的一个n 维向量(t1,w(t1 ), t2,w(t2 ), t3, w(t3 ),⋯, tn,w(tn )),则t1, t2, t3,⋯, tn是该文本 的特征词,w(ti ),i=1,2,3,…,n 是该文本对应的第i 个特 征词的权重值。 对文本文档进行分类主要依据文档的内容,而特征词 的权重值便是刻画词语表达文档内容的重要指标。权重值 的计算按其值类型通常分为以下两种 : a)布尔型,即将所有训练文档的词语作为全集,当一个 词语ti 出现在文档中时,其权值设为1,否则设为0; b)实数型,将文档的词语通过权重计算公式求出其权重 值
TFDF是VSM中经典的特征权值函数,权重计算公式为: Weight fidf(t=tf(t)*idf(t) 其中:tf( term frequency)为词语频率,表示该词语 在文档中出现的次数;idf( inverse document frequency 为反文档频率,表示该词语在文档集合中分 布情况的量化。通常计算idf的方法为: Idf(t=log- 其中:N为文档集中的总文档数,n为出现特征项t的 文档数
显然,传统的 TFIDE特征选择方法中,某个词语的权重值与该 词语的频率成正比,与文档频率成反比。但这个方法有着明显的不足, 即忽视了文档在每个类中的分布情况。对于文档频率,一方面只考虑 了包含某个词语文档数绝对量的多少,而没有考虑这些文档在类别中 的分布;另一方面,假如说包含某词条的文档数比较少,但如果这个 词语均匀分布于各个类别中 么对分类的贡献是微乎其微的,不能 秤名普续出的複鉴知定较重值米签的舞荃璇 TFIDF将文档集合作为整体考虑,没有考虑词语在类别间的分布情况。 针对这个问题,文献对传统TFDF方法进行了改进,引入了信息熵与 信息增益的概念,用以解决词语在类别间的分布不均。但有些文献在 处理方法上未考虑同一个文档中词与词之间的语义关联,只是将每个 词语孤立地进行权重值的计算,这样的处理将词语割裂开,不利于文 恣裔囊聋着態对裘盆藿存计聋 本文在基于语义关 改进
显然,传统的TFIDF特征选择方法中,某个词语的权重值与该 词语的频率成正比,与文档频率成反比。但这个方法有着明显的不足, 即忽视了文档在每个类中的分布情况。对于文档频率,一方面只考虑 了包含某个词语文档数绝对量的多少,而没有考虑这些文档在类别中 的分布;另一方面,假如说包含某词条的文档数比较少,但如果这个 词语均匀分布于各个类别中,那么对分类的贡献是微乎其微的,不能 很好地区分类别。相应地,它的权重值应该比较小,但是按照传统 TFIDF 算法得出的权重值却比较大。上述两个明显的缺点主要是因为 TFIDF 将文档集合作为整体考虑,没有考虑词语在类别间的分布情况。 针对这个问题,文献对传统TFIDF 方法进行了改进,引入了信息熵与 信息增益的概念,用以解决词语在类别间的分布不均。但有些文献在 处理方法上未考虑同一个文档中词与词之间的语义关联,只是将每个 词语孤立地进行权重值的计算,这样的处理将词语割裂开,不利于文 本内容表达的完整性,对文本分类有一定的影响。本文在基于语义关 联的前提下计算信息熵,对权重值的计算方法进行改进
1.2基于信息熵的特征选择 熵是德国物理学家克劳修斯于1850年提出的,表 示一种能量在空间中分布的均匀程度,能量分布得越均匀 熵就越大。1948年, Shannon 挹应角手信息处理,提 出了信息熵的概念。信息熵在随机事件发生之前,是结果 不确定性的量度;在随机事件发生之后,它是人们从该事 件中所得到信息的量度(信息量)。 设随机事件X在获得信息y之前结果的不确定性为 H(X),得到信息y之后为H(X|y),那么包含在消 息y中的关于事件X的信息量为 G(X,y)=H(Ⅹ)-H(X|y)(1) 条件熵E(Ⅹy)=H(Ⅹ|y)是观测信息y后信 息空间Ⅹ的不确定程度。信息增益是信息熵的差,表示为 G(X,y)=H(X)H(X y(2)
熵是德国物理学家克劳修斯于1850 年提出的,表 示一种能量在空间中分布的均匀程度,能量分布得越均匀, 熵就越大。1948年,Shannon 把熵应用于信息处理,提 出了信息熵的概念。信息熵在随机事件发生之前,是结果 不确定性的量度;在随机事件发生之后,它是人们从该事 件中所得到信息的量度(信息量)。 设随机事件X 在获得信息y 之前结果的不确定性为 H(X),得到信息y 之后为H(X |y),那么包含在消 息y 中的关于事件X 的信息量为: G(X,y) =H(X) -H(X |y) (1) 条件熵E(X |y) =H(X|y)是观测信息y 后信 息空间X 的不确定程度。信息增益是信息熵的差,表示为: IG(X,y) =H(X) -H(X |y) (2)
由公式得出的不确定程度减少量就是信息增益, 即表示词语y对分类的影响。倘若简单地将信息增益 作为一个乘数因子加入TFDF中,修改TFDF算法中 的权重公式为 tf*idf*Ig,并不能解决传统 TFIDE的不 足,所以在 tf*idf*ig公式的基础上,将信息增益公式 进行变形并引入到文档集合的类别间,将文档类别看 做信息源,由训练数据集合的类别信息熵和文档类别 中词语的条件熵之间信息量的增益关系共同决定该词 语在文本分类中所提供的信息量,即建立起信息熵和 词语权重值之间的关系。则权重值的计算公式为
由公式得出的不确定程度减少量就是信息增益, 即表示词语y 对分类的影响。倘若简单地将信息增益 作为一个乘数因子加入TFIDF中,修改TFIDF算法中 的权重公式为tf*idf*IG,并不能解决传统TFIDF的不 足,所以在tf*idf*IG公式的基础上,将信息增益公式 进行变形并引入到文档集合的类别间,将文档类别看 做信息源,由训练数据集合的类别信息熵和文档类别 中词语的条件熵之间信息量的增益关系共同决定该词 语在文本分类中所提供的信息量,即建立起信息熵和 词语权重值之间的关系。则权重值的计算公式为:
weighttfidr(ti )=tf x idf x IG(C, Li) (3) 其中: lG(C,1)=E(C)-E(C/1) (4) E(C) p(C)×log(p(C) (5 E(C/t1)=-2p(C/1)×log(p(C/1) 对式(3)研究得出,可以解决传统 TEIDE中存在的不 足,即当词语t在类别中分布不均匀时,在某个类别中大 量出现而其他类别中分布较少,理论上这个词带有很大的 类别信息,由改进后的公式也恰怡算出它的权重值较高 另一种情况是某个词语虽然在整个文档集合中数量很少, 但均匀分布于各个类别间,则其对区分类别的影响比较小 理论上它的权重值相应地比较低,由式(3)算出的权重也确 实比较低
对式(3)研究得出,可以解决传统TFIDF中存在的不 足,即当词语t 在类别中分布不均匀时,在某个类别中大 量出现而其他类别中分布较少,理论上这个词带有很大的 类别信息,由改进后的公式也恰恰算出它的权重值较高。 另一种情况是某个词语虽然在整个文档集合中数量很少, 但均匀分布于各个类别间,则其对区分类别的影响比较小, 理论上它的权重值相应地比较低,由式(3)算出的权重也确 实比较低