基于语义关联和信息增益的TFIDF改进算法研究

团购合买资源类别：文库，文档格式：PPT，文档页数：23，文件大小：3.81MB

基于语义关联和信息增益的 TFDF改进算法研究

基于词频反文档频率( TFIDE)的现有文本特征提取算法及其改进算法未能考虑类别内部词语之间的语义关联,如果脱离语义,提取出的特征不能很好地刻画文档的内容。为准确提取特征,在信息熵与信息增益的基础上,加入词语的语义关联因素,实现融合语义信息的特征提取,进而提出语义和信息增益相结合的TFDF改进算法,该算法弥补了统计方法丢失语义信息的弊端

基于词频反文档频率（TFIDF）的现有文本特征提取算法及其改进算法未能考虑类别内部词语之间的语义关联，如果脱离语义，提取出的特征不能很好地刻画文档的内容。为准确提取特征，在信息熵与信息增益的基础上，加入词语的语义关联因素，实现融合语义信息的特征提取，进而提出语义和信息增益相结合的TFIDF改进算法，该算法弥补了统计方法丢失语义信息的弊端

文本分类通常有文本的预处理、文本的向量空间模型表示、文本特征提取和分类器的训练四个步骤。在研究文本分类的过程中,特征提取是最关键的环节之一,可以起到降低向量维数、简化计算去除噪声等作用。故而,特征提取的好坏将直接影响文本分类的准确率。特征提取的基本思想是构造个评估函数,对特征集中的每个特征词进行权重计算,然后对所有的特征词按照其权重值的大小进行排序,选择预定数目的最佳特征作为最终的特征子集。在文本分类中常使用的特征选择方法包括文档频率7 document frequency)互信意 ( mutual information)、信息增益 ( information gain)、X2统计(CH|)、期望交叉熵( cross entropy 文本证据权(the eight of evidence for text) 优势率(odds at0)和词频反文档频率等

文本分类通常有文本的预处理、文本的向量空间模型表示、文本特征提取和分类器的训练四个步骤。在研究文本分类的过程中，特征提取是最关键的环节之一，可以起到降低向量维数、简化计算、去除噪声等作用。故而，特征提取的好坏将直接影响文本分类的准确率。特征提取的基本思想是构造一个评估函数，对特征集中的每个特征词进行权重计算，然后对所有的特征词按照其权重值的大小进行排序，选择预定数目的最佳特征作为最终的特征子集。在文本分类中常使用的特征选择方法包括文档频率（document frequency）、互信息（mutual information）、信息增益（information gain）、χ２统计（CHI）、期望交叉熵（cross entropy）、文本证据权（the weight of evidence for text）、优势率（odds ratio）和词频反文档频率等

对于传统的 TFIDE特征提取算法,目前已有文献对其的不足进行分析及改进,效果比较显著的是通过引入信息熵对其进行改进,解决了词语在类别间的分布不均造成的问题。比如字面不同的词语但可以表示同一个含义,这样的一组词的语义特征是一样的,不能忽视它们共同出现对词频的影响。若忽视了语义,就无法准确表达文档的内容,同时也会影响计算特征词权值的精确度。之前的大多工作是计算独立的字或词的权重值,以选出特征词,很涉及词汇语义部分的研究,容易忽视多义词和同义词现象。本文针对这一问题,先对词语进行语义信息的分析,然后将有语义关联的归为一组,进而分析信息熵,改进信息增益的公式,提出一种新的基于语义关联和信息增益的 TEIDE特征选择算法。实验结果表明,改进后的特征选择算法,在文本分类的查准率和召回率两方面均有不同程度的提高

对于传统的TFIDF 特征提取算法，目前已有文献对其的不足进行分析及改进，效果比较显著的是通过引入信息熵对其进行改进，解决了词语在类别间的分布不均造成的问题。比如字面不同的词语但可以表示同一个含义，这样的一组词的语义特征是一样的，不能忽视它们共同出现对词频的影响。若忽视了语义，就无法准确表达文档的内容，同时也会影响计算特征词权值的精确度。之前的大多工作是计算独立的字或词的权重值，以选出特征词，很少涉及词汇语义部分的研究，容易忽视多义词和同义词现象。本文针对这一问题，先对词语进行语义信息的分析，然后将有语义关联的归为一组，进而分析信息熵，改进信息增益的公式，提出一种新的基于语义关联和信息增益的 TFIDF特征选择算法。实验结果表明，改进后的特征选择算法，在文本分类的查准率和召回率两方面均有不同程度的提高

1.1TF|DF特征选择在文本分类领域中,最常用的是 Salton在1975年提出的向量空间模型(VSM)。VSM将文本d看做向量空间中的一个n维向量(t1,wt1),t2,Wt2),t3, w(t Wtn),则t1, 3,…,tn是该文本的特征词,Wt),i=1,2,3,,n是该文本对应的第i个特征词的权重值。对文本文档进行分类主要依据文档的内容,而特征词的权重值便是刻画词语表达文档内容的重要指标。权重值的计算按其值类型通常分为以下两种: a)布尔型,即将所有训练文档的词语作为全集,当一个词语t出现在文档中时,其权值设为1,否则设为O b)实数型,将文档的词语通过权重计算公式求出其权重

在文本分类领域中，最常用的是Salton在1975年提出的向量空间模型（VSM）。 VSM 将文本di看做向量空间中的一个n 维向量（t1，w(t1 )， t2，w(t2 )， t3， w(t3 )，⋯， tn，w(tn )），则t1， t2， t3，⋯， tn是该文本的特征词，w(ti )，i＝1,2,3,…,n 是该文本对应的第i 个特征词的权重值。对文本文档进行分类主要依据文档的内容，而特征词的权重值便是刻画词语表达文档内容的重要指标。权重值的计算按其值类型通常分为以下两种：ａ）布尔型，即将所有训练文档的词语作为全集，当一个词语ti 出现在文档中时，其权值设为１，否则设为０；ｂ）实数型，将文档的词语通过权重计算公式求出其权重值

TFDF是VSM中经典的特征权值函数,权重计算公式为: Weight fidf(t=tf(t)*idf(t) 其中:tf( term frequency)为词语频率,表示该词语在文档中出现的次数;idf( inverse document frequency 为反文档频率,表示该词语在文档集合中分布情况的量化。通常计算idf的方法为: Idf(t=log- 其中:N为文档集中的总文档数,n为出现特征项t的文档数



显然,传统的 TFIDE特征选择方法中,某个词语的权重值与该词语的频率成正比,与文档频率成反比。但这个方法有着明显的不足, 即忽视了文档在每个类中的分布情况。对于文档频率,一方面只考虑了包含某个词语文档数绝对量的多少,而没有考虑这些文档在类别中的分布;另一方面,假如说包含某词条的文档数比较少,但如果这个词语均匀分布于各个类别中么对分类的贡献是微乎其微的,不能秤名普续出的複鉴知定较重值米签的舞荃璇 TFIDF将文档集合作为整体考虑,没有考虑词语在类别间的分布情况。针对这个问题,文献对传统TFDF方法进行了改进,引入了信息熵与信息增益的概念,用以解决词语在类别间的分布不均。但有些文献在处理方法上未考虑同一个文档中词与词之间的语义关联,只是将每个词语孤立地进行权重值的计算,这样的处理将词语割裂开,不利于文恣裔囊聋着態对裘盆藿存计聋本文在基于语义关改进

显然，传统的TFIDF特征选择方法中，某个词语的权重值与该词语的频率成正比，与文档频率成反比。但这个方法有着明显的不足，即忽视了文档在每个类中的分布情况。对于文档频率，一方面只考虑了包含某个词语文档数绝对量的多少，而没有考虑这些文档在类别中的分布；另一方面，假如说包含某词条的文档数比较少，但如果这个词语均匀分布于各个类别中，那么对分类的贡献是微乎其微的，不能很好地区分类别。相应地，它的权重值应该比较小，但是按照传统 TFIDF 算法得出的权重值却比较大。上述两个明显的缺点主要是因为 TFIDF 将文档集合作为整体考虑，没有考虑词语在类别间的分布情况。针对这个问题，文献对传统TFIDF 方法进行了改进，引入了信息熵与信息增益的概念，用以解决词语在类别间的分布不均。但有些文献在处理方法上未考虑同一个文档中词与词之间的语义关联，只是将每个词语孤立地进行权重值的计算，这样的处理将词语割裂开，不利于文本内容表达的完整性，对文本分类有一定的影响。本文在基于语义关联的前提下计算信息熵，对权重值的计算方法进行改进

1.2基于信息熵的特征选择熵是德国物理学家克劳修斯于1850年提出的,表示一种能量在空间中分布的均匀程度,能量分布得越均匀熵就越大。1948年, Shannon 挹应角手信息处理,提出了信息熵的概念。信息熵在随机事件发生之前,是结果不确定性的量度;在随机事件发生之后,它是人们从该事件中所得到信息的量度(信息量)。设随机事件X在获得信息y之前结果的不确定性为 H(X),得到信息y之后为H(X|y),那么包含在消息y中的关于事件X的信息量为 G(X,y)=H(Ⅹ)-H(X|y)(1) 条件熵E(Ⅹy)=H(Ⅹ|y)是观测信息y后信息空间Ⅹ的不确定程度。信息增益是信息熵的差,表示为 G(X,y)=H(X)H(X y(2)

熵是德国物理学家克劳修斯于1850 年提出的，表示一种能量在空间中分布的均匀程度，能量分布得越均匀，熵就越大。1948年，Shannon 把熵应用于信息处理，提出了信息熵的概念。信息熵在随机事件发生之前，是结果不确定性的量度；在随机事件发生之后，它是人们从该事件中所得到信息的量度（信息量）。设随机事件X 在获得信息y 之前结果的不确定性为 H（X），得到信息y 之后为H（X ｜y），那么包含在消息y 中的关于事件X 的信息量为: G（X，y）＝H（X）－H（X ｜y）（１）条件熵E（X ｜y）＝H（X｜y）是观测信息y 后信息空间X 的不确定程度。信息增益是信息熵的差，表示为: ＩＧ（X，y）＝H（X）－H（X ｜y）（２）

由公式得出的不确定程度减少量就是信息增益, 即表示词语y对分类的影响。倘若简单地将信息增益作为一个乘数因子加入TFDF中,修改TFDF算法中的权重公式为 tf*idf*Ig,并不能解决传统 TFIDE的不足,所以在 tf*idf*ig公式的基础上,将信息增益公式进行变形并引入到文档集合的类别间,将文档类别看做信息源,由训练数据集合的类别信息熵和文档类别中词语的条件熵之间信息量的增益关系共同决定该词语在文本分类中所提供的信息量,即建立起信息熵和词语权重值之间的关系。则权重值的计算公式为

由公式得出的不确定程度减少量就是信息增益，即表示词语ｙ对分类的影响。倘若简单地将信息增益作为一个乘数因子加入TFIDF中，修改TFIDF算法中的权重公式为tf*idf*IG，并不能解决传统TFIDF的不足，所以在tf*idf*IG公式的基础上，将信息增益公式进行变形并引入到文档集合的类别间，将文档类别看做信息源，由训练数据集合的类别信息熵和文档类别中词语的条件熵之间信息量的增益关系共同决定该词语在文本分类中所提供的信息量，即建立起信息熵和词语权重值之间的关系。则权重值的计算公式为:

weighttfidr(ti )=tf x idf x IG(C, Li) (3) 其中: lG(C,1)=E(C)-E(C/1) (4) E(C) p(C)×log(p(C) (5 E(C/t1)=-2p(C/1)×log(p(C/1) 对式(3)研究得出,可以解决传统 TEIDE中存在的不足,即当词语t在类别中分布不均匀时,在某个类别中大量出现而其他类别中分布较少,理论上这个词带有很大的类别信息,由改进后的公式也恰怡算出它的权重值较高另一种情况是某个词语虽然在整个文档集合中数量很少, 但均匀分布于各个类别间,则其对区分类别的影响比较小理论上它的权重值相应地比较低,由式(3)算出的权重也确实比较低

对式(3)研究得出，可以解决传统TFIDF中存在的不足，即当词语t 在类别中分布不均匀时，在某个类别中大量出现而其他类别中分布较少，理论上这个词带有很大的类别信息，由改进后的公式也恰恰算出它的权重值较高。另一种情况是某个词语虽然在整个文档集合中数量很少，但均匀分布于各个类别间，则其对区分类别的影响比较小，理论上它的权重值相应地比较低，由式(3)算出的权重也确实比较低

点击进入文档下载页（PPT格式）

共23页，试读已结束，阅读完整版请下载

点击下载（PPT格式）

浏览记录