正在加载图片...
第3期 谭营,等:反垃圾电子邮件方法研究进展 ·191· 2.1.1文本词筛选方法 法,文档频率值大于预设阈值的词将被选择,而文档 当邮件库中的邮件经历切词阶段后,大量的单 频率值小于该阈值的词将被舍弃,单词:的文档频 词被获取,如果不经过词筛选过程,会导致特征维度 率被定义如下: 过高,引发维度灾难.词筛选一方面可以降低特征维 D(t)=|{mImy∈M,t∈mI. 度和计算复杂度,另一方面还可以减小噪声(区分 式中:M表示整个训练集,m表示M中的一封邮件 度差的单词)的不良影响.下面介绍几种常用的词 文档频率法认为低频单词所含的类别信息量较 筛选方法: 少,移除它们不会影响整体分类性能.文献[11]指 1)信息嫡 出,当移除90%的低信息量单词时,文档频率方法 在信息论中,信息嫡(IG)又被称为Kullback 与信息嫡和x统计量方法的性能相当.文档频率方 Leibler距离9.它能够度量2个概率分布P(x)和 法的主要优点是,计算复杂度低,与训练样本的数量 Q(x)的距离。在垃圾邮件检测技术研究中,它被用于 成线性比例增长 度量单词的优良度(区分度).根据该方法,可以计算 4)其他词筛选方法, 出,当知道给定单词:是否在邮件中出现时,所能获得 词筛选方法在垃圾邮件检测系统中起着重要的 的邮件类型信息的量.单词t:的信息熵被定义如下: 作用.为了更好地理解词筛选方法,下面列出3种其 P(T,C) 1e)=Σ,{P(T,C)logp(TP(C) 他的常用方法的计算式3町。 Celesg]Te(fi) a)x2统计量(CH): 式中:C表示邮件类型,c.和91分别表示邮件类型是 X(t,c)= 垃圾邮件(spam)和正常邮件(legitimate email),t: 表示单词在邮件中出现,而:表示单词t:未在邮 I MI (P(ti,c)P(t,c)-P(,c)P(t,c))2 P(t)P()P(c)P(c) 件中出现.式中的概率可以根据训练集数据进行估 b)比值比(odds ratio): 计.根据该式,每个单词的信息熵值将被计算出来, P(tI c)1-P(tI c) 信息熵值大的单词将被选择进人下一阶段, x(,c)=1-P(tc) P(til e)i 2)词频方差 c)术语强度(terms strength): Koprinska等人[io研究出词频方差法(term fre- S(t)=P(t∈yl tiex), quency variance,TFV),来选取具有高词频方差的 式中:c∈{c.,G}表示给定的邮件类型,相应的c∈ 词.他们认为词频方差大的词包含更多的信息量.依 {c.,G/c,x和y表示训练集中类型相同的任意2封 据该方法,那些倾向于出现在某一种类型邮件(垃 不同邮件 圾邮件或正常邮件)的词将被选择,而那些在2种 2.1.2文本特征提取方法 类型邮件中出现频率相当的词将被移除.在反垃圾 1)词汇袋法 邮件技术研究领域中,词频方差被定义如下: 词汇袋法(bag-of-words,BoW)也被称为向量空 T)=,Σ[T(,C)-T5()]2. 间模型,是垃圾邮件检测技术研究领域应用最广泛 式中:T(,C)表示单词t:在类型为C的邮件中的 的方法之一「2],通过观察特征词是否在邮件中出 出现频率,T(:)表示单词:在2种类型邮件中出 现,将每封邮件转换成一个d维的特征向量<1, 现的平均频率, x2,…,x>,其中每维特征值x:可以看作是特征词 文献[10]指出在多数情况下,词频方差方法性能 :的函数.对于x,有2种常用的类型表示方法:布尔 优于信息熵方法.具有最大信息熵值和最大词频方差 型和频率型4],在布尔型表示下,x:按下列方式赋 的前100个词的对比显示,这些词具有以下特征:a)在 值:若:在邮件中出现,那么给x:赋值1,否则给其赋 内容为语言学相关的正常邮件中频繁出现;b)在垃圾 值0.如果采用频率类型表示,那么:则表示为该邮 邮件中频繁出现,却在正常邮件中极少出现。 件中特征词t:的词频.Schneider的实验显示,这2种 3)文档频率 类型的表示法性能相当5 文档频率(document frequency,DF)指的是某 2)稀疏二元多项式哈希, 一特定的单词t:所出现过的邮件的数量.依据该方 稀疏二元多项式哈希(sparse binary polynomial
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有