第3期谭营，等：反垃圾电子邮件方法研究进展 ·191·

正在加载图片...

第3期谭营，等：反垃圾电子邮件方法研究进展 ·191· 2.1.1文本词筛选方法法，文档频率值大于预设阈值的词将被选择，而文档当邮件库中的邮件经历切词阶段后，大量的单频率值小于该阈值的词将被舍弃，单词：的文档频词被获取，如果不经过词筛选过程，会导致特征维度率被定义如下：过高，引发维度灾难.词筛选一方面可以降低特征维 D(t)=|{mImy∈M,t∈mI. 度和计算复杂度，另一方面还可以减小噪声（区分式中：M表示整个训练集，m表示M中的一封邮件度差的单词)的不良影响.下面介绍几种常用的词文档频率法认为低频单词所含的类别信息量较筛选方法：少，移除它们不会影响整体分类性能.文献[11]指 1)信息嫡出，当移除90%的低信息量单词时，文档频率方法在信息论中，信息嫡(IG)又被称为Kullback 与信息嫡和x统计量方法的性能相当.文档频率方 Leibler距离9.它能够度量2个概率分布P(x)和法的主要优点是，计算复杂度低，与训练样本的数量 Q(x)的距离。在垃圾邮件检测技术研究中，它被用于成线性比例增长度量单词的优良度（区分度）.根据该方法，可以计算 4)其他词筛选方法，出，当知道给定单词：是否在邮件中出现时，所能获得词筛选方法在垃圾邮件检测系统中起着重要的的邮件类型信息的量.单词t:的信息熵被定义如下：作用.为了更好地理解词筛选方法，下面列出3种其 P(T,C) 1e)=Σ，{P(T,C)logp(TP(C) 他的常用方法的计算式3町。 Celesg]Te(fi) a)x2统计量(CH): 式中：C表示邮件类型，c.和91分别表示邮件类型是 X(t,c）= 垃圾邮件(spam)和正常邮件(legitimate email),t: 表示单词在邮件中出现，而：表示单词t:未在邮 I MI (P(ti,c)P(t,c)-P(,c)P(t,c))2 P(t)P()P(c)P(c) 件中出现.式中的概率可以根据训练集数据进行估 b)比值比(odds ratio): 计.根据该式，每个单词的信息熵值将被计算出来， P(tI c)1-P(tI c) 信息熵值大的单词将被选择进人下一阶段， x(,c)=1-P(tc) P(til e)i 2)词频方差 c)术语强度(terms strength): Koprinska等人[io研究出词频方差法(term fre- S(t)=P(t∈yl tiex), quency variance,TFV),来选取具有高词频方差的式中：c∈{c.,G}表示给定的邮件类型，相应的c∈ 词.他们认为词频方差大的词包含更多的信息量.依 {c.,G/c,x和y表示训练集中类型相同的任意2封据该方法，那些倾向于出现在某一种类型邮件（垃不同邮件圾邮件或正常邮件)的词将被选择，而那些在2种 2.1.2文本特征提取方法类型邮件中出现频率相当的词将被移除.在反垃圾 1)词汇袋法邮件技术研究领域中，词频方差被定义如下：词汇袋法(bag-of-words,BoW)也被称为向量空 T)=,Σ[T(,C)-T5()]2. 间模型，是垃圾邮件检测技术研究领域应用最广泛式中：T(,C)表示单词t:在类型为C的邮件中的的方法之一「2]，通过观察特征词是否在邮件中出出现频率，T(:)表示单词：在2种类型邮件中出现，将每封邮件转换成一个d维的特征向量<1，现的平均频率， x2,…,x>,其中每维特征值x:可以看作是特征词文献[10]指出在多数情况下，词频方差方法性能 :的函数.对于x,有2种常用的类型表示方法：布尔优于信息熵方法.具有最大信息熵值和最大词频方差型和频率型4]，在布尔型表示下，x:按下列方式赋的前100个词的对比显示，这些词具有以下特征：a)在值：若：在邮件中出现，那么给x:赋值1，否则给其赋内容为语言学相关的正常邮件中频繁出现；b)在垃圾值0.如果采用频率类型表示，那么：则表示为该邮邮件中频繁出现，却在正常邮件中极少出现。件中特征词t:的词频.Schneider的实验显示，这2种 3)文档频率类型的表示法性能相当5 文档频率(document frequency,DF)指的是某 2)稀疏二元多项式哈希，一特定的单词t:所出现过的邮件的数量.依据该方稀疏二元多项式哈希(sparse binary polynomial

<<向上翻页向下翻页>>

点击下载：【学术论文】反垃圾电子邮件方法研究进展