正在加载图片...
·196 智能系统学报 第5卷 会返回给发件人一个“图灵测试”,如果发件人通过 Naive Bayse. 了测试,邮件将会被成功传送,而相应的发件人地址 4)支持向量机 将被添加到白名单列表中.垃圾邮件制造者一般会 文献[50-52]中对该方法进行了深入的讨论 采用伪造的发件人地址,来逃避反向追踪,也就收不 Drucker等人Is3实现了一个基于SVM的过滤器,他 到返回的测试. 们的研究表明SVM过滤器和Boosting Trees过滤器 这2种方法的设计基于正常邮件和垃圾邮件发 均能够达到最低的错误率(error rates),但是Boos 送时所能作出的不同反应,利用垃圾邮件无法正确 ting Trees花费了更多的训练时间. 作出响应的不足,对邮件类型进行判别.这2种方法 5)Ripper. 的不足是,响应会给正常邮件的发送带来延迟,也会 和其他分类方法不同,Rippers41并不需要特征 占用网络带宽, 向量,它从训练样本集中归纳出分类的规则,通过一 3.3智能型垃圾邮件检测技术 系列相与或者相或关系的f-then规则组成, 1)质朴贝叶斯. 6)Rocchio. 该方法简便、有效,是商业软件中一种最常用的 这种类型的分类器5556]使用规范化的T℉-DF 方法,大量的工作表明这种方法是处理垃圾邮件最 来表示训练样本的向量.这种方法的优点是在训练 有效的方法之一,并且它能够取得较高的精确率 和测试中具有较快的速度,缺点是在训练集上搜索 (precision)和召回率(recal)[24].一些研究表明使 最优阚值(optimum threshold)以及最优B时会消耗 用多项式模型能够比使用多元伯努利(Bernoul山i)模 掉额外的训练时间,并且这些参数在测试集上的泛 型获得更高的正确率(accuracy)5).在传统的质朴 化特性也较弱 贝叶斯(naive Bayes)方法之上,衍生出了很多变体. 7)文本聚类 R.Shrestha等人[利用不同位置出现的同一关键 M.Sasaki等人[s提出基于特征空间模型的文 字的内部关联特性进行分类,计算关键字的协同权 本聚类方法,使用spherical k-means算法[s8]来自动 重(co-weighting),并取得了性能上的提高.Li等 计算出不同的clusters,并对抽取出的质心向量 人【s提出了基于用户反馈的改进的naive Bayes方 (centroid vector)分配类别标记,通过计算新邮件向 法,获得了相对较低的丢失率(false positive)和较好 量和质心向量的距离来完成分类.该方法在Lng 的性能, Spam corpus数据库获得了较好的测试性能. 2)k-近邻方法. 8)元启发(Meta-heuristics). Sakkis等人[61将k-近邻方法(一种经典的惰性 C.Y.Yeh等人2针对关键字变化对基于关键 学习方法)应用于垃圾邮件检测领域.他们通过实 字的机器学习方法所造成的性能上的影响,提出了 验方法研究了领域大小(k的大小)、特征维数,以 使用spammers的行为作为区分特征,来进行邮件的 及训练集大小对检测器性能的影响.文中实验表明, 分类.这些行为特征通过Meta-heuristics来描述,在 k-近邻方法的平均性能优于贝叶斯方法, 给定的Meta-heuristics下,共抽取出了113个新的特 3)Boosting Trees. 征.实验结果显示这种方法要优于基于关键字的过 Schapire和Singer首先将该方法应用于文本 滤方式,并且训练时间也有了显著的降低 分类领域,通过组合多个基本假设(base hypotheses) 9)人工神经网络 来处理多类别(muli-class)以及多标签(muli-label) J.Clak等人[91利用人工神经网络自动分类邮 的分类问题.Carreras和Marquez]实现了AdaBoost 件,他们开发的系统Linger在Ling-Spam corpus数 算法用于反垃圾邮件的邮件过滤,在基于2个公共 据库获得了较高的正确率、召回率以及精确率.在 数据集(PU1 corpus和Ling-Spam corpus)实验的基 PU1 corpus上系统所获得的性能略有下降.I.Stuart 础上,他们得出Boosting Trees的方法在性能上要优 等人[6]基于词和消息的描述性特征,使用人工神经 于Naive Bayes、Decision Trees和k-NN算法.然而, 网络的方法对邮件进行分类,实验结果表明该方法 Nicholas49]认为使用decision stumps的Boosting 还需要对特征集作适当地扩充或者修改以获得性能 Tress以及AdaBoost在正确率和速度方面都要差于 上的提高
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有