正在加载图片...
·198 智能系统学报 第5卷 RP。 适应性). FB=(1+B) BP。+R。 Z1数据集是中文邮件数据集「66],其中的邮 式中:β表示精确度的权重,反映精确度相对召回率 件已进行过中文分词处理,处理后的单词被映射为 的重要性.在大多数研究中B取值1,该情况下,称该 整数,以保护邮件所有者的隐私.该数据集包含 标准为F度量. 1633封邮件,其中正常邮件428封,垃圾邮件比例 4.2标准数据集 为73.79%.数据集中正常邮件平均长度为819.06 2000年,Androutsopoulos等人[4s]整理发布了 个单词 LingSpam数据集4],该数据集是早期的经典邮件分 类数据集之一:该数据集共包含2893封邮件,其中 5总结及展望 正常邮件2412封,垃圾邮件比例为16.63%.该数 在现有的反垃圾电子邮件技术方法中,智能型反 据集中的邮件都经过了预处理,所有头信息(标题 垃圾邮件技术方法仍然是最有效、最有前景的方法.法 除外)、HTML标记均已被去除.该数据集的不足是, 律手段和简单方法只能对部分符合定义特征的垃圾电 正常邮件的内容大多与语言学话题有关.用该数据 子邮件起一定作用,且这2种方法不具备自适应性,不 集评估邮件检测系统会带来过于乐观的估计. 能有效过滤垃圾邮件的变种.在智能型反垃圾邮件技 2004年,Androutsopoulos等人I4经过收集、整 术方法中,邮件特征提取方法起着至关重要的作用,将 理又发布了PU系列经典数据集,该数据集被广泛 直接影响反垃圾邮件系统的各项性能. 应用于现今各种垃圾邮件过滤系统的性能评估.PU 邮件特征提取是反垃圾邮件系统的核心部分, 系列数据集中包含着4个独立的数据集: 对系统的分类性能起着决定性作用.目前,绝大多数 1)PU1:该数据包含1099封邮件,其中垃圾邮 邮件集中于文本、图片类型.基于文本、图片的邮件 件481封.该数据集中的正常邮件和垃圾邮件均为 特征提取方法有着良好的应用前景,是当今的研究 英语书写的邮件.正常邮件是文中的第1位作者4] 热点.基于行为的邮件特征提取方法,是一种与邮件 在36个月的时间里收集到的,而垃圾邮件是他在 类型无关的特征提取方法,该方法通过区分垃圾邮 22个月的时间内收集的. 件、正常邮件发送过程中表现出的不同行为,过滤垃 2)PU2:该数据集包含721封邮件,其中有142 圾邮件,是一种有效、鲁棒性强的方法,非常值得进 封垃圾邮件.与PU1相似,该数据集中的邮件也都 一步地研究与探讨.新的邮件特征提取方法的研究, 是英语邮件.文中作者的一位同事在22个月的时间 将极大地推进反垃圾邮件系统的发展 内收集保存了这些邮件, 现有的反垃圾邮件相关法律,对垃圾邮件发送行 3)PU3:该数据集包含4139封邮件,其中有 为进行了一定的限制.然而,现有的相关法律,并不能 1826封垃圾邮件.与PU1、PU2不同,该数据集同时 从根本上解决垃圾邮件问题,需要反垃圾邮件技术的 包含英语邮件和非英语邮件.数据集中的正常邮件 协同支持.现有的相关法案也急需进一步完善 是文中的第2位作者收集的,而垃圾邮件来自其他 智能型反垃圾邮件技术是在简单反垃圾邮件方 邮件数据集, 法的基础上,发展出的新型反垃圾邮件技术.该技术 4)PUA:该数据集包含1142封邮件,其中572 在提取邮件特征的基础上,运用现代机器学习方法 封垃圾邮件.与PU3相似,该数据集也包含部分非 等各种智能方法对邮件类型(是否为垃圾邮件)进 英语邮件,垃圾邮件同样来自其他数据集,数据集中 行分类,以过滤垃圾邮件.新的智能型方法的提出及 的正常邮件是文中作者的另一位同事收集提供的. 其在反垃圾邮件领域的应用将是未来的研究方向, 另外,Medlock[6a]也整理发布了一个大规模邮 具有很大的发展前景 件数据集GenSpam[64]:该数据集由3部分组成:训 练集(包含8018封正常邮件,31235封垃圾邮件)、 参考文献: 测试集(包含754封正常邮件,797封垃圾邮件)、自 [1]CRANOR L F,LAMACCHIA B A.Spam![J].Communi 适应集(包含300封正常邮件,300封垃圾邮件,该 cations of the ACM,1998,41(8):74-83. 部分集合用于测试垃圾邮件过滤系统的动态性、自 [2]GANSTERER W,ILGER M,LECHNER P,et al.Anti-
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有