正在加载图片...
·190. 智能系统学报 第5卷 Cranor等人将其定义为:“未经请求的大量 件所引发的这些严重社会问题,近年来,反垃圾电子 电子邮件(unsolicited bulk email,UBE)”.垃圾电子 邮件策略受到了前所未有的关注 邮件还被定义为21:“未经请求的商业电子邮件 United States 15.7% Brazil 10.7%mcdooo (unsolicited commercial email,UCE)”.中国互联网 China(lncluding Hong Kong)6.0% 协会将垃圾电子邮件定义为]:收件人事先没有提 South Korea 4.3% Rnssia 3.5% 出要求或者同意接收的广告、电子刊物、各种形式的 Poland 3.4% Spain 3.2% 宣传品等宣传性的电子邮件;收件人无法拒收的电 Argentina 2.6% 子邮件;隐藏发件人身份、地址、标题等信息的电子 邮件;含有虚假的信息源、发件人、路由等信息的电 emany United Kingdom 2.0% 子邮件;含有病毒、恶意代码、色情、反动等不良信息 Chile1.8%题 France 1.6% 或有害信息的邮件。 Thailand 1.4% Mexico 1.2% 0hr21.6%22 以上3种定义尽管不同,却有着一个共同点:未 经请求.这是垃圾电子邮件与正常电子邮件的本质 图1各国家垃圾电子邮件数量比例 区别.正常电子邮件是人们正常通讯、交流的媒介, Fig.1 The proportion of spam-relaying of different countries 包含着交互信息的需求.而垃圾电子邮件往往包含 70 56.70 58.21 57.89 57.87 57.52 收件人不感兴趣的内容,且在未经许可的情况下发 60 50 送给收件人.垃圾电子邮件一般包含商业广告信息, 0 且成批量发送,这也是定义其为UBE、UCE的原因. 30 同时,垃圾电子邮件发送者为逃避对电子邮件的反 20 10 向追踪,会刻意伪造发件人、路由、信息源等信息.故 在多数情况下,这3种定义是一致的 2008.Q1 2008.Q22008.Q32008.Q42009.Q】 季度 1.2垃圾电子邮件的规模与影响 图2中国网民平均每周收到垃圾电子邮件的比例 根据Symantec公司的统计报告,2008年全球范 Fig.2 Weekly average ratio of spam received by cyberciti- 围垃圾电子邮件的平均比例已经占到了总邮件数的 zens in China 8O%左右.依据Ferris Research的研究估计s) 2009年垃圾电子邮件将耗费全球1300亿美元的开 2邮件特征提取方法 销,其中,劳动力浪费引起的开销占总开销的85%. 对于垃圾邮件检测系统来说,邮件特征提取是 这将比2007年的估计增长30%,而比2005年的数 极其关键的环节,甚至比模式识别方法的选择、分类 据增长100%.根据Sophos公司最新调查结果显 器的设计与使用更为重要.邮件特征提取方法的准 示6,中国的垃圾电子邮件的数量继美国、巴西之 确性、可区分性、稳定性和自适应性将会直接影响到 后,位列第3位.图1显示出各国家的垃圾电子邮件 系统整体的分类效果与性能.据中国互联网协会 数量比例. 2008年第四季度中国反垃圾邮件调查统计[8],用户 中国互联网协会2009年第一季度中国反垃圾 收到垃圾邮件的正文格式主要是3种:图片+文本 电子邮件调查结果指出,中国网民平均每周收到 格式、纯文本格式和纯图片格式.本节将综述经典的 17.68封垃圾电子邮件,与去年同比增加0.04封, 基于文本的邮件特征提取方法、基于图片的邮件特 占邮件总数的57.52%.图2给出中国网民在2008 征提取方法和基于行为的邮件特征提取方法, 年第一季度至2009年第一季度平均每周收到垃圾 2.1基于文本内容的邮件特征提取方法 电子邮件的比例.调查报告还指出,处理这些垃圾电 基于文本内容的邮件特征提取方法一般包含2 子邮件将耗费中国网民平均每周12.35min.仅考虑 个阶段:1)词筛选(terms selection):依据词的重要 浪费时间的因素,2009年第一季度垃圾电子邮件致 性(可区分度)对特征词进行排序,选择可区分度好 使中国损失人民币339.59亿元,与2007年同比增 的特征词进人下一阶段;2)特征提取与表示:提取 长151.19亿元,涨幅为80.25%.鉴于垃圾电子邮 出邮件特征并表示成统一的形式
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有