正在加载图片...
第3卷第5期 智能系统学报 Vol 3 Na 5 2008年10月 CAA I Transactions on Intelligent Systems 0ct2008 基于截图内容的图片垃圾邮件过滤系统 陈俊伟,张丽春,吕岳 华东师范大学计算机科学与技术系,上海200241) 摘要:垃圾邮件制造者常常将文字嵌入到图像中,产生了大量的图片垃圾邮件.为解决这一问题,提出并实现了一 个基于截图内容的图片垃圾邮件过滤方案.首先由用户从垃圾邮件中截取某一子域图片,每一截图对应一类垃圾图 片,所有的截图构成一个自定义的垃圾图片“黑名单”其次对读入的每一封图片邮件,其内置图片与“黑名单中的 图片进行图像匹配.最后若存在匹配项,则判定该邮件含有用户已指定的垃圾图片信息.将此图片垃圾邮件过滤方 案应用于一个小型的邮件收发系统,使用3534幅垃圾邮件图片进行实验,结果证明了该垃圾邮件过滤方案有效. 关键词:截图内容:图片垃圾邮件过滤:图像匹配 中图分类号:TP391.4文献标识码:A文章编号:16734785(2008)050416-07 A spam mage filterng system ba sed on user-spec ified mage con tent CHEN Junwei,ZHANG Li-chun,LU'Yue (Deparment of Computer Science and Technobgy,East China Nomal University,Shanghai 200241,China) Abstract:Spammers often embed text in mages in innocuous seem ing emails,resulting in large numbers of spam mages which are difficult to filter out To solve this problem,a spam mage filtering system was developed that ap- plies user-specified identificaton of spam mage content First,users were asked to identify spam mages from emails to generate a class of pam mages These mages were then added a blacklist Next,mages in incom ing emails were matched with mages sored in the mage blacklist Finally,if a matching mage was found,the email was judged as spam because it contained mages identified as spam by users Testing with an email server contai- ning 3534 sample mages proved the proposed method effectively intercepts spam emails Keywords:user-specified mage content mage spam filtering mage matching 电子邮件得到广泛应用,垃圾邮件也随之蔓延 配式]这类邮件过滤系统在文本垃圾邮件过滤领 并成为世界性难题.如果找不到有效的预防方法, 域得到了不俗的效果,因此垃圾邮件制造者采用了 垃圾邮件将严重威胁到网络资源的共享性、交互性 更加隐蔽的信息载体形式,即图片形式)他们将 和开放性山.所谓垃圾邮件指的是一些不受欢迎的 文字嵌入到图片当中,使得一些基于文本的过滤系 邮件,为了和用户取得某种联系,它们未征得任何允 统无法识别而失效. 许却强行发送到用户邮箱.最典型的例子就是广告 面对图片形式的垃圾邮件,普遍的做法是从其 邮件,以及用来窃取用户帐号信息的钓鱼邮件2) 中的文字内容入手,先将文字信息与背景图片分离, 针对垃圾邮件,较为典型的对策是在邮件文字内容 再对提取出来的文字内容进行文本过滤:或者根据 中嗅探是否存在垃圾信息的关键字,基于关键字的 文字区域的一些表面特征(比如大小或者颜 邮件过滤器实际上就是一种文本分类器,目前主要 色)2」,设计一个分类器,将垃圾邮件与正常邮件 有4类,即贝叶斯式、启发式、全方位式以及模式匹 区分开来.这种方法对于复杂背景的文本图像进行 处理是个难点,同时确定图像的典型特征也是件棘 收稿日期:200807-15 手的事 基金项目:因家自然科学基金资助项目(60475006) 通信作者:陈俊伟.Emai让y2002@163.cam 本文提出并且实现了一套图片垃圾邮件过滤方 法.与其他过滤方法不同的是,本文的过滤规则由用 1994-2009 China Academic Journal Electronic Publishing House.All rights reserved.http://www.cnki.net第 3卷第 5期 智 能 系 统 学 报 Vol. 3 №. 5 2008年 10月 CAA I Transactions on Intelligent System s Oct. 2008 基于截图内容的图片垃圾邮件过滤系统 陈俊伟 , 张丽春 , 吕 岳 (华东师范大学 计算机科学与技术系 ,上海 200241) 摘 要 :垃圾邮件制造者常常将文字嵌入到图像中 ,产生了大量的图片垃圾邮件. 为解决这一问题 ,提出并实现了一 个基于截图内容的图片垃圾邮件过滤方案. 首先由用户从垃圾邮件中截取某一子域图片 ,每一截图对应一类垃圾图 片 ,所有的截图构成一个自定义的垃圾图片“黑名单 ”. 其次对读入的每一封图片邮件 ,其内置图片与“黑名单 ”中的 图片进行图像匹配. 最后若存在匹配项 ,则判定该邮件含有用户已指定的垃圾图片信息. 将此图片垃圾邮件过滤方 案应用于一个小型的邮件收发系统 ,使用 3 534幅垃圾邮件图片进行实验 ,结果证明了该垃圾邮件过滤方案有效. 关键词 :截图内容 ;图片垃圾邮件过滤 ;图像匹配 中图分类号 : TP391. 4 文献标识码 : A 文章编号 : 167324785 (2008) 0520416207 A spam image filter ing system based on user2spec ified image content CHEN Jun2wei, ZHANG L i2chun, LU¨Yue (Department of Computer Science and Technology, East China Normal University, Shanghai 200241, China) Abstract:Spammers often embed text in images in innocuous seem ing emails, resulting in large numbers of spam images which are difficult to filter out. To solve this p roblem, a spam image filtering system was developed that ap2 p lies user2specified identification of spam image content. First, users were asked to identify spam images from emails to generate a class of spam images. These imageswere then added to a blacklist. Next, images in incom ing e2mailswere matched with images stored in the image blacklist. Finally, if a matching image was found, the e2mail was judged as spam because it contained images identified as spam by users. Testing with an e2mail server contai2 ning 3534 samp le images p roved the p roposed method effectively intercep ts spam e2mails. Keywords: user2specified image content; image spam filtering; image matching 电子邮件得到广泛应用 ,垃圾邮件也随之蔓延 并成为世界性难题. 如果找不到有效的预防方法 , 垃圾邮件将严重威胁到网络资源的共享性、交互性 和开放性 [ 1 ] . 所谓垃圾邮件指的是一些不受欢迎的 邮件 ,为了和用户取得某种联系 ,它们未征得任何允 许却强行发送到用户邮箱. 最典型的例子就是广告 邮件 ,以及用来窃取用户帐号信息的钓鱼邮件 [ 2 ] . 针对垃圾邮件 ,较为典型的对策是在邮件文字内容 中嗅探是否存在垃圾信息的关键字. 基于关键字的 邮件过滤器实际上就是一种文本分类器 ,目前主要 有 4类 ,即贝叶斯式、启发式、全方位式以及模式 通信作者 :陈俊伟. E2 收稿日期 : 2008207215. 基金项目 :国家自然科学基金资助项目 (60475006) . mail: ilyjyz2002@163. com. 匹 配式 [ 3 ] . 这类邮件过滤系统在文本垃圾邮件过滤领 域得到了不俗的效果 ,因此垃圾邮件制造者采用了 更加隐蔽的信息载体形式 ,即图片形式 [ 4 ] . 他们将 文字嵌入到图片当中 ,使得一些基于文本的过滤系 统无法识别而失效. 面对图片形式的垃圾邮件 ,普遍的做法是从其 中的文字内容入手 ,先将文字信息与背景图片分离 , 再对提取出来的文字内容进行文本过滤 ;或者根据 文字 区 域 的 一 些 表 面 特 征 (比 如 大 小 或 者 颜 色 ) [ 2, 4 ] ,设计一个分类器 ,将垃圾邮件与正常邮件 区分开来. 这种方法对于复杂背景的文本图像进行 处理是个难点 ,同时确定图像的典型特征也是件棘 手的事. 本文提出并且实现了一套图片垃圾邮件过滤方 法. 与其他过滤方法不同的是 ,本文的过滤规则由用
向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有