第3卷第5期 智能系统学报 Vol 3 Na 5 2008年10月 CAA I Transactions on Intelligent Systems 0ct2008 基于截图内容的图片垃圾邮件过滤系统 陈俊伟,张丽春,吕岳 华东师范大学计算机科学与技术系,上海200241) 摘要:垃圾邮件制造者常常将文字嵌入到图像中,产生了大量的图片垃圾邮件.为解决这一问题,提出并实现了一 个基于截图内容的图片垃圾邮件过滤方案.首先由用户从垃圾邮件中截取某一子域图片,每一截图对应一类垃圾图 片,所有的截图构成一个自定义的垃圾图片“黑名单”其次对读入的每一封图片邮件,其内置图片与“黑名单中的 图片进行图像匹配.最后若存在匹配项,则判定该邮件含有用户已指定的垃圾图片信息.将此图片垃圾邮件过滤方 案应用于一个小型的邮件收发系统,使用3534幅垃圾邮件图片进行实验,结果证明了该垃圾邮件过滤方案有效. 关键词:截图内容:图片垃圾邮件过滤:图像匹配 中图分类号:TP391.4文献标识码:A文章编号:16734785(2008)050416-07 A spam mage filterng system ba sed on user-spec ified mage con tent CHEN Junwei,ZHANG Li-chun,LU'Yue (Deparment of Computer Science and Technobgy,East China Nomal University,Shanghai 200241,China) Abstract:Spammers often embed text in mages in innocuous seem ing emails,resulting in large numbers of spam mages which are difficult to filter out To solve this problem,a spam mage filtering system was developed that ap- plies user-specified identificaton of spam mage content First,users were asked to identify spam mages from emails to generate a class of pam mages These mages were then added a blacklist Next,mages in incom ing emails were matched with mages sored in the mage blacklist Finally,if a matching mage was found,the email was judged as spam because it contained mages identified as spam by users Testing with an email server contai- ning 3534 sample mages proved the proposed method effectively intercepts spam emails Keywords:user-specified mage content mage spam filtering mage matching 电子邮件得到广泛应用,垃圾邮件也随之蔓延 配式]这类邮件过滤系统在文本垃圾邮件过滤领 并成为世界性难题.如果找不到有效的预防方法, 域得到了不俗的效果,因此垃圾邮件制造者采用了 垃圾邮件将严重威胁到网络资源的共享性、交互性 更加隐蔽的信息载体形式,即图片形式)他们将 和开放性山.所谓垃圾邮件指的是一些不受欢迎的 文字嵌入到图片当中,使得一些基于文本的过滤系 邮件,为了和用户取得某种联系,它们未征得任何允 统无法识别而失效. 许却强行发送到用户邮箱.最典型的例子就是广告 面对图片形式的垃圾邮件,普遍的做法是从其 邮件,以及用来窃取用户帐号信息的钓鱼邮件2) 中的文字内容入手,先将文字信息与背景图片分离, 针对垃圾邮件,较为典型的对策是在邮件文字内容 再对提取出来的文字内容进行文本过滤:或者根据 中嗅探是否存在垃圾信息的关键字,基于关键字的 文字区域的一些表面特征(比如大小或者颜 邮件过滤器实际上就是一种文本分类器,目前主要 色)2」,设计一个分类器,将垃圾邮件与正常邮件 有4类,即贝叶斯式、启发式、全方位式以及模式匹 区分开来.这种方法对于复杂背景的文本图像进行 处理是个难点,同时确定图像的典型特征也是件棘 收稿日期:200807-15 手的事 基金项目:因家自然科学基金资助项目(60475006) 通信作者:陈俊伟.Emai让y2002@163.cam 本文提出并且实现了一套图片垃圾邮件过滤方 法.与其他过滤方法不同的是,本文的过滤规则由用 1994-2009 China Academic Journal Electronic Publishing House.All rights reserved.http://www.cnki.net
第 3卷第 5期 智 能 系 统 学 报 Vol. 3 №. 5 2008年 10月 CAA I Transactions on Intelligent System s Oct. 2008 基于截图内容的图片垃圾邮件过滤系统 陈俊伟 , 张丽春 , 吕 岳 (华东师范大学 计算机科学与技术系 ,上海 200241) 摘 要 :垃圾邮件制造者常常将文字嵌入到图像中 ,产生了大量的图片垃圾邮件. 为解决这一问题 ,提出并实现了一 个基于截图内容的图片垃圾邮件过滤方案. 首先由用户从垃圾邮件中截取某一子域图片 ,每一截图对应一类垃圾图 片 ,所有的截图构成一个自定义的垃圾图片“黑名单 ”. 其次对读入的每一封图片邮件 ,其内置图片与“黑名单 ”中的 图片进行图像匹配. 最后若存在匹配项 ,则判定该邮件含有用户已指定的垃圾图片信息. 将此图片垃圾邮件过滤方 案应用于一个小型的邮件收发系统 ,使用 3 534幅垃圾邮件图片进行实验 ,结果证明了该垃圾邮件过滤方案有效. 关键词 :截图内容 ;图片垃圾邮件过滤 ;图像匹配 中图分类号 : TP391. 4 文献标识码 : A 文章编号 : 167324785 (2008) 0520416207 A spam image filter ing system based on user2spec ified image content CHEN Jun2wei, ZHANG L i2chun, LU¨Yue (Department of Computer Science and Technology, East China Normal University, Shanghai 200241, China) Abstract:Spammers often embed text in images in innocuous seem ing emails, resulting in large numbers of spam images which are difficult to filter out. To solve this p roblem, a spam image filtering system was developed that ap2 p lies user2specified identification of spam image content. First, users were asked to identify spam images from emails to generate a class of spam images. These imageswere then added to a blacklist. Next, images in incom ing e2mailswere matched with images stored in the image blacklist. Finally, if a matching image was found, the e2mail was judged as spam because it contained images identified as spam by users. Testing with an e2mail server contai2 ning 3534 samp le images p roved the p roposed method effectively intercep ts spam e2mails. Keywords: user2specified image content; image spam filtering; image matching 电子邮件得到广泛应用 ,垃圾邮件也随之蔓延 并成为世界性难题. 如果找不到有效的预防方法 , 垃圾邮件将严重威胁到网络资源的共享性、交互性 和开放性 [ 1 ] . 所谓垃圾邮件指的是一些不受欢迎的 邮件 ,为了和用户取得某种联系 ,它们未征得任何允 许却强行发送到用户邮箱. 最典型的例子就是广告 邮件 ,以及用来窃取用户帐号信息的钓鱼邮件 [ 2 ] . 针对垃圾邮件 ,较为典型的对策是在邮件文字内容 中嗅探是否存在垃圾信息的关键字. 基于关键字的 邮件过滤器实际上就是一种文本分类器 ,目前主要 有 4类 ,即贝叶斯式、启发式、全方位式以及模式 通信作者 :陈俊伟. E2 收稿日期 : 2008207215. 基金项目 :国家自然科学基金资助项目 (60475006) . mail: ilyjyz2002@163. com. 匹 配式 [ 3 ] . 这类邮件过滤系统在文本垃圾邮件过滤领 域得到了不俗的效果 ,因此垃圾邮件制造者采用了 更加隐蔽的信息载体形式 ,即图片形式 [ 4 ] . 他们将 文字嵌入到图片当中 ,使得一些基于文本的过滤系 统无法识别而失效. 面对图片形式的垃圾邮件 ,普遍的做法是从其 中的文字内容入手 ,先将文字信息与背景图片分离 , 再对提取出来的文字内容进行文本过滤 ;或者根据 文字 区 域 的 一 些 表 面 特 征 (比 如 大 小 或 者 颜 色 ) [ 2, 4 ] ,设计一个分类器 ,将垃圾邮件与正常邮件 区分开来. 这种方法对于复杂背景的文本图像进行 处理是个难点 ,同时确定图像的典型特征也是件棘 手的事. 本文提出并且实现了一套图片垃圾邮件过滤方 法. 与其他过滤方法不同的是 ,本文的过滤规则由用
第5期 陈俊伟,等:基于截图内容的图片垃圾邮件过滤系统 ·417- 户自己定义.先由用户抓取一些截图,比如某封邮件 无论广告的产品内容如何变化,生产商的相关信息 或者网页广告,系统将用户的所有截图存入一个 (例如商标图案)却往往是固定不变的,所以垃圾图 “图片黑名单”对于每一封新到的图片邮件,系统 片的局部内容重复性很高.针对这一特性,可以利用 都会提取其内嵌的图片,在黑名单中查找是否存在 这部分重复性高的子图内容去识别同属一系列的广 与之类似的图片,一旦匹配,说明这封邮件的图片含 告垃圾图片 有该用户先前定义的垃圾图片内容,那么也就认定 基于上述考虑,提出了一个过滤图片垃圾邮件 该邮件是一封垃圾邮件 的方法:通过用户从一些垃圾邮件中指定他感兴趣 1方法 的子图区域并提供给过滤系统,继而系统依据这些 子图对每封收到的邮件进行图像识别,一旦发现邮 目前大部分图片过滤方法主要是针对广告图片 件图片中含有与之匹配的可疑内容,则判定该邮件 中的文字内容进行提取与分析.这种针对图片文字 为垃圾邮件 的操作往往难以见效,垃圾邮件制造者可以很容易 如图2所示,系统的整个工作流程按照以下4 地做一些预处理而躲避过滤器的检测.举一个简单 步执行: 的例子,图1是一幅加过噪声并且旋转过一定角度 1)用户发现某封邮件含有垃圾图片,继而截取 的广告图片,人眼可以很清楚地识别其广告内容,但 图片中的某块子区域内容(如特定的一段文字,广 是要让一个字符识别程序处理这类图片往往是费尽 告公司商标图案或者其他具有代表性的文字或图 周折并且识别率很低.进一步讲,如果考虑文本的语 案),注明垃圾邮件类型(如医药广告”后提交给 言种类问题,垃圾邮件制造者可以添加多语言的文 系统; 字信息,而这无疑又增加了文字识别的难度 2)系统提取出截图的特征信息并导入到一个 数据区中.这个数据区维护着从所有垃圾图片的截 Discount Pharmacy Online 图中提取的特征信息,它扮演了“黑名单的角色。 Special offers:Save up to 8O% GRA ONLYS2间 任何含有黑名单中某项内容的图片都将视为垃 CIALIS ONLY 52.08 VALIUM ON城YZ0 圾图片处理; PHENTERMINE ONLY 5388 3)一旦有新的邮件出现,系统先检测该邮件是 For moren Pledeck 否含有图片,如果有,则提取出图片特征信息,用它 Jist type:www.VIPRX2.org e aduressouerEr kry 的特征信息至2)所生成的“黑名单中查找,一旦匹 配,则表示在该邮件识别出了垃圾图片,将此垃圾邮 件过滤: 4)前3步实际上是针对新进入的垃圾邮件的 检测与过滤操作,同时也有必要对收件箱中之前已 图1经过处理之后的垃圾图片 收取的邮件进行垃圾邮件扫描,因为一旦用户修改 Fig 1 mage processed by the spammer 了某条垃圾邮件判别规则,系统有必要对既有的邮 从另一个角度来看,关于垃圾邮件的定义本身 件重新进行过滤操作 就是个难题),仅通过一个算法或者规则去判别垃 圾邮件是不现实的,因为“垃圾邮件”只是一个相对 2基于SFT特征的子图匹配 的定义,并不存在一个绝对的评判标准能够完全正 本文提出的图片垃圾邮件过滤系统的关键部分 确地进行区分,所以应该根据具体用户的意见进行 是一个图像匹配模块.图像匹配是虚拟现实与计算 垃圾邮件的识别与过滤.比如对于普通人来说,推销 机视觉等领域中的一个重要课题,其中基于特征的 化工材料的广告邮件是标准的垃圾邮件,但对于某 图像匹配一直是研究热点,目前己有众多的匹配算 个化工厂的经理来说,这些邮件却能很好地帮助他 法,它们对于不同环境、不同要求下的图像工作各自 了解市场上的价格信息,这些广告邮件就不再是垃 具有不同的效果.在基于特征的匹配技术中,其首要 圾邮件,而是非常有用的信息渠道.垃圾邮件不存在 任务是提取稳定的特征,并进行描述.常用的方法有 普遍适用的具体评判准则,而应该属于个性化的定 基于空间关系的匹配算法、基于不变量描述子的匹 义,交由邮件用户做具体的判断是较为合理的, 配算法、金字塔算法、小波算法等等.不同的算法所 此外,由于图片垃圾邮件绝大部分是广告邮件, 适用的对象不尽相同.因此,针对图片垃圾邮件过滤 1994-2009 China Academic Joural Electronic Publishing House.All rights reserved.http://www.cnki.net
户自己定义. 先由用户抓取一些截图 ,比如某封邮件 或者网页广告 ,系统将用户的所有截图存入一个 “图片黑名单 ”. 对于每一封新到的图片邮件 ,系统 都会提取其内嵌的图片 ,在黑名单中查找是否存在 与之类似的图片 ,一旦匹配 ,说明这封邮件的图片含 有该用户先前定义的垃圾图片内容 ,那么也就认定 该邮件是一封垃圾邮件. 1 方 法 目前大部分图片过滤方法主要是针对广告图片 中的文字内容进行提取与分析. 这种针对图片文字 的操作往往难以见效 ,垃圾邮件制造者可以很容易 地做一些预处理而躲避过滤器的检测. 举一个简单 的例子 ,图 1是一幅加过噪声并且旋转过一定角度 的广告图片 ,人眼可以很清楚地识别其广告内容 ,但 是要让一个字符识别程序处理这类图片往往是费尽 周折并且识别率很低. 进一步讲 ,如果考虑文本的语 言种类问题 ,垃圾邮件制造者可以添加多语言的文 字信息 ,而这无疑又增加了文字识别的难度. 图 1 经过处理之后的垃圾图片 Fig. 1 Image p rocessed by the spammer 从另一个角度来看 ,关于垃圾邮件的定义本身 就是个难题 [ 5 ] ,仅通过一个算法或者规则去判别垃 圾邮件是不现实的 ,因为“垃圾邮件 ”只是一个相对 的定义 ,并不存在一个绝对的评判标准能够完全正 确地进行区分 ,所以应该根据具体用户的意见进行 垃圾邮件的识别与过滤. 比如对于普通人来说 ,推销 化工材料的广告邮件是标准的垃圾邮件 ,但对于某 个化工厂的经理来说 ,这些邮件却能很好地帮助他 了解市场上的价格信息 ,这些广告邮件就不再是垃 圾邮件 ,而是非常有用的信息渠道. 垃圾邮件不存在 普遍适用的具体评判准则 ,而应该属于个性化的定 义 ,交由邮件用户做具体的判断是较为合理的. 此外 ,由于图片垃圾邮件绝大部分是广告邮件 , 无论广告的产品内容如何变化 ,生产商的相关信息 (例如商标图案 )却往往是固定不变的 ,所以垃圾图 片的局部内容重复性很高. 针对这一特性 ,可以利用 这部分重复性高的子图内容去识别同属一系列的广 告垃圾图片. 基于上述考虑 ,提出了一个过滤图片垃圾邮件 的方法 :通过用户从一些垃圾邮件中指定他感兴趣 的子图区域并提供给过滤系统 ,继而系统依据这些 子图对每封收到的邮件进行图像识别 ,一旦发现邮 件图片中含有与之匹配的可疑内容 ,则判定该邮件 为垃圾邮件. 如图 2所示 ,系统的整个工作流程按照以下 4 步执行 : 1)用户发现某封邮件含有垃圾图片 ,继而截取 图片中的某块子区域内容 (如特定的一段文字 ,广 告公司商标图案或者其他具有代表性的文字或图 案 ) ,注明垃圾邮件类型 (如“医药广告 ”)后提交给 系统 ; 2)系统提取出截图的特征信息并导入到一个 数据区中. 这个数据区维护着从所有垃圾图片的截 图中提取的特征信息 ,它扮演了“黑名单 ”的角色. 任何含有“黑名单 ”中某项内容的图片都将视为垃 圾图片处理 ; 3)一旦有新的邮件出现 ,系统先检测该邮件是 否含有图片 ,如果有 ,则提取出图片特征信息 ,用它 的特征信息至 2)所生成的“黑名单 ”中查找 ,一旦匹 配 ,则表示在该邮件识别出了垃圾图片 ,将此垃圾邮 件过滤 ; 4)前 3步实际上是针对新进入的垃圾邮件的 检测与过滤操作 ,同时也有必要对收件箱中之前已 收取的邮件进行垃圾邮件扫描 ,因为一旦用户修改 了某条垃圾邮件判别规则 ,系统有必要对既有的邮 件重新进行过滤操作. 2 基于 SIFT特征的子图匹配 本文提出的图片垃圾邮件过滤系统的关键部分 是一个图像匹配模块. 图像匹配是虚拟现实与计算 机视觉等领域中的一个重要课题 ,其中基于特征的 图像匹配一直是研究热点 ,目前已有众多的匹配算 法 ,它们对于不同环境、不同要求下的图像工作各自 具有不同的效果. 在基于特征的匹配技术中 ,其首要 任务是提取稳定的特征 ,并进行描述. 常用的方法有 基于空间关系的匹配算法、基于不变量描述子的匹 配算法、金字塔算法、小波算法等等. 不同的算法所 适用的对象不尽相同. 因此 ,针对图片垃圾邮件过滤 第 5期 陈俊伟 ,等 :基于截图内容的图片垃圾邮件过滤系统 ·417·
·418- 智能系统学报 第3卷 问题,选择图像匹配算法要结合垃圾图片的特性 对图像变形、旋转、加噪声等干扰具有特别强的鲁棒 为了躲避检测,垃圾邮件制造者往往会将图片 性.基于尺度不变特征变换(scale invariant feature 做一些处理以起到干扰过滤器的效果.图1是一个 transfom,SFT)的特征匹配算法是特征匹配研究领 比较典型的例子,广告图片在经过添加噪声、旋转一 域比较成功的一种算法,该算法的最大优点在于能 定角度后可以很轻松地通过普通过滤器的检测,即 提取稳定的特征,在图像发生平移、旋转、仿射变换、 使过滤器能够检测出来,往往时间上也要付出相当 视角变换、光照变换情况下解决图像匹配问题,从而 大的代价.为此,垃圾图片的图像匹配算法应该能够 可以实现差异较大的不同图像之间的特征匹配61 等待 用户截图 提取截特征 将新获取的特祉向量存入黑名单 收取邮件 提取收件箱中既有邮件的图片 特征并去黑名单中查找匹配项 、有新邮件 N 、存在匹配项 提取邮件图片的特征 等待 从黑名单中查找匹配项 该邮件是垃圾邮件 等待 、存在匹配项 该邮件为垃圾邮件 等待 图2系统流程图 Fig 2 Flow chart of the system 根据上述特点,SFT匹配算法对于检测垃圾图 L(x,g,0)=G(x,go)I(x.y).(2 片来说是相当合适的 高斯差分(difference of Gaussian,DoG)滤波算 21特征向量的生成 法常用来检测图像边缘1.DoG算子的定义如下: 1)尺度空间极值检测 D(x,y.)=(G(x.y,ko G(x,y,I(x,y)= 尺度空间理论最早出现于计算机视觉领域.在 L(x,y.ko )L(x,y.) (3) 很多情况下,图像中某一尺度下不容易看出或获取 式中:k是尺度变量因子.通过查找DoG极值点,就 的特性,在另外的尺度下很容易看出来或检测到.所 能够初步确定特征点的位置和所在尺度.事实上, 以利用多尺度常可以更有效地提取图像特征,获取 DoG算子的原理就是由2个不同尺度的高斯滤波器 图像内容.Koendetink利用扩散方程来描述尺度空 相减之后再对原来的图像进行滤波,因此计算十分 间滤波过程,并由此证明高斯核是实现尺度变换的 方便高效.通过建立DoG金字塔进行极值检测,所 惟一变换核.二维高斯核如下式所示: 2n0e8e2 得的极值点正好包括需要的稳定特征点, Gxy0)=、 (1) 2)确定特征点位置 式中:·代表高斯正态分布.对于任意一幅图像 极值检测得到的仅是候选关键点的集合,为了 1(x,以,其尺度空间为 精确得到稳健的特征点,还必须通过2步检测: ①该关键点不能是低对比度的点,M.Brown和 1994-2009 China Academic Journal Electronic Publishing House.All rights reserved.http://www.cnki.net
问题 ,选择图像匹配算法要结合垃圾图片的特性. 为了躲避检测 ,垃圾邮件制造者往往会将图片 做一些处理以起到干扰过滤器的效果. 图 1是一个 比较典型的例子 ,广告图片在经过添加噪声、旋转一 定角度后可以很轻松地通过普通过滤器的检测 ,即 使过滤器能够检测出来 ,往往时间上也要付出相当 大的代价. 为此 ,垃圾图片的图像匹配算法应该能够 对图像变形、旋转、加噪声等干扰具有特别强的鲁棒 性. 基于尺度不变特征变换 ( scale invariant feature transform, SIFT)的特征匹配算法是特征匹配研究领 域比较成功的一种算法 ,该算法的最大优点在于能 提取稳定的特征 ,在图像发生平移、旋转、仿射变换、 视角变换、光照变换情况下解决图像匹配问题 ,从而 可以实现差异较大的不同图像之间的特征匹配 [ 6 ] . 图 2 系统流程图 Fig. 2 Flow chart of the system 根据上述特点 , SIFT匹配算法对于检测垃圾图 片来说是相当合适的. 2. 1 特征向量的生成 1) 尺度空间极值检测 尺度空间理论最早出现于计算机视觉领域. 在 很多情况下 ,图像中某一尺度下不容易看出或获取 的特性 ,在另外的尺度下很容易看出来或检测到. 所 以利用多尺度常可以更有效地提取图像特征 ,获取 图像内容. Koendetink利用扩散方程来描述尺度空 间滤波过程 ,并由此证明高斯核是实现尺度变换的 惟一变换核. 二维高斯核如下式所示 : G ( x, y,σ) = 1 2πσ2 e - ( x 2+y 2) /2σ2 . (1) 式中 :σ代表高斯正态分布. 对于任意一幅图像 I( x, y) ,其尺度空间为 L ( x, y,σ) = G ( x, y,σ) 3 I( x, y). (2) 高斯差分 ( difference of Gaussian, DoG)滤波算 法常用来检测图像边缘 [ 728 ] . DoG算子的定义如下 : D ( x, y,σ) = (G ( x, y, kσ) - G ( x, y,σ) ) 3 I( x, y) = L ( x, y, kσ) - L ( x, y,σ). (3) 式中 : k是尺度变量因子. 通过查找 DoG极值点 ,就 能够初步确定特征点的位置和所在尺度. 事实上 , DoG算子的原理就是由 2个不同尺度的高斯滤波器 相减之后再对原来的图像进行滤波 ,因此计算十分 方便高效. 通过建立 DoG金字塔进行极值检测 ,所 得的极值点正好包括需要的稳定特征点. 2) 确定特征点位置 极值检测得到的仅是候选关键点的集合 ,为了 精确得到稳健的特征点 ,还必须通过 2步检测 : ①该关键点不能是低对比度的点 , M. B rown和 ·418· 智 能 系 统 学 报 第 3卷
第5期 陈俊伟,等:基于截图内容的图片垃圾邮件过滤系统 ·419- D.Lowe在文献[9]中论述了通过拟合三维二次方 主曲率与H矩阵的特征值成比例,根据文献[71,不 程,可以找到低对比度的点; 具体求特征值,求其比例rato设a是最大幅值特 ②驼不能是边缘点,因为DoG算子会产生较强 的边缘响应.去除边缘点有助于增强匹配的稳定性, 征,B是次小的,r一分,则ao如式5所示 提高抗噪声能力.一个定义不好的DoG算子的极值 Tr(H)=Ds+Dy=a +B. 在跨越边缘的地方有较大的曲率,而在垂直边缘的 Det(H)D Dy-(D)2=aB. 方向有较小的曲率.曲率可以通过计算一个22的 Hessian矩阵得到 ratio Ir(H)' a±.+业 Det(H) aB (5) D H= 4) 通过式(5)求出ratio,常取r=10,若atio≤ L Dy 通过Hessian矩阵H来计算主曲率,由于D的 +卫则保留该特征点:否则就丢弃 3)确定特征点主方向 为了使算子具备旋转不变性,需要给每个关键 点指定一个方向参数,这个方向参数可以通过计算 关键点的梯度大小和方向来获得 m(x以=N亿+1,以-L-1,以2+亿(y+)-L(xy-1)户, 0(x以=tan Lxy+1业-L(xy-山 (6) (L(x+1,y以-L(x-1,y2 式(6)为(x以处的梯度值和方向.L为所用的 每个特征点各自所在的尺度,(x,y以要确定是哪一 阶的哪一层.在实际计算过程中,在以特征点为中心 的邻域窗口内采样,并用梯度方向直方图统计邻域 像素梯度方向.该直方图范围是0°~360°,其中每 10°一个柱,总共36个柱.梯度方向直方图的峰值则 代表了该特征点处邻域梯度的主方向,即确定为该 特征点的主方向. 4)生成特征向量 以特征点为中心取88的窗口不包括特征 点所在的行和列).如图3上部分所示,中央黑点为 米米 当前特征点的位置,每个小格代表特征点邻域所在 尺度空间的一个像素,每个小格都带有一个箭头, 米米 它的方向代表该像素的梯度方向,长度代表梯度模 值,图中的圆圈内部代表高斯加权的范围,越靠近特 图3图像梯度及特征点描述符 征点的像素,梯度方向信息贡献越大.然后在每4× Fig 3 mage gradient and feature descriptor 4的图像小块上计算8个方向的梯度方向直方图, 特征点集合为F。=尤,,,,B的特征集合为 绘制每个梯度方向的累加值,形成一个种子点,如图 F。=尤,左,R,其中N。、N6为A、B的特征点个 3下部分所示.此图中一个特征点由22共4个种 数.通常以Euclidean距离作为SFT描述子的距离 子点组成,每个种子点有8个方向向量信息,可产生 函数,其公式表示为 22共32个数据,形成32维的SFT特征向量 d(Fa,F)= ∑2 (7) 即特征点描述符,所需的图像数据块为88这种 邻域方向性信息联合的思想增强了算法对噪声的抗 然后按照distance-ratio准则进行匹配,即根 干扰性,同时对于含有定位误差的特征匹配也提供 据最近邻的距离d与次近邻距离d的比率来确定 了较好的容错性 是否匹配到特征点,定义如下: 22特征向量的匹配 ratio =d /d. (8 设欲匹配的2张图像A、B,从A中提取的SFT 设e为预先设定的阈值,如果at大于e,则说明 1994-2009 China Academic Journal Electronic Publishing House.All rights reserved.http://www.cnki.net
D. Lowe在文献 [ 9 ]中论述了通过拟合三维二次方 程 ,可以找到低对比度的点 ; ②它不能是边缘点 ,因为 DoG算子会产生较强 的边缘响应. 去除边缘点有助于增强匹配的稳定性 , 提高抗噪声能力. 一个定义不好的 DoG算子的极值 在跨越边缘的地方有较大的曲率 ,而在垂直边缘的 方向有较小的曲率. 曲率可以通过计算一个 2 ×2的 Hessian矩阵得到 H = Dxx Dxy Dxy Dyy . (4) 通过 Hessian矩阵 H 来计算主曲率 ,由于 D的 主曲率与 H 矩阵的特征值成比例 ,根据文献 [ 7 ],不 具体求特征值 ,求其比例 ratio. 设 α是最大幅值特 征 ,β是次小的 , r = α β ,则 ratio如式 (5)所示. T r(H) = Dxx + Dxy =α +β, D et(H) = DxxDyy - (Dxy ) 2 =αβ, ra tio = T r(H) 2 D et(H) = (α +β) 2 αβ = ( r + 1) 2 r . (5) 通过式 ( 5)求出 ratio,常取 r = 10, 若 ratio≤ ( r + 1) 2 r ,则保留该特征点;否则就丢弃. 3) 确定特征点主方向 为了使算子具备旋转不变性 ,需要给每个关键 点指定一个方向参数 ,这个方向参数可以通过计算 关键点的梯度大小和方向来获得. m ( x, y) = (L ( x + 1, y) - L ( x - 1, y) ) 2 + (L ( x, y + 1) - L ( x, y - 1) ) 2 , θ( x, y) = tan - 1 L ( x, y + 1) - L ( x, y - 1) L ( x + 1, y) - L ( x - 1, y) . (6) 式 (6)为 ( x, y)处的梯度值和方向. L为所用的 每个特征点各自所在的尺度 , ( x, y)要确定是哪一 阶的哪一层. 在实际计算过程中 ,在以特征点为中心 的邻域窗口内采样 ,并用梯度方向直方图统计邻域 像素梯度方向. 该直方图范围是 0°~360°,其中每 10°一个柱 ,总共 36个柱. 梯度方向直方图的峰值则 代表了该特征点处邻域梯度的主方向 ,即确定为该 特征点的主方向. 4) 生成特征向量 以特征点为中心取 8 ×8的窗口 (不包括特征 点所在的行和列 ). 如图 3上部分所示 ,中央黑点为 当前特征点的位置 ,每个小格代表特征点邻域所在 尺度空间的一个像素 , 每个小格都带有一个箭头 , 它的方向代表该像素的梯度方向 ,长度代表梯度模 值 ,图中的圆圈内部代表高斯加权的范围 ,越靠近特 征点的像素 ,梯度方向信息贡献越大. 然后在每 4 × 4的图像小块上计算 8个方向的梯度方向直方图 , 绘制每个梯度方向的累加值 ,形成一个种子点 ,如图 3下部分所示. 此图中一个特征点由 2 ×2共 4个种 子点组成 ,每个种子点有 8个方向向量信息 ,可产生 2 ×2 ×8共 32个数据 ,形成 32维的 SIFT特征向量 即特征点描述符 ,所需的图像数据块为 8 ×8. 这种 邻域方向性信息联合的思想增强了算法对噪声的抗 干扰性 ,同时对于含有定位误差的特征匹配也提供 了较好的容错性. 2. 2 特征向量的匹配 设欲匹配的 2张图像 A、B ,从 A 中提取的 SIFT 图 3 图像梯度及特征点描述符 Fig. 3 Image gradient and feature descrip tor 特征点集合为 Fa = { f a 1 , f a 2 , …, f a N a }, B 的特征集合为 Fb = { f b 1 , f b 2 , …, f b N b },其中 Na、Nb 为 A、B 的特征点个 数. 通常以 Euclidean距离作为 SIFT描述子的距离 函数 ,其公式表示为 d ( Fa , Fb ) = ∑ n i =1 ( f ( a) i - f ( b) i ) 2 . (7) 然后按照 distance2ratio准则 [ 7 ]进行匹配 ,即根 据最近邻的距离 d1 与次近邻距离 d2 的比率来确定 是否匹配到特征点 ,定义如下 : ratio = d1 / d2 . (8) 设ε为预先设定的阈值,如果 ratio大于ε, 则说明 第 5期 陈俊伟 ,等 :基于截图内容的图片垃圾邮件过滤系统 ·419·
·420- 智能系统学报 第3卷 匹配成功,否则失败根据文献7建议,本文ε取044 家公司的垃圾图片 匹配过程如下: 系统提取截图的特征信息(图4(b),并且保 l)用①-Tree为F。的全部元素建立索引; 存至“黑名单中.系统每读入一封内嵌有图片的电 2)根据式(7),使用BBF(best-bin-first)搜索算 子邮件,都会先提取出内置图片的特征信息,并拿它 法得到F,中每个元素k在KD-Tree中的近似k 去与“黑名单中事先截取下的子图做图像特征匹 近邻这里k取2).BBF算法寻找的是特征向量的 配.一旦被系统发现该邮件图片与用户之前获取的 近似最近邻,在不显著降低匹配精度的情况下,这种 截图有足够多的相似点(图4(c)),那么就有理由 算法比常规搜索快得多.设返回的2个最近邻特征 相信这张图片正是一幅类似的广告图片,而这封邮 点为、: 件将被标上“ad的广告(advertising)邮件标志(图 3)根据式(8)确定万是否是k的有效匹配: 4(d)),最后由系统过滤掉 4)对所有k重复以上过程,得到F,的特征点 kk,与F,匹配到的所有特征点对(matched pairs) For more informaton,Please do not click 的集合 e www.VIPRX1.org dress bar ofyou browser,then press the Ente 3系统结构及运行实例 (a)截图 31系统结构 设计的图片垃圾邮件过滤系统主要由以下4个 功能模块组成: 1)邮件平台.这是本邮件系统赖以运行的框架 e 性功能模块该模块具备完善的邮件收发功能,以及 (b)截图的SFT特征 日常的邮件管理与维护功能.它提供给用户一个友 For moce indormaton,Please do notclck 好的操作界面,最终的程序运行效果也都是通过该 www.VIPRX1.org 邮件平台来显示的: 2)截图功能模块.用户使用这个模块来获取某 macy Online 张截图,并将之传给特征向量析取器.该模块提供了 pt和80% 一项系统与用户间的交互操作,即系统首先自动搜 寻图片中特征点密度最高的子区域并标记出,用户 可以根据系统的建议决定是否选择这块截图: 3)特征向量析取器.系统需要完成一些预处理 st iype:www.ViPRX2.org had0re5 fyou owe红en8heE 来协助后面的图像匹配工作.采用了一个图像特征 析取器来预先提取图片的SFT特征向量,这样一来 图像的匹配工作就由图像与图像的匹配转换成了向 (c)找到了匹配项 量与向量的匹配,这将大大减少时间开销: Pics Kind 4)图像匹配模块.这个模块在整个系统的起到 图像识别作用.邮件图片与所有截图的特征向量经 特征向量析取器处理过后送至垃圾图像识别器进行 匹配,最终匹配结果将被反馈到邮件平台 3.2运行实例 以广告垃圾邮件为例,介绍本系统具体的检测 垃圾邮件的运行过程.一般来说,广告图片中往往在 显眼的位置上存在一个公司商标或者说某块标志性 图像区域.如图4(a)所示,截取了广告图片中的一 个子图,它显示有公司的网址信息,而一般情况下这 (d)搜寻结果 个子图也同时存在于该公司发出的其他广告图片 图4检测广告图片实例 中.就认为凡是含有此子图的图片都是来自于同一 Fig 4 Example of detecting advertising mage 1994-2009 China Academic Journal Electronic Publishing House.All rights reserved.http://www.cnki.net
匹配成功,否则失败.根据文献 [7]建议,本文ε取 0. 44. 匹配过程如下 : 1) 用 KD2Tree为 Fb 的全部元素建立索引; 2) 根据式 (7) ,使用 BBF( best2bin2first)搜索算 法 [ 11 ]得到 Fa 中每个元素 ki 在 KD2Tree中的近似 k 近邻 (这里 k取 2). BBF算法寻找的是特征向量的 近似最近邻 ,在不显著降低匹配精度的情况下 ,这种 算法比常规搜索快得多. 设返回的 2个最近邻特征 点为 f1、f2 ; 3) 根据式 (8)确定 f1 是否是 ki 的有效匹配; 4) 对所有 ki 重复以上过程 , 得到 Fb 的特征点 k1 2kN b与 Fa 匹配到的所有特征点对 (matched pairs) 的集合. 3 系统结构及运行实例 3. 1 系统结构 设计的图片垃圾邮件过滤系统主要由以下 4个 功能模块组成 : 1)邮件平台. 这是本邮件系统赖以运行的框架 性功能模块. 该模块具备完善的邮件收发功能 ,以及 日常的邮件管理与维护功能. 它提供给用户一个友 好的操作界面 ,最终的程序运行效果也都是通过该 邮件平台来显示的; 2)截图功能模块. 用户使用这个模块来获取某 张截图 ,并将之传给特征向量析取器. 该模块提供了 一项系统与用户间的交互操作 ,即系统首先自动搜 寻图片中特征点密度最高的子区域并标记出 ,用户 可以根据系统的建议决定是否选择这块截图; 3)特征向量析取器. 系统需要完成一些预处理 来协助后面的图像匹配工作. 采用了一个图像特征 析取器来预先提取图片的 SIFT特征向量 ,这样一来 图像的匹配工作就由图像与图像的匹配转换成了向 量与向量的匹配 ,这将大大减少时间开销; 4)图像匹配模块. 这个模块在整个系统的起到 图像识别作用. 邮件图片与所有截图的特征向量经 特征向量析取器处理过后送至垃圾图像识别器进行 匹配 ,最终匹配结果将被反馈到邮件平台. 3. 2 运行实例 以广告垃圾邮件为例 ,介绍本系统具体的检测 垃圾邮件的运行过程. 一般来说 ,广告图片中往往在 显眼的位置上存在一个公司商标或者说某块标志性 图像区域. 如图 4 ( a)所示 ,截取了广告图片中的一 个子图 ,它显示有公司的网址信息 ,而一般情况下这 个子图也同时存在于该公司发出的其他广告图片 中. 就认为凡是含有此子图的图片都是来自于同一 家公司的垃圾图片. 系统提取截图的特征信息 (图 4 ( b) ) ,并且保 存至“黑名单 ”中. 系统每读入一封内嵌有图片的电 子邮件 ,都会先提取出内置图片的特征信息 ,并拿它 去与“黑名单 ”中事先截取下的子图做图像特征匹 配. 一旦被系统发现该邮件图片与用户之前获取的 截图有足够多的相似点 (图 4 ( c) ) ,那么就有理由 相信这张图片正是一幅类似的广告图片 ,而这封邮 件将被标上“ad”的广告 ( advertising)邮件标志 (图 4 ( d) ) ,最后由系统过滤掉. ( a) 截图 ( b) 截图的 SIFT特征 ( c) 找到了匹配项 ( d) 搜寻结果 图 4 检测广告图片实例 Fig. 4 Examp le of detecting advertising image ·420· 智 能 系 统 学 报 第 3卷
第5期 陈俊伟,等:基于截图内容的图片垃圾邮件过滤系统 ·421· 库中去搜寻匹配项,并将匹配的图片进行归类,将系 4 实验 统归类结果与人工分类结果进行对比,计算不同组 利用Mak2的垃圾图片库作为样本图片数据 与不同P值下系统归类的准确率Precision、查全率 库进行图片分类实验.共有图片3534张,发现其中 Recall!以及时间开销Tme-cost其中,准确率和查全 有的图片彼此近似,甚至完全一致(如图5所示), 率分别表示为 只存在某些细微的差别,如尺寸大小、噪声以及个别 EP Precision E (9) 文字有所改变等等,有理由认为这样的图片可以归 为同一类图片.本实验总共归类26类 Recall E E5+E一 (10) 式中:E表示被正确分类的垃圾图片数目,E表 Symboi: MISJ.PK Price: $0.17 示被误认为是垃圾图片的正常图片的数目,E一“表 5 day target:$0.95 示被误认为是正常图片的垃圾图片的数目.Tme Recommendation:Aggresive Buy c0st的值为不同P值下系统归类26组图片所用的 We're talking it all the way to $0.95 时间开销与P为100%时所用的时间开销的比值. Watch it like a hawk and get in before the rush I 将26组Precision、Recall!以及Time-cost分别取 均值,得图6据图知,三者的值都随着P值的增大 (a)原始的广告图片 而递增,当P介于10%~60%范围时,Tme-cost始 终大于Precision和Reca止当P介于60%~100%范 Symbol: MISJ.PK 围时,Precision和Recall均高于Tie-cost,可知 Price: $0.17 5 day target:$0.95 60%是系统均衡Precision和Recall-与Time-cost的 Recommendation:Aggresive Buy 最佳P阈值,即截图面积占原图面积36%的时候垃 We're talking it all the way to $0.95 圾图片分类效果最好,同时用时较省 Watch it like a hawk and get in before the rush 100 80 (b)添加了噪音的同一类图片 60 -Precision Recall --Time-cost APPM.PK APPM.PKAPPM.PK 20 0- Symbol: APPM.PK 102030405060708090100 Price: s027(upto80.00%) P值% 5 day target:1 Recommendation:Very Aggresive Buy 图6P10%到100%取不同值时Precision、 Huge news expected out on APPM,get in before the wire. We're talking it all the way to $1.30 Recall和Tmc-cost均值的折线图 Watch it like a hawk and get in before the rush lll Fig 6 The chart of the average value of Precision, APPM.PK APPM.PK APPM.PK Recall and Tme-cost when P varies from 10%p 100% 5结束语 (c)改变了部分文字内容的同一类图片 本文提出的垃圾邮件过滤系统是图像匹配算法 图5人工归类示例 在反垃圾邮件技术领域的一次新的应用,它赋予用 Fig 5 Manual group ing 户自主权去指定垃圾图片的子图样本,这使得邮件 从每类图片中随机挑选出一张作为原图进行截 过滤更具有针对性和灵活性.与其他分析文字内容 图.系统根据截图宽高)度占原图宽(高)度的百分 的过滤方法相比,本系统直接将文字内容视为图片 比P.从原图中自动获取特征点密度最高的截图.P 处理,这样可以有效抵抗一定的噪声以及形变处理, 的值从10%~100%变化,每次递增10%,所以每张 确保了过滤性能与图片文字属性无关 原图共产生10张截图.那么所有人工分类的26组 图片共有260份截图,构成了一个“黑名单” 参考文献: 系统依次用所有的260份截图去样本图片数据 [1]HEYMANN P,KOUTR IKA G,HECTOR G M.Fighting 1994-2009 China Academic Journal Electronic Publishing House.All rights reserved.http://www.cnki.net
4 实 验 利用 Mark [ 12 ]的垃圾图片库作为样本图片数据 库进行图片分类实验. 共有图片 3 534张 ,发现其中 有的图片彼此近似 ,甚至完全一致 (如图 5所示 ) , 只存在某些细微的差别 ,如尺寸大小、噪声以及个别 文字有所改变等等 ,有理由认为这样的图片可以归 为同一类图片. 本实验总共归类 26类. ( a)原始的广告图片 ( b)添加了噪音的同一类图片 ( c)改变了部分文字内容的同一类图片 图 5 人工归类示例 Fig. 5 Manual group ing 从每类图片中随机挑选出一张作为原图进行截 图. 系统根据截图宽 (高 )度占原图宽 (高 )度的百分 比 P,从原图中自动获取特征点密度最高的截图. P 的值从 10% ~100%变化 ,每次递增 10% ,所以每张 原图共产生 10张截图. 那么所有人工分类的 26组 图片共有 260份截图 ,构成了一个“黑名单 ”. 系统依次用所有的 260份截图去样本图片数据 库中去搜寻匹配项 ,并将匹配的图片进行归类 ,将系 统归类结果与人工分类结果进行对比 ,计算不同组 与不同 P值下系统归类的准确率 Precision、查全率 Recall以及时间开销 Time2cost,其中 ,准确率和查全 率分别表示为 Precision = E s→s E s→s + E h→s , (9) Recall = E s→s E s→s + E s→h . (10) 式中 : E s→s表示被正确分类的垃圾图片数目 , E h→s表 示被误认为是垃圾图片的正常图片的数目 , E s→h表 示被误认为是正常图片的垃圾图片的数目. Time2 cost的值为不同 P值下系统归类 26组图片所用的 时间开销与 P为 100%时所用的时间开销的比值. 将 26组 Precision、Recall以及 Time2cost分别取 均值 ,得图 6. 据图知 , 三者的值都随着 P值的增大 而递增 ,当 P介于 10% ~60%范围时 , Time2cost始 终大于 Precision和 Recall;当 P介于 60% ~100%范 围时 , Precision 和 Recall 均 高 于 Time2cost, 可 知 60%是系统均衡 Precision和 Recall与 Time2cost的 最佳 P阈值 ,即截图面积占原图面积 36%的时候垃 圾图片分类效果最好 ,同时用时较省. 图 6 P 10%到 100%取不同值时 Precision、 Recall和 Time2cost均值的折线图 Fig. 6 The chart of the average value of Precision, Recall and Time2cost when P varies from 10% to 100% 5 结束语 本文提出的垃圾邮件过滤系统是图像匹配算法 在反垃圾邮件技术领域的一次新的应用 ,它赋予用 户自主权去指定垃圾图片的子图样本 ,这使得邮件 过滤更具有针对性和灵活性. 与其他分析文字内容 的过滤方法相比 ,本系统直接将文字内容视为图片 处理 ,这样可以有效抵抗一定的噪声以及形变处理 , 确保了过滤性能与图片文字属性无关. 参考文献 : [ 1 ] HEYMANN P, KOUTR IKA G, HECTOR G M. Fighting 第 5期 陈俊伟 ,等 :基于截图内容的图片垃圾邮件过滤系统 ·421·
·422· 智能系统学报 第3卷 pam on social web sites a survey of appoaches and future [10]LOWED G Distinctive mage features from scake-invari- challenges [J].IEEE Intemet Computing 2007,11 (6): ant keypoints [J ]Intemational Joumal of Computer Vi 3645 sion,2004,60(11):91-110 [2]ARADHYE H B,MYERS G K,HERSON J A.mage a- [11]BEIS J,LOWE D G Shape indexing using approxmate nalysis for efficient categorizaton of mage-based spa e- nearest-neighbour search in high dmensional spaces mail[C]//Eighth Intemational Conference on Document [C]//Proceedings of the 1997 IEEE Computer Society Analysis and Recognition CDAR05).Seoul South Kore- Conference on Computer Vision and Pattem Recognition a,2005:914918 San Juan,PR,USA,1997:1000-1006 [3]KUMAGA IN,AR IISUGIM.On app lying an mage pro- [12 DREDZE M,GEVAR YAHU R,BACHRACH A E cessing technique o detecting pa [C]//Proceedings of Leaming fast classifiers for mage pam[C]//Proceedings the 21"Intemational Conference on Data Engineering To- of the Conference on Email and Anti-Spam (CEAS). ky0,Japan,2005:164-168t West Point,NY,US,2007:255-261. [4]B IGGD B,FUMERA G,PLLAI L ROL I E mage spam 作者简介: filtering using visual infomation [C]//14th Intemational 陈俊伟,男,1984年生,硕士研究 Conference on mage Analysis and Processing KCAP 生.主要研究方向为图像处理和模式识 2007).Modena,ay,2007:105-110 别 [5]HOLMES N.In defense of spam [J].Computer,2005, 38(4):86-88 [6 LOW E D G Object recognition fiom bcal scale-invariant features[C ]/Intemational Conference on Computer Vi 张丽春,女,1982年生,硕士研究 sion Corfu,Greece,1999:1150-1157 生,主要研究方向为图像处理和模式识 [7]游素亚,杨静.图像边缘检测技术的发展与现状[J] 别,发表论文2篇」 电子科技导报,1995,(8):25-28 YOU Suya,YANG Jing mage edge detection and its de- velpment[J].Electronic Science&Technology Review, 1995(8):25-28 [8]VNARELLI F,W LL AMS K I Discovering hidden fea- 吕岳,男,1968年生,教授,博士 tures with Gaussian processes regression[C]//Proceedings 生导师.上海市自动化学会模式识别专 of the 1998 Conference on Advances in Neural Infomation 业委员会副主任,上海市计算机学会普 Processing Systems II Cambridge,MA,USA:M IT Press, 适计算专业委员会副主任,主要研究方 1999:613-619 向为图像处理、模式识别智能系统, [9]BROWN M,LOW E D G Invariant features fiom interest 授权专利2项,发表论文60余篇 point groups [C]//British Machine Vison Conference, BMVC 2002 Cardiff,Wales,2002:656-665. 1994-2009 China Academic Journal Electronic Publishing House.All rights reserved.http://www.cnki.net
spam on social web sites: a survey of app roaches and future challenges [J ]. IEEE Internet Computing, 2007, 11 ( 6) : 36245. [ 2 ] ARADHYE H B, MYERS G K, HERSON J A. Image a2 nalysis for efficient categorization of image2based spam e2 mail[ C ] / / Eighth International Conference on Document Analysis and Recognition ( ICDAR’05). Seoul, South Kore2 a, 2005: 9142918. [ 3 ] KUMAGA IN, AR ITSUGIM. On app lying an image p ro2 cessing technique to detecting spam [ C ] / / Proceedings of the 21 st International Conference on Data Engineering. To2 kyo, Japan, 2005: 1642168. [ 4 ] B IGGIO B, FUMERA G, P ILLA I I, ROL I F. Image spam filtering using visual information [ C ] / / 14 th International Conference on Image Analysis and Processing ( ICIAP 2007). Modena, Italy, 2007: 1052110. [ 5 ] HOLMES N. In defense of spam [ J ]. Computer, 2005, 38 (4) : 86288. [ 6 ] LOW E D G. Object recognition from local scale2invariant features[ C ] / / International Conference on Computer V i2 sion. Corfu, Greece, 1999: 115021157. [ 7 ] 游素亚 ,杨 静. 图像边缘检测技术的发展与现状 [J ]. 电子科技导报 , 1995, (8) : 25228. YOU Suya, YANG Jing. Image edge detection and its de2 velopment[ J ]. Electronic Science & Technology Review, 1995 (8) : 25228. [ 8 ] V IVARELL I F, W ILL IAMS K I. D iscovering hidden fea2 tureswith Gaussian p rocesses regression[C ] / / Proceedings of the 1998 Conference on Advances in Neural Information Processing System s II. Cambridge, MA, USA: M IT Press, 1999: 6132619. [ 9 ] BROWN M, LOW E D G. Invariant features from interest point group s [ C ] / / British Machine V ision Conference, BMVC 2002. Cardiff, W ales, 2002: 6562665. [ 10 ] LOW E D G. D istinctive image features from scale2invari2 ant keypoints [ J ]. International Journal of Computer V i2 sion, 2004, 60 (11) : 912110. [ 11 ] BEIS J, LOW E D G. Shape indexing using app roximate nearest2neighbour search in high dimensional spaces [C ] / / Proceedings of the 1997 IEEE Computer Society Conference on Computer V ision and Pattern Recognition. San Juan, PR, USA, 1997: 100021006. [ 12 ] DREDZE M, GEVARYAHU R, BACHRACH A E. Learning fast classifiers for image spam [C ] / / Proceedings of the Conference on E2mail and Anti2Spam ( CEAS). W est Point, NY, US, 2007: 2552261. 作者简介 : 陈俊伟 ,男 , 1984年生 ,硕士研究 生. 主要研究方向为图像处理和模式识 别. 张丽春 ,女 , 1982年生 ,硕士研究 生. 主要研究方向为图像处理和模式识 别 ,发表论文 2篇. 422· 吕 岳 ,男 , 1968年生 ,教授 ,博士 生导师 . 上海市自动化学会模式识别专 业委员会副主任 ,上海市计算机学会普 适计算专业委员会副主任. 主要研究方 向为图像处理、模式识别、智能系统 , 授权专利 2项 ,发表论文 60余篇. · 智 能 系 统 学 报 第 3卷