正在加载图片...
第5期 陈俊伟,等:基于截图内容的图片垃圾邮件过滤系统 ·417- 户自己定义.先由用户抓取一些截图,比如某封邮件 无论广告的产品内容如何变化,生产商的相关信息 或者网页广告,系统将用户的所有截图存入一个 (例如商标图案)却往往是固定不变的,所以垃圾图 “图片黑名单”对于每一封新到的图片邮件,系统 片的局部内容重复性很高.针对这一特性,可以利用 都会提取其内嵌的图片,在黑名单中查找是否存在 这部分重复性高的子图内容去识别同属一系列的广 与之类似的图片,一旦匹配,说明这封邮件的图片含 告垃圾图片 有该用户先前定义的垃圾图片内容,那么也就认定 基于上述考虑,提出了一个过滤图片垃圾邮件 该邮件是一封垃圾邮件 的方法:通过用户从一些垃圾邮件中指定他感兴趣 1方法 的子图区域并提供给过滤系统,继而系统依据这些 子图对每封收到的邮件进行图像识别,一旦发现邮 目前大部分图片过滤方法主要是针对广告图片 件图片中含有与之匹配的可疑内容,则判定该邮件 中的文字内容进行提取与分析.这种针对图片文字 为垃圾邮件 的操作往往难以见效,垃圾邮件制造者可以很容易 如图2所示,系统的整个工作流程按照以下4 地做一些预处理而躲避过滤器的检测.举一个简单 步执行: 的例子,图1是一幅加过噪声并且旋转过一定角度 1)用户发现某封邮件含有垃圾图片,继而截取 的广告图片,人眼可以很清楚地识别其广告内容,但 图片中的某块子区域内容(如特定的一段文字,广 是要让一个字符识别程序处理这类图片往往是费尽 告公司商标图案或者其他具有代表性的文字或图 周折并且识别率很低.进一步讲,如果考虑文本的语 案),注明垃圾邮件类型(如医药广告”后提交给 言种类问题,垃圾邮件制造者可以添加多语言的文 系统; 字信息,而这无疑又增加了文字识别的难度 2)系统提取出截图的特征信息并导入到一个 数据区中.这个数据区维护着从所有垃圾图片的截 Discount Pharmacy Online 图中提取的特征信息,它扮演了“黑名单的角色。 Special offers:Save up to 8O% GRA ONLYS2间 任何含有黑名单中某项内容的图片都将视为垃 CIALIS ONLY 52.08 VALIUM ON城YZ0 圾图片处理; PHENTERMINE ONLY 5388 3)一旦有新的邮件出现,系统先检测该邮件是 For moren Pledeck 否含有图片,如果有,则提取出图片特征信息,用它 Jist type:www.VIPRX2.org e aduressouerEr kry 的特征信息至2)所生成的“黑名单中查找,一旦匹 配,则表示在该邮件识别出了垃圾图片,将此垃圾邮 件过滤: 4)前3步实际上是针对新进入的垃圾邮件的 检测与过滤操作,同时也有必要对收件箱中之前已 图1经过处理之后的垃圾图片 收取的邮件进行垃圾邮件扫描,因为一旦用户修改 Fig 1 mage processed by the spammer 了某条垃圾邮件判别规则,系统有必要对既有的邮 从另一个角度来看,关于垃圾邮件的定义本身 件重新进行过滤操作 就是个难题),仅通过一个算法或者规则去判别垃 圾邮件是不现实的,因为“垃圾邮件”只是一个相对 2基于SFT特征的子图匹配 的定义,并不存在一个绝对的评判标准能够完全正 本文提出的图片垃圾邮件过滤系统的关键部分 确地进行区分,所以应该根据具体用户的意见进行 是一个图像匹配模块.图像匹配是虚拟现实与计算 垃圾邮件的识别与过滤.比如对于普通人来说,推销 机视觉等领域中的一个重要课题,其中基于特征的 化工材料的广告邮件是标准的垃圾邮件,但对于某 图像匹配一直是研究热点,目前己有众多的匹配算 个化工厂的经理来说,这些邮件却能很好地帮助他 法,它们对于不同环境、不同要求下的图像工作各自 了解市场上的价格信息,这些广告邮件就不再是垃 具有不同的效果.在基于特征的匹配技术中,其首要 圾邮件,而是非常有用的信息渠道.垃圾邮件不存在 任务是提取稳定的特征,并进行描述.常用的方法有 普遍适用的具体评判准则,而应该属于个性化的定 基于空间关系的匹配算法、基于不变量描述子的匹 义,交由邮件用户做具体的判断是较为合理的, 配算法、金字塔算法、小波算法等等.不同的算法所 此外,由于图片垃圾邮件绝大部分是广告邮件, 适用的对象不尽相同.因此,针对图片垃圾邮件过滤 1994-2009 China Academic Joural Electronic Publishing House.All rights reserved.http://www.cnki.net户自己定义. 先由用户抓取一些截图 ,比如某封邮件 或者网页广告 ,系统将用户的所有截图存入一个 “图片黑名单 ”. 对于每一封新到的图片邮件 ,系统 都会提取其内嵌的图片 ,在黑名单中查找是否存在 与之类似的图片 ,一旦匹配 ,说明这封邮件的图片含 有该用户先前定义的垃圾图片内容 ,那么也就认定 该邮件是一封垃圾邮件. 1 方 法 目前大部分图片过滤方法主要是针对广告图片 中的文字内容进行提取与分析. 这种针对图片文字 的操作往往难以见效 ,垃圾邮件制造者可以很容易 地做一些预处理而躲避过滤器的检测. 举一个简单 的例子 ,图 1是一幅加过噪声并且旋转过一定角度 的广告图片 ,人眼可以很清楚地识别其广告内容 ,但 是要让一个字符识别程序处理这类图片往往是费尽 周折并且识别率很低. 进一步讲 ,如果考虑文本的语 言种类问题 ,垃圾邮件制造者可以添加多语言的文 字信息 ,而这无疑又增加了文字识别的难度. 图 1 经过处理之后的垃圾图片 Fig. 1 Image p rocessed by the spammer 从另一个角度来看 ,关于垃圾邮件的定义本身 就是个难题 [ 5 ] ,仅通过一个算法或者规则去判别垃 圾邮件是不现实的 ,因为“垃圾邮件 ”只是一个相对 的定义 ,并不存在一个绝对的评判标准能够完全正 确地进行区分 ,所以应该根据具体用户的意见进行 垃圾邮件的识别与过滤. 比如对于普通人来说 ,推销 化工材料的广告邮件是标准的垃圾邮件 ,但对于某 个化工厂的经理来说 ,这些邮件却能很好地帮助他 了解市场上的价格信息 ,这些广告邮件就不再是垃 圾邮件 ,而是非常有用的信息渠道. 垃圾邮件不存在 普遍适用的具体评判准则 ,而应该属于个性化的定 义 ,交由邮件用户做具体的判断是较为合理的. 此外 ,由于图片垃圾邮件绝大部分是广告邮件 , 无论广告的产品内容如何变化 ,生产商的相关信息 (例如商标图案 )却往往是固定不变的 ,所以垃圾图 片的局部内容重复性很高. 针对这一特性 ,可以利用 这部分重复性高的子图内容去识别同属一系列的广 告垃圾图片. 基于上述考虑 ,提出了一个过滤图片垃圾邮件 的方法 :通过用户从一些垃圾邮件中指定他感兴趣 的子图区域并提供给过滤系统 ,继而系统依据这些 子图对每封收到的邮件进行图像识别 ,一旦发现邮 件图片中含有与之匹配的可疑内容 ,则判定该邮件 为垃圾邮件. 如图 2所示 ,系统的整个工作流程按照以下 4 步执行 : 1)用户发现某封邮件含有垃圾图片 ,继而截取 图片中的某块子区域内容 (如特定的一段文字 ,广 告公司商标图案或者其他具有代表性的文字或图 案 ) ,注明垃圾邮件类型 (如“医药广告 ”)后提交给 系统 ; 2)系统提取出截图的特征信息并导入到一个 数据区中. 这个数据区维护着从所有垃圾图片的截 图中提取的特征信息 ,它扮演了“黑名单 ”的角色. 任何含有“黑名单 ”中某项内容的图片都将视为垃 圾图片处理 ; 3)一旦有新的邮件出现 ,系统先检测该邮件是 否含有图片 ,如果有 ,则提取出图片特征信息 ,用它 的特征信息至 2)所生成的“黑名单 ”中查找 ,一旦匹 配 ,则表示在该邮件识别出了垃圾图片 ,将此垃圾邮 件过滤 ; 4)前 3步实际上是针对新进入的垃圾邮件的 检测与过滤操作 ,同时也有必要对收件箱中之前已 收取的邮件进行垃圾邮件扫描 ,因为一旦用户修改 了某条垃圾邮件判别规则 ,系统有必要对既有的邮 件重新进行过滤操作. 2 基于 SIFT特征的子图匹配 本文提出的图片垃圾邮件过滤系统的关键部分 是一个图像匹配模块. 图像匹配是虚拟现实与计算 机视觉等领域中的一个重要课题 ,其中基于特征的 图像匹配一直是研究热点 ,目前已有众多的匹配算 法 ,它们对于不同环境、不同要求下的图像工作各自 具有不同的效果. 在基于特征的匹配技术中 ,其首要 任务是提取稳定的特征 ,并进行描述. 常用的方法有 基于空间关系的匹配算法、基于不变量描述子的匹 配算法、金字塔算法、小波算法等等. 不同的算法所 适用的对象不尽相同. 因此 ,针对图片垃圾邮件过滤 第 5期 陈俊伟 ,等 :基于截图内容的图片垃圾邮件过滤系统 ·417·
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有