正在加载图片...
第5期 陈俊伟,等:基于截图内容的图片垃圾邮件过滤系统 ·421· 库中去搜寻匹配项,并将匹配的图片进行归类,将系 4 实验 统归类结果与人工分类结果进行对比,计算不同组 利用Mak2的垃圾图片库作为样本图片数据 与不同P值下系统归类的准确率Precision、查全率 库进行图片分类实验.共有图片3534张,发现其中 Recall!以及时间开销Tme-cost其中,准确率和查全 有的图片彼此近似,甚至完全一致(如图5所示), 率分别表示为 只存在某些细微的差别,如尺寸大小、噪声以及个别 EP Precision E (9) 文字有所改变等等,有理由认为这样的图片可以归 为同一类图片.本实验总共归类26类 Recall E E5+E一 (10) 式中:E表示被正确分类的垃圾图片数目,E表 Symboi: MISJ.PK Price: $0.17 示被误认为是垃圾图片的正常图片的数目,E一“表 5 day target:$0.95 示被误认为是正常图片的垃圾图片的数目.Tme Recommendation:Aggresive Buy c0st的值为不同P值下系统归类26组图片所用的 We're talking it all the way to $0.95 时间开销与P为100%时所用的时间开销的比值. Watch it like a hawk and get in before the rush I 将26组Precision、Recall!以及Time-cost分别取 均值,得图6据图知,三者的值都随着P值的增大 (a)原始的广告图片 而递增,当P介于10%~60%范围时,Tme-cost始 终大于Precision和Reca止当P介于60%~100%范 Symbol: MISJ.PK 围时,Precision和Recall均高于Tie-cost,可知 Price: $0.17 5 day target:$0.95 60%是系统均衡Precision和Recall-与Time-cost的 Recommendation:Aggresive Buy 最佳P阈值,即截图面积占原图面积36%的时候垃 We're talking it all the way to $0.95 圾图片分类效果最好,同时用时较省 Watch it like a hawk and get in before the rush 100 80 (b)添加了噪音的同一类图片 60 -Precision Recall --Time-cost APPM.PK APPM.PKAPPM.PK 20 0- Symbol: APPM.PK 102030405060708090100 Price: s027(upto80.00%) P值% 5 day target:1 Recommendation:Very Aggresive Buy 图6P10%到100%取不同值时Precision、 Huge news expected out on APPM,get in before the wire. We're talking it all the way to $1.30 Recall和Tmc-cost均值的折线图 Watch it like a hawk and get in before the rush lll Fig 6 The chart of the average value of Precision, APPM.PK APPM.PK APPM.PK Recall and Tme-cost when P varies from 10%p 100% 5结束语 (c)改变了部分文字内容的同一类图片 本文提出的垃圾邮件过滤系统是图像匹配算法 图5人工归类示例 在反垃圾邮件技术领域的一次新的应用,它赋予用 Fig 5 Manual group ing 户自主权去指定垃圾图片的子图样本,这使得邮件 从每类图片中随机挑选出一张作为原图进行截 过滤更具有针对性和灵活性.与其他分析文字内容 图.系统根据截图宽高)度占原图宽(高)度的百分 的过滤方法相比,本系统直接将文字内容视为图片 比P.从原图中自动获取特征点密度最高的截图.P 处理,这样可以有效抵抗一定的噪声以及形变处理, 的值从10%~100%变化,每次递增10%,所以每张 确保了过滤性能与图片文字属性无关 原图共产生10张截图.那么所有人工分类的26组 图片共有260份截图,构成了一个“黑名单” 参考文献: 系统依次用所有的260份截图去样本图片数据 [1]HEYMANN P,KOUTR IKA G,HECTOR G M.Fighting 1994-2009 China Academic Journal Electronic Publishing House.All rights reserved.http://www.cnki.net4 实 验 利用 Mark [ 12 ]的垃圾图片库作为样本图片数据 库进行图片分类实验. 共有图片 3 534张 ,发现其中 有的图片彼此近似 ,甚至完全一致 (如图 5所示 ) , 只存在某些细微的差别 ,如尺寸大小、噪声以及个别 文字有所改变等等 ,有理由认为这样的图片可以归 为同一类图片. 本实验总共归类 26类. ( a)原始的广告图片 ( b)添加了噪音的同一类图片 ( c)改变了部分文字内容的同一类图片 图 5 人工归类示例 Fig. 5 Manual group ing 从每类图片中随机挑选出一张作为原图进行截 图. 系统根据截图宽 (高 )度占原图宽 (高 )度的百分 比 P,从原图中自动获取特征点密度最高的截图. P 的值从 10% ~100%变化 ,每次递增 10% ,所以每张 原图共产生 10张截图. 那么所有人工分类的 26组 图片共有 260份截图 ,构成了一个“黑名单 ”. 系统依次用所有的 260份截图去样本图片数据 库中去搜寻匹配项 ,并将匹配的图片进行归类 ,将系 统归类结果与人工分类结果进行对比 ,计算不同组 与不同 P值下系统归类的准确率 Precision、查全率 Recall以及时间开销 Time2cost,其中 ,准确率和查全 率分别表示为 Precision = E s→s E s→s + E h→s , (9) Recall = E s→s E s→s + E s→h . (10) 式中 : E s→s表示被正确分类的垃圾图片数目 , E h→s表 示被误认为是垃圾图片的正常图片的数目 , E s→h表 示被误认为是正常图片的垃圾图片的数目. Time2 cost的值为不同 P值下系统归类 26组图片所用的 时间开销与 P为 100%时所用的时间开销的比值. 将 26组 Precision、Recall以及 Time2cost分别取 均值 ,得图 6. 据图知 , 三者的值都随着 P值的增大 而递增 ,当 P介于 10% ~60%范围时 , Time2cost始 终大于 Precision和 Recall;当 P介于 60% ~100%范 围时 , Precision 和 Recall 均 高 于 Time2cost, 可 知 60%是系统均衡 Precision和 Recall与 Time2cost的 最佳 P阈值 ,即截图面积占原图面积 36%的时候垃 圾图片分类效果最好 ,同时用时较省. 图 6 P 10%到 100%取不同值时 Precision、 Recall和 Time2cost均值的折线图 Fig. 6 The chart of the average value of Precision, Recall and Time2cost when P varies from 10% to 100% 5 结束语 本文提出的垃圾邮件过滤系统是图像匹配算法 在反垃圾邮件技术领域的一次新的应用 ,它赋予用 户自主权去指定垃圾图片的子图样本 ,这使得邮件 过滤更具有针对性和灵活性. 与其他分析文字内容 的过滤方法相比 ,本系统直接将文字内容视为图片 处理 ,这样可以有效抵抗一定的噪声以及形变处理 , 确保了过滤性能与图片文字属性无关. 参考文献 : [ 1 ] HEYMANN P, KOUTR IKA G, HECTOR G M. Fighting 第 5期 陈俊伟 ,等 :基于截图内容的图片垃圾邮件过滤系统 ·421·
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有