4 实验利用 Mark [ 12 ]的垃圾图片库作为样本图片数据库进

正在加载图片...

第5期陈俊伟，等：基于截图内容的图片垃圾邮件过滤系统 ·421· 库中去搜寻匹配项，并将匹配的图片进行归类，将系 4 实验统归类结果与人工分类结果进行对比，计算不同组利用Mak2的垃圾图片库作为样本图片数据与不同P值下系统归类的准确率Precision、查全率库进行图片分类实验.共有图片3534张，发现其中 Recall!以及时间开销Tme-cost其中，准确率和查全有的图片彼此近似，甚至完全一致（如图5所示），率分别表示为只存在某些细微的差别，如尺寸大小、噪声以及个别 EP Precision E (9) 文字有所改变等等，有理由认为这样的图片可以归为同一类图片.本实验总共归类26类 Recall E E5+E一 (10) 式中：E表示被正确分类的垃圾图片数目，E表 Symboi: MISJ.PK Price: $0.17 示被误认为是垃圾图片的正常图片的数目，E一“表 5 day target:$0.95 示被误认为是正常图片的垃圾图片的数目.Tme Recommendation:Aggresive Buy c0st的值为不同P值下系统归类26组图片所用的 We're talking it all the way to $0.95 时间开销与P为100%时所用的时间开销的比值. Watch it like a hawk and get in before the rush I 将26组Precision、Recall!以及Time-cost分别取均值，得图6据图知，三者的值都随着P值的增大 (a)原始的广告图片而递增，当P介于10%~60%范围时，Tme-cost始终大于Precision和Reca止当P介于60%~100%范 Symbol: MISJ.PK 围时，Precision和Recall均高于Tie-cost,可知 Price: $0.17 5 day target:$0.95 60%是系统均衡Precision和Recall-与Time-cost的 Recommendation:Aggresive Buy 最佳P阈值，即截图面积占原图面积36%的时候垃 We're talking it all the way to $0.95 圾图片分类效果最好，同时用时较省 Watch it like a hawk and get in before the rush 100 80 (b)添加了噪音的同一类图片 60 -Precision Recall --Time-cost APPM.PK APPM.PKAPPM.PK 20 0- Symbol: APPM.PK 102030405060708090100 Price: s027(upto80.00%) P值% 5 day target:1 Recommendation:Very Aggresive Buy 图6P10%到100%取不同值时Precision、 Huge news expected out on APPM,get in before the wire. We're talking it all the way to $1.30 Recall和Tmc-cost均值的折线图 Watch it like a hawk and get in before the rush lll Fig 6 The chart of the average value of Precision, APPM.PK APPM.PK APPM.PK Recall and Tme-cost when P varies from 10%p 100% 5结束语 (c)改变了部分文字内容的同一类图片本文提出的垃圾邮件过滤系统是图像匹配算法图5人工归类示例在反垃圾邮件技术领域的一次新的应用，它赋予用 Fig 5 Manual group ing 户自主权去指定垃圾图片的子图样本，这使得邮件从每类图片中随机挑选出一张作为原图进行截过滤更具有针对性和灵活性.与其他分析文字内容图.系统根据截图宽高)度占原图宽（高）度的百分的过滤方法相比，本系统直接将文字内容视为图片比P.从原图中自动获取特征点密度最高的截图.P 处理，这样可以有效抵抗一定的噪声以及形变处理，的值从10%~100%变化，每次递增10%，所以每张确保了过滤性能与图片文字属性无关原图共产生10张截图.那么所有人工分类的26组图片共有260份截图，构成了一个“黑名单” 参考文献：系统依次用所有的260份截图去样本图片数据 [1]HEYMANN P,KOUTR IKA G,HECTOR G M.Fighting 1994-2009 China Academic Journal Electronic Publishing House.All rights reserved.http://www.cnki.net4 实验利用 Mark [ 12 ]的垃圾图片库作为样本图片数据库进行图片分类实验. 共有图片 3 534张 ,发现其中有的图片彼此近似 ,甚至完全一致 (如图 5所示 ) , 只存在某些细微的差别 ,如尺寸大小、噪声以及个别文字有所改变等等 ,有理由认为这样的图片可以归为同一类图片. 本实验总共归类 26类. ( a)原始的广告图片 ( b)添加了噪音的同一类图片 ( c)改变了部分文字内容的同一类图片图 5 人工归类示例 Fig. 5 Manual group ing 从每类图片中随机挑选出一张作为原图进行截图. 系统根据截图宽 (高 )度占原图宽 (高 )度的百分比 P,从原图中自动获取特征点密度最高的截图. P 的值从 10% ～100%变化 ,每次递增 10% ,所以每张原图共产生 10张截图. 那么所有人工分类的 26组图片共有 260份截图 ,构成了一个“黑名单 ”. 系统依次用所有的 260份截图去样本图片数据库中去搜寻匹配项 ,并将匹配的图片进行归类 ,将系统归类结果与人工分类结果进行对比 ,计算不同组与不同 P值下系统归类的准确率 Precision、查全率 Recall以及时间开销 Time2cost,其中 ,准确率和查全率分别表示为 Precision = E s→s E s→s + E h→s , (9) Recall = E s→s E s→s + E s→h . (10) 式中 : E s→s表示被正确分类的垃圾图片数目 , E h→s表示被误认为是垃圾图片的正常图片的数目 , E s→h表示被误认为是正常图片的垃圾图片的数目. Time2 cost的值为不同 P值下系统归类 26组图片所用的时间开销与 P为 100%时所用的时间开销的比值. 将 26组 Precision、Recall以及 Time2cost分别取均值 ,得图 6. 据图知 , 三者的值都随着 P值的增大而递增 ,当 P介于 10% ～60%范围时 , Time2cost始终大于 Precision和 Recall;当 P介于 60% ～100%范围时 , Precision 和 Recall 均高于 Time2cost, 可知 60%是系统均衡 Precision和 Recall与 Time2cost的最佳 P阈值 ,即截图面积占原图面积 36%的时候垃圾图片分类效果最好 ,同时用时较省. 图 6 P 10%到 100%取不同值时 Precision、 Recall和 Time2cost均值的折线图 Fig. 6 The chart of the average value of Precision, Recall and Time2cost when P varies from 10% to 100% 5 结束语本文提出的垃圾邮件过滤系统是图像匹配算法在反垃圾邮件技术领域的一次新的应用 ,它赋予用户自主权去指定垃圾图片的子图样本 ,这使得邮件过滤更具有针对性和灵活性. 与其他分析文字内容的过滤方法相比 ,本系统直接将文字内容视为图片处理 ,这样可以有效抵抗一定的噪声以及形变处理 , 确保了过滤性能与图片文字属性无关. 参考文献 : [ 1 ] HEYMANN P, KOUTR IKA G, HECTOR G M. Fighting 第 5期陈俊伟 ,等 :基于截图内容的图片垃圾邮件过滤系统 ·421·

<<向上翻页向下翻页>>

点击下载：智能系统：基于截图内容的图片垃圾邮件过滤系统