第5卷第2期 智能系统学报 Vol.5 No.2 2010年4月 CAAI Transactions on Intelligent Systems Apr.2010 doi:10.3969/i.issn.1673-4785.2010.02.004 一种自反馈垃圾信息综合过滤方法 夏虎,傅彦,方育柯,周俊临 (电子科技大学计算机科学与工程学院,四川成都611731) 摘要:提出了一种自反馈垃圾信息综合过滤方法.通过构建日志分析模块,在人为参与尽可能少的情况下,根据过 滤到的垃圾信息通过自我分析、自我决策、自我优化来实现信息过滤规则的自反馈更新.试验证明该方法克服了传 统海量信息过滤中人工参与度高、工作量大、效率和准确率与人的操作高度相关的缺点,大大提高了信息过滤速度 和准确率,实现了信息过滤的自动化, 关键词:信息过滤;自反馈更新;日志分析:海量数据处理 中图分类号:TP181文献标识码:A文章编号:16734785(2010)02-011705 A self-feedback synthesis method for spam filtering XIA Hu,FU Yan,FANG Yu-ke,ZHOU Jun-lin (School of Computer Science Engineering,Chengdu 611731,China) Abstract:A self-feedback based spam filtering method has been developed.In the construction of the log analysis module,the filtering system was implemented in a way that permited self-feedback when updating filtering rules. Self-analysis,self-decision,and self-optimization were all incorporated.In this way minimal human intervention was required.In traditional massive information filtering,human involvement was very high,leaving filtering accu- racy and efficiency highly dependent on the skills of the human operator.Experiments proved that this method over- comes these shortcomings,greatly enhancing the speed and accuracy of information filtering and effectively automa- ting information filtering. Keywords:spam filtration;self-feedback updating;log analysis;massive data processing 垃圾信息的通常定义为:未经请求和允许而收到圾信息的实时过滤方案中主要采用静态方式,即系 的、对接收者来说无用的信息.垃圾信息的内容主要 统运行过程中主要依赖手动设置的关键词或者黑名 包括广告信息、色情信息、假中奖信息、欺诈信息、恶 单等,在系统初始化时加载过滤器来进行信息过滤, 作剧等.垃圾信息的泛滥不仅影响了人们的正常生 这样的静态方式必须经过人工手动的调整参数和知 活,也给正在蓬勃发展的网络和移动行业带来了很大 识库来达到优化系统的目的,浪费了大量的人力及 的负面影响,甚至成了一大社会公害.因此,研制垃圾 物力,同时静态方式也没有充分利用系统运行过程 信息过滤系统具有重要的经济价值和社会效益。 中得到的有价值信息,主要为过滤到的垃圾信息.另 在手机短信13]、邮件[461以及Wb网页78]中, 外,目前存在的方案中多采用单一方式进行信息过 垃圾信息过滤技术已经得到广泛的应用.目前的垃 滤,在实时系统中,快速过滤方法如黑名单等可以满 足速度要求,但是过滤效果一般不够高,而效率较好 收稿日期:2009-1204. 的内容过滤如分类等却有致命的速度弱点 基金项目:国家自然科学基金资助项目(60903073);国家“863”计划 资助项目(2007AA01Z440);四川省科技支撑计划资助项 目(2008G70009). 通信作者:夏虎.E-mail:xiahu@ueste.ed血.cm
118 智能系统学报 第5卷 为了实现海量信息的快速、准确过滤,Pu与Cl- 1相关工作 tonl、Wu Ningning和马亮等人提出了将上述方法进 现有的信息过滤主要可以分为规则匹配算法和 行整合,或某些步骤进行自动更新的方法. 分类算法。 针对以上不足,在此基础上提出了一种以信息 规则匹配算法即首先定义一系列的垃圾信息规 过滤端、信息存储端、日志分析端三位一体的智能自 则或正常信息规则,然后通过这些规则来匹配所需 反馈方法, 过滤的信息.例如Jangbok等人I4]提出针对电子邮 件的url规则,Deepak2]和Ramachandran等人[9]提 2自反馈过滤模型 出的用户网络规则,Meizhen等人山提出的行为规 结合已有的信息过滤方法,将整个信息过滤分 则,Peizhou等人[3]提出的群发规则等.规则匹配算 解为3个部分:信息过滤模块、信息存储模块和日志 法的速度较快,但是规则的制定需要通过长期的经 分析模块.其中,信息过滤模块根据信息存储模块提 验总结以及大量的人为参与和筛选,在规则制定不 供的过滤规则进行自动信息过滤,并将过滤结果存 完善的情况下过滤效果不佳。 入信息存储模块的信息日志库中,日志分析模块则 分类算法即首先根据人工标注的正常信息和垃 定时读取信息存储模块中的信息日志库,并进行自 圾信息进行训练,然后对所需过滤的信息进行分类, 动分析,提取出有效过滤规则并更新信息存储模块 得到该信息是正常信息还是垃圾信息.例如Bin6、 中各个过滤规则,从而实现了信息过滤规则的自反 Jantima)、Deng、Li Qiang等人提出的各个分类算法 馈更新.自反馈过滤模型框架如图1所示. 等.分类算法的准确率较高,但是过滤速度较慢, 信息过滤模块 信息存储模块 日志分析模块 信息流 流量过滤 流量策略库 流量策略生成 黑白名单 过滤 黑白名单库 虚拟补闭分析 抽样过滤 用户信息库 用户分析 关键词过滤 关键词库 垃圾词提取 分类过滤 分类器训练 分类器库 信息H志库 图1自反馈垃圾信息综合过滤模型框架 Fig.1 A self-feedback spam filtering integrated framework 根据如图1的自反馈垃圾信息综合过滤模型框 2)信息过滤器从过滤规侧库中得到过滤规则,对 架,本方法的具体算法步骤如下: 信息流进行过滤,并将过滤结果存人信息日志库中; 1)建立信息过滤规则库,各种信息过滤规则存 3)构建日志分析模块,从信息日志库中读取垃 入其中; 圾信息,分析后更新信息过滤规则库中的过滤规则
第2期 夏虎,等:一种自反馈垃圾信息综合过滤方法 ·119 以下分别介绍自反馈过滤算法中的自反馈过滤 的时间间隔hourcount(例如24h).3~6行初始化各 算法和自反馈更新算法.其中自反馈过滤算法如图 参数,包括DB数据库连接、原始过滤规则集rules 2所示. 新分类规则crules、新关键词规则krules、新用户规 1 Algorithm feedbackFilter(DB.cache.interval) 则urules、新用户网络规则srules,新流量过滤规则 2 Begin 3 Initialize(DB,rules): frules..7~l1行实现定时机制,循环等待过滤开始时 while(true) do begin 间.第12行初始化待分析的日志文件.13~18行分 d=cache(first); if(d=null) 别从日志中分析得到上述所有新规则并并入新规则 F then begin 集newrules中.l9~20行将新规则集newrules与原 9 wait(interval): 10 continue: 始规则集ules进行整合并将新规则存入数据库中. 11 end 12 else begin 13 cache.remove(first): 3试验与分析 14 IntegratedFilter(d,rules); 15 if(dis spam)then 16 Save(d,DB); 为了对比以往方法中垃圾信息过滤中的准确率 17 end 18 和过滤速度不能兼顾的问题,分别从自反馈过滤的 end 19 end 准确率和效率两方面来进行试验和分析。 图2垃圾信息自反馈过滤算法 3.1自反馈准确率分析 Fig.2 Self-feedback algorithm for spam filtering 本文的垃圾信息综合过滤方法目的是将信息分 其中,第1行列出需要传入的参数,包括DB数 为垃圾信息和非垃圾信息,因此采用2种在分类算 据库连接,待过滤信息缓冲池cache、interval缓存空 法中常用的准确率和召回率作为评价指标.由于非 时等待时间间隔.第3行初始化数据库并且读取过 垃圾信息识别为垃圾信息与垃圾信息识别为非垃圾 滤规则.6~11行读取cache中第一条待过滤信息 信息相比会造成更大的损失,因此同时也采用误判 d,若cache中无待过滤信息则等待时间间隔inter- 率(FAR)来评价正常短信误判的情况, val后继续.否则行从cache中删除信息d后,使用 在信息过滤中,垃圾信息识别的准确率的计算 规则rules对d进行过滤,若识别为垃圾信息pam, 公式如下: 则将其保存人数据库的日志库中12~17,否则继 precision N(Correct) ×100% 续 N(Detected)】 1 Algorithm feedbackRenew(DB,hourcount) 式中:N(Correct)表示正确识别出来的垃圾信息, 2 Begin N(Detected)表示识别出来的垃圾信息, 3 Initialize(DB,rules): 4 newrules= 垃圾信息的召回率的计算公式如下: 5 crules=krules=durules= 6 srules=o:frules=中 N(Correct) 7 while(hourcount>0) recall =N(Correct(Missed)100. 8 begin 9 wait a hour; 式中:N(Correct)表示正确识别出来的垃圾信息, 10 hourcount hourcount-1: 11 end: N(Missed)表示被遗漏的垃圾信息, 12 Initialize(log): 13 crules=trainclassifier(log): 正常信息的误判率(false accept rate)的计算公 14 krules =extractkeyword(log); 15 urules =useranalyse(log); 式如下: 16 srules =socialnetwok(log): 17 frules =flowanalyse(log); FAR=N(Normal)N(Detected)100. 18 newrules=curlesnkrulesnurulesnsrulesn frules; N(Normal) 19 newrules-mergerules(newrules.rules): 20 ave(newrules,DB): 式中:N(Normal)表示正常信息,N(Detected)表示 21 end 识别出来的垃圾信息,W(Normal)∩W(Detected) 图3垃圾信息自反馈更新算法 即表示被识别为垃圾信息的正常信息 Fig.3 Self-feedback algorithm for rules update 实验中,通过对采集到的短信数据进行测试,其 自反馈更新算法如图3所示.其中,第1行列出 中,训练数据集包含4867条正常短信和3791条垃 需要传入的参数,包括DB数据库连接,自反馈更新 圾短信,测试数据集分别采用1579条和40000条的
·120 智能系统学报 第5卷 大小不同的2个数据集.测试结果如表1所示 表1垃圾信息过滤结果 Table 1 Filtering results 试验1 试验2 识别 准确率 召回率误判率 识别 准确率 召回率误判率 短信总数 短信总数 正常垃圾 /% /% /% 正常垃圾 /% /% /% 正常11701169 1 正常2800027729271 99.7 82.1 <2.1 97.2 81.0<3.02 垃圾 40973336 垃圾1200022779723 由表1可以看出,提出的综合过滤方法针对小 4 数据集和大数据集的准确率均值为98.15%,召回 结 论 率均值为81.59%,误判率均值为2.56%. 针对以往垃圾信息过滤方法中过滤速度和过滤 3.2自反馈效率分析 准确率不能兼顾,以及过滤规则人工参与度高的缺 由于采用自反馈方法,具有高过滤速度的过滤 点,提出了一种自反馈垃圾信息综合过滤算法.通过 方法(如黑白名单过滤、抽样过滤和关键词过滤等) 将快速过滤算法和高准确率算法进行整合,并使用 在得到日志分析的反馈更新后,在过滤的比例上随 过滤规则的自反馈更新,在系统运行前期使用高准 系统运行而提高.在本实验中,系统运行的人工参与 确率算法(如分类)进行过滤,并定时通过日志分析 时间定为每天一次,对反馈更新的各新增信息进行 功能提取新规则并更新规则库,使得快速过滤算法 人工筛选和确认.实验采用200万大数据量进行测 (如关键词)的规则库得到自反馈更新后,在后期系 试,得到过滤效率随时间的变化如下图4和图5所 统运行中不仅可以占据更大的过滤比例从而使得过 示. 滤速度大为提高,还可以应用优化的规则库得到更 600 高的准确率,在目前的海量数据应用领域具有较高 500 400 的应用价值。 300 下一步针对海量数据过滤方法的研究,有以下 200 100 几个重点: 0 020406080100120 1)针对信息过滤过程中用户信息的隐私保护 系统运行时间h 研究; 图4信息过滤随系统运行每秒的处理量 2)针对垃圾短信、垃圾邮件等具有多变特性数 Fig.4 System handling capacity per second 据的不确定性研究; 3)针对垃圾信息传播的社会网络结构演化的 5六10 货 分析研究; 4 4)针对海量数据的云计算研究. 2 参考文献: 0 [1]WANG Meizhen,LI Zhitang.Research on behavior statistic 020406080100120 系统运行时间h based spam filter[C]//Proceedings of the 1st International Workshop on Education Technology and Computer Science 图5信息过滤随系统运行每天的处理量 (ETCs2009).Wuhan,China,2009:687691. Fig.5 System handling capacity per day [2]DEEPAK P,JYOTHI J.A community based approach for 由图5可以看出,随着系统的不断运行和过滤 spam filtering[C]//Proceedings 2004 International Confer- 规则的自反馈更新,信息过滤速度有了显著的提高. ence on Information and Communication Technologies:From Theory to Applications(ICTTA 2004).Damascus,Syria
第2期 夏虎等:一种自反馈垃圾信息综合过滤方法 121。 2004:611-612 XU Yue,RAYMOND Y K.Using information fitering in [3]HE Peizhou,SUN Yong.Filtering short message spam of Web data mining process[C]//Proceedings of the IEEE/ group sending using CAPTCHA[C]//Proceedings 1st Inter- WIC/ACM International Conference on Web Intelligence. national Workshop on Knowledge Discovery and Data Min- Washington DC,USA::IEEE Computer Society,2007:163- ing.Washington DC,USA:IEEE Computer Society,2008: 169. 558-561 9JANIRUDH R.NICK F.Understanding the network-level 4]KIM J,CHUNG K,CHOI K.Spam filtering with dynami- behavior of spammers [J].Computer Communication Re- cally updated URL statistics[].IEEE Security and Priva- view,2006,36(4):291-302.. cy,2007,5(4)):33-39. 作者简介 5]WU Yu,LI Zhijun,LUO Ping,WANG Guoyin.A new an- 夏虎,男,1981年生,博士研究 ti-spam filter based on data mining and analysis of email se- 生,主要研究方向为数据挖掘、异常检 uriy[C]l//Proceedings of SPIE-The International Socie- 测、隐私保护发表学术论文多篇。 ty for Optical Engineering.[S.1.]],2003::147-154. 6CHEN Bin.DONG Shoubin.FANG Weidong.Email head- er feature study for improving Bayesian anti-spam filter[J] Journal of Computational Information Systems,2008,4(3)1: 1205-1212. 傅彦,女,1962年生,教授,博士 JANTIMA P,ANIRUT C,CHUMSAK S,RAPEEPORN C, 生导师,电子科技大学计算机科学与工 SOMNUK P.Content-based text classifiers for pornographic 程学院副院长,四川省教学名师.主要 Web filteringl C]l//Proceedings IEEE International Confer- 从事模式识别、数据挖掘应用、信息安 ence on Systems,Man,and Cybernetics.Taipei,China, 全等.主持和参与科研项目30余项,发 2006:1481-1485. 表学术论文50余篇,被SCI、EI等检索 [8.ZHOU Xujuan,LI Yuefeng,BRUZA P,WU Shengtang. 10余篇. 第3届计算智能与设计国际学术研讨会 2010 The 3rd International Symposium on Computational ntelligence and Design On behalf of the successful symposium-ISCID 2008,2009,the organizing commitee and our local organizers wish to extend to you our personal welcome to tend the 2010 the 3rd Intermational Symposium on Computational Intelligence and Design(ISCID 2010))which will be held at Hangzhou,China in 29-31,October 2010.This symposium provides an idea-exchange and discussion platfomm for the world's engineers and academia,where intemationally recognized researches and practitioners share cutting-edge information,address the hottest issue in computational intelligence and design The proceedings of ISCID 2010 will be published by IEEE Computer Society Conference Service Publishing(CPS),all accepted papers will be included in EEE Xplore,and arranged for indexing through IEEE INSPEC,Ei Compendex,ISTP and other inde- xing services.Distinguished selected papers accepted and presented in ISCID 2010,will be published in special issues of Applied Soft Computing(ISSN:1568-4946,Imprint Elsevier,SCI,I)>19))after further extensions. All papers submitted to this conference will be double-blind peer reviewed by at least two members of the International Program Committee(IPC))and related technical committes.Acceptance will be based primarily on originality,significance,technical soundness,presentation,and references.The conference chair makes the fnal decision on the acceptance or rejection of the pa- er.A standard paper should not exceed 4 pages and extra pages should not exceed 2 pages.The Online Submision System is now available! Click:http://www.iscid-conf.org/submission
[6] CHEN Bin,DONG Shoubin,FANG Weidong. Email header feature study for improving Bayesian anti-spam filter[J] . Journal of Computational Information Systems,2008,4(3) : 1205-1212. The proceedings of ISCID 2010 will be published by IEEE Computer Society Conference Service Publishing(CPS) ,all accepted papers will be included in EEE Xplore,and arranged for indexing through IEEE INSPEC,Ei Compendex,ISTP and other indexing services. Distinguished selected papers accepted and presented in ISCID 2010,will be published in special issues of Applied Soft Computing(ISSN: 1568-4946,Imprint : Elsevier,SCI,I) 1.9) after further extensions. [4] KIM J,CHUNG K,CHOI K. Spam filtering with dynamically updated URL statistics[J] . IEEE Security and Privacy,2007,5(4) :33-39. 傅 彦,女,1962年生,教授,博士 生导师,电子科技大学计算机科学与工 程学院副院长,四川省教学名师.主要 从事模式识别、数据挖掘应用、信息安 全等.主持和参与科研项目30余项,发 表学术论文50余篇,被SCI、EI等检索 10余篇. 第2期 [3] HE Peizhou,SUN Yong. Filtering short message spam of group sending using CAPTCHA[ C]//Proceedings 1st International Workshop on Knowledge Discovery and Data Mining. Washington DC,USA:IEEE Computer Society,2008: 558-561. [5] WU Yu,LI Zhijun,LUO Ping,WANG Guoyin. A new anti-spam filter based on data mining and analysis of email seuriy[ C] //Proceedings of SPIE— The International Society for Optical Engineering. [S.1.] ,2003: 147-154. [9] ANIRUDH R,NICK F. Understanding the network-level behavior of spammers [J]. Computer Communication Review,2006,36(4) :291-302. 夏 虎,男,1981年生,博士研究 生,主要研究方向为数据挖掘、异常检 测、隐私保护.发表学术论文多篇. 2004: 611-612. [8] ZHOU Xujuan,LI Yuefeng,BRUZA P,WU Shengtang, 第3届计算智能与设计国际学术研讨会 2010 The 3rd International Symposium on Computational ntelligence and Design 夏 虎,等: 一种自反馈垃圾信息综合过滤方法 Click: http: //www.iscid-conf.org/submission [7] JANTIMA P,ANIRUT C,CHUMSAK S,RAPEEPORN C, SOMNUK P. Content-based text classifiers for pornographic Web filtering[ C] //Proceedings IEEE International Conference on Systems,Man,and Cybernetics. Taipei,China, 2006: 1481-1485. XU Yue,RAYMOND Y K. Using information fitering in Web data mining process[ C]//Proceedings of the IEEE/ WIC/ACM International Conference on Web Intelligence. Washington DC,USA: IEEE Computer Society,2007: 163- 169. On behalf of the successful symposium- ISCID 2008,2009, the organizing commitee and our local organizers wish to extend to you our personal welcome to tend the 2010 the 3rd Intermational Symposium on Computational Intelligence and Design(ISCID 2010) which will be held at Hangzhou,China in 29-31,October 2010. This symposium provides an idea-exchange and discussion platform for the world's engineers and academia,where internationally recognized researches and practitioners share cutting-edge nformation, address the hottest issue in computational intelligence and design. All papers submitted to this conference will be double-blind peer reviewed by at least two members of the International Program Committee(IPC) and related technical committes. Acceptance will be based primarily on originality,significance,technical oundness,presentation,and references. The conference chair makes the fnal decision on the acceptance or rejection of the pa- )er. A standard paper should not exceed 4 pages and extra pages should not exceed 2 pages. The Online Submision System is now available! 121。 作者简介: