118 智能系统学报 第5卷 为了实现海量信息的快速、准确过滤,Pu与Cl- 1相关工作 tonl、Wu Ningning和马亮等人提出了将上述方法进 现有的信息过滤主要可以分为规则匹配算法和 行整合,或某些步骤进行自动更新的方法. 分类算法。 针对以上不足,在此基础上提出了一种以信息 规则匹配算法即首先定义一系列的垃圾信息规 过滤端、信息存储端、日志分析端三位一体的智能自 则或正常信息规则,然后通过这些规则来匹配所需 反馈方法, 过滤的信息.例如Jangbok等人I4]提出针对电子邮 件的url规则,Deepak2]和Ramachandran等人[9]提 2自反馈过滤模型 出的用户网络规则,Meizhen等人山提出的行为规 结合已有的信息过滤方法,将整个信息过滤分 则,Peizhou等人[3]提出的群发规则等.规则匹配算 解为3个部分:信息过滤模块、信息存储模块和日志 法的速度较快,但是规则的制定需要通过长期的经 分析模块.其中,信息过滤模块根据信息存储模块提 验总结以及大量的人为参与和筛选,在规则制定不 供的过滤规则进行自动信息过滤,并将过滤结果存 完善的情况下过滤效果不佳。 入信息存储模块的信息日志库中,日志分析模块则 分类算法即首先根据人工标注的正常信息和垃 定时读取信息存储模块中的信息日志库,并进行自 圾信息进行训练,然后对所需过滤的信息进行分类, 动分析,提取出有效过滤规则并更新信息存储模块 得到该信息是正常信息还是垃圾信息.例如Bin6、 中各个过滤规则,从而实现了信息过滤规则的自反 Jantima)、Deng、Li Qiang等人提出的各个分类算法 馈更新.自反馈过滤模型框架如图1所示. 等.分类算法的准确率较高,但是过滤速度较慢, 信息过滤模块 信息存储模块 日志分析模块 信息流 流量过滤 流量策略库 流量策略生成 黑白名单 过滤 黑白名单库 虚拟补闭分析 抽样过滤 用户信息库 用户分析 关键词过滤 关键词库 垃圾词提取 分类过滤 分类器训练 分类器库 信息H志库 图1自反馈垃圾信息综合过滤模型框架 Fig.1 A self-feedback spam filtering integrated framework 根据如图1的自反馈垃圾信息综合过滤模型框 2)信息过滤器从过滤规侧库中得到过滤规则,对 架,本方法的具体算法步骤如下: 信息流进行过滤,并将过滤结果存人信息日志库中; 1)建立信息过滤规则库,各种信息过滤规则存 3)构建日志分析模块,从信息日志库中读取垃 入其中; 圾信息,分析后更新信息过滤规则库中的过滤规则