正在加载图片...
·120 智能系统学报 第5卷 大小不同的2个数据集.测试结果如表1所示 表1垃圾信息过滤结果 Table 1 Filtering results 试验1 试验2 识别 准确率 召回率误判率 识别 准确率 召回率误判率 短信总数 短信总数 正常垃圾 /% /% /% 正常垃圾 /% /% /% 正常11701169 1 正常2800027729271 99.7 82.1 <2.1 97.2 81.0<3.02 垃圾 40973336 垃圾1200022779723 由表1可以看出,提出的综合过滤方法针对小 4 数据集和大数据集的准确率均值为98.15%,召回 结 论 率均值为81.59%,误判率均值为2.56%. 针对以往垃圾信息过滤方法中过滤速度和过滤 3.2自反馈效率分析 准确率不能兼顾,以及过滤规则人工参与度高的缺 由于采用自反馈方法,具有高过滤速度的过滤 点,提出了一种自反馈垃圾信息综合过滤算法.通过 方法(如黑白名单过滤、抽样过滤和关键词过滤等) 将快速过滤算法和高准确率算法进行整合,并使用 在得到日志分析的反馈更新后,在过滤的比例上随 过滤规则的自反馈更新,在系统运行前期使用高准 系统运行而提高.在本实验中,系统运行的人工参与 确率算法(如分类)进行过滤,并定时通过日志分析 时间定为每天一次,对反馈更新的各新增信息进行 功能提取新规则并更新规则库,使得快速过滤算法 人工筛选和确认.实验采用200万大数据量进行测 (如关键词)的规则库得到自反馈更新后,在后期系 试,得到过滤效率随时间的变化如下图4和图5所 统运行中不仅可以占据更大的过滤比例从而使得过 示. 滤速度大为提高,还可以应用优化的规则库得到更 600 高的准确率,在目前的海量数据应用领域具有较高 500 400 的应用价值。 300 下一步针对海量数据过滤方法的研究,有以下 200 100 几个重点: 0 020406080100120 1)针对信息过滤过程中用户信息的隐私保护 系统运行时间h 研究; 图4信息过滤随系统运行每秒的处理量 2)针对垃圾短信、垃圾邮件等具有多变特性数 Fig.4 System handling capacity per second 据的不确定性研究; 3)针对垃圾信息传播的社会网络结构演化的 5六10 货 分析研究; 4 4)针对海量数据的云计算研究. 2 参考文献: 0 [1]WANG Meizhen,LI Zhitang.Research on behavior statistic 020406080100120 系统运行时间h based spam filter[C]//Proceedings of the 1st International Workshop on Education Technology and Computer Science 图5信息过滤随系统运行每天的处理量 (ETCs2009).Wuhan,China,2009:687691. Fig.5 System handling capacity per day [2]DEEPAK P,JYOTHI J.A community based approach for 由图5可以看出,随着系统的不断运行和过滤 spam filtering[C]//Proceedings 2004 International Confer- 规则的自反馈更新,信息过滤速度有了显著的提高. ence on Information and Communication Technologies:From Theory to Applications(ICTTA 2004).Damascus,Syria
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有