正在加载图片...
第1期 王占一,等:智能文本搜索新技术 ·47 最佳效果.系统关于垃圾邮件的知识均是从理想用 联网舆情监控分析系统依托自主研发的文本搜索和 户的反馈中得到的. 文本挖掘技术,通过新闻、论坛、博客、微博、视频网 邮件 站等内容源的自动采集与跟踪,进行敏感话题过滤 训练过滤器 分析、智能话题聚类分类、主题监测、专题聚焦和各 垃圾邮件过滤器 类数据的统计分析,实现应用单位对相关网络舆情 监督管理的需要,为决策层全面掌握舆情动态,做出 正确舆论引导提供分析依据。 4.2短信舆情系统 非垃圾 垃圾 短信是人们日常生活中进行通信的重要手段, 通过对短信文本的分析,可以掌握大众平时的舆论 导向,并且可以帮助政府职能部门尽早地发现一些 理想用户反馈 不良的、危及安全的不法短信.但是短信有其自身的 特点:短小、口语化等,这也给分析带来了很大的难 度.因此,基于短信进行舆情分析既有一定的学术价 图4垃圾邮件过滤的流程 值,也有一定的现实意义, Fig.4 The flow chart of spam filtering 短信奥情系统主要有以下一些模块:短信分类 3.2 加权朴素贝叶斯分类器 模块根据短信的内容将短信分到不同的类别,并且 假设邮件的不同部分对过滤的贡献是不同的, 可以通过训练自动调整各类别下关键词的权重;敏 某些部分对过滤的帮助更大.若邮件分为S个部分, 感过滤模块可以过滤出涉及国家和人民生命财产安 每个部分由Na个词组成,d=1,2,…,S.那么朴素 全的非法短信;发送方式分析模块可以判断出一条 贝叶斯分类器的一个简单推广就是为邮件的不同部 短信的发送方式,例如群发、转发、直发等,从而可以 分赋予不同的权值.式(7)可以更新成为 获知什么样的短信被大规模群发,并进行有针对性 HxB arg max log P(C:)+ 的跟踪;短信溯源和用户交际圈模块可以根据某一 (loglog P)). 用户或某一短信进行全方位地分析,从而掌握某用 (8) 户的动态 式中:aa为权值,d=1,2,…,S.式(8)用N和邮件 通过短信舆情系统,可以更好地加强对短信数 长度正规化后可以写成 据的监控,掌握普通用户的舆情情况,为政府职能部 门制定相关决策,追踪某些特殊的现象提供手段. g=ag歌fogP(C)+(No+ 4.3校园对象搜索引擎系统 校园对象搜索引擎(campus object search en- ∑logP(otlC:)} ine,COSE),是一款在校园网内工作,致力于帮助 那么给定训练集后,参数集α就可以用最大似然准 用户寻找人物、组织机构以及课程信息的垂直搜索 则求解了.在实际中,划分的方法有很多.可以按结 引擎.从COSE的名字就可以看出该系统所针对的 构划分各部分,如标题、邮件头、正文、附件等,也可 服务对象是校园中的学生群体.COSE的主要特点 以按词的不同概率将邮件划分成不同的部分 在于它融人了信息抽取中的命名实体识别和实体关 3.3分类器集成 系抽取这2项技术,可以自动识别网页中的人名、课 Bagging是一种将一些弱分类器集成的技术.弱 程名以及机构组织名,建立实体(也称对象)数据 分类器指的是准确率比50%高一点的分类器.在分 库,并且根据对象名在网页中抽取其关系(也称相 类过滤任务中,将弱分类器集成在一起,经过演进和 关属性),建立相关属性数据库,供用户查询检索时 变换达到最佳效果.基于Bagging技术的朴素贝叶 使用 斯垃圾邮件过滤器,通过选择好的集成方法有助于 COSE系统包含的模块有:网络爬虫与索引、中 提升过滤系统的性能.常用的方法主要有嵌入决策 文分词、命名实体识别、实体关系抽取和查询重构 树和分类错误加权等 COSE采用广度优先搜索策略,只抓取各个大学网 4实际系统 站域名下的网页信息,建立网页文档库及索引.这可 以在很大一定程度上屏蔽掉大量无用的广告网页和 4.1互联网舆情系统 新闻网页.对网页文档建索引能加快查找和排序的 北京邮电大学模式识别与智能系统实验室的互 速度,C0SE系统综合使用全文索引技术和动态文
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有