正在加载图片...
46 智能系统学报 第7卷 4个部分组成:实体检索模块、命名实体识别模块、 u×S(Q,de)+(1-u)×Ss(Q,St).(6) 关系抽取模块、结果决策模块,如图3.实体检索模 式中:Ve(Q,st,de)即为综合考虑文档对于quey 块通过Indri检索平台,获取和查询实体最相关的前 的相关性值和填充结果的可信度值的权值.对于基于 25篇相关文档及其相关度权值.命名实体识别模块 机器学习的方法,CRF+工具包5]可以为识别结果 使用斯坦福NER工具包识别人名、地名、组织机构 提供可信度值,记为crfvalue,即该判别结果正确的概 名,使用时间规则模板匹配识别时间.关系抽取模块 率,Ssp=crfvalue;对于基于规则的方法,优先选取基 是实体填充系统的核心模块,把实体填充当作一个 于规则方法的结果,设置填充结果可信度值为1, 关系抽取任务,在这一模块中同时采用基于规则模 Ss=1.实体关联提供相关文档的同时提供该文档的 板的方法与基于统计的方法.结果决策模块对关系 相关度值,记为Su·其中参数u设置为0.5. 抽取模块的结果进行优选得出最终结果 3 信息过滤 关系抽取 近年来,随着互联网技术的迅速发展,垃圾信息 实体 命名实 基于统计的方法 结果 的数量在网络上呈现上升趋势,信息过滤成为一个 检索 体识别 基于规则 决策 业内的难题和挑战.以垃圾邮件为例,TREC从 模板的方法 2005一2007年组织了垃圾邮件过滤评测(spam 图3实体填充的流程 track)【2],目的是尽可能找到一种好的垃圾邮件 Fig.3 The flow chart of slot filling 过滤模型,保证过滤的有效性和可重复性满足需求, 2010年实体填充的整体实现框架与2009年大 主要任务包括即时反馈、延时反馈、主动学习和部分 体相同,但细节上有所改进,例如增加了URL的识 反馈等28].笔者参加了其中的3届评测,2005年在 别.采用基于规则方法识别为主、基于统计CRF识 参赛的国内队伍中成绩是最好的。 别方法做补充的实现方案.即当2种方法同时出现 当前的垃圾邮件过滤技术可以大致划分为黑名单 “single'”的值,优选选择规则类方法;对于非“single” 技术、人力驱动的启发式过滤以及基于机器学习的过 的值,综合考虑文档对于query的相关性值Su和填 滤].这些技术中,朴素贝叶斯方法受到广泛关注 充结果的可信度值Ss,选择最优的若干个结果进行 3.1朴素贝叶斯分类器 优选得出最终结果 朴素贝叶斯分类器简单有效,经常用于文本分 2)基于规则模板的方法.a)识别URL(网址)和 类的应用和实验中.垃圾邮件过滤属于文本分类问 LIST(title职称、charge罪名、cause of death死因、re 题,因此该分类器被广泛使用于垃圾邮件过滤.朴素 ligion宗教等).其中URL识别采用正则表达式方 贝叶斯分类器是一种基于概率的方法,基本思想是 法,LIST主要从训练语料中统计而来.b)根据规则 通过观察一些词是否在邮件中出现来判断是垃圾还 模板输出实体填充结果. 是非垃圾,如式(7): 3)基于统计的方法.基于统计的方法是一种半 监督的机器学习方法,它将实体关系抽取看作一种 Cxw arg mP(C)IIP(t,I C).(7) 多分类问题,从文本中抽取训练所需要的特征,然后 式中:w是组成邮件的词,L是类别的集合.常用的 利用条件随机场形成分类器. 朴素贝叶斯模型有muli-variate Bernoulli模型、Pois 利用9种特征来训练CRFs:词对、词特征、词性 son Naive Bayes模型以及multinomial模型.它们的 特征、顺序特征、动词位置特征、实体位置特征、二值 不同之处主要在于如何计算P(w.IC:).对于垃圾邮 特征、动词特征和类型特征.由于实体关系识别是一 件过滤问题,只有2个类别:垃圾邮件C,和非垃圾 种多分类问题,而类别数越多,模型的准确率也会下 邮件C.,那么一封邮件M的对数得分可写为 降.为了尽可能降低类别数,根据目标实体的类型 S...(M)logP(C.)+>logP(I C.)- (人名或组织名)将初始的训练语料初步分为2份, 然后再根据词对中的第2个词是否为命名实体,进 (logP(C_)+>logp(IC_)). 步将训练语料二次划分,最后用CRFs形成了4 如果S(M)>0,待分类邮件被标注为C,类 种分类器,这样做也提高了系统的整体效率. (垃圾邮件),反之被标注为C_类(非垃圾邮件).过 4)结果合并.综合考虑文档对于quey的相关 滤模型如图4所示.在有监督情况下,用户判断垃圾 性值SL和填充结果的可信度值Ss,选择最优的1 邮件过滤器的结果并反馈给过滤器,而过滤器依据 个或若干个.选择策略如式(6)所示。 反馈进行自动学习.系统开始运行时并不预设标准, Ve(Q,st,de)= 即是一个无初始记忆的分类器,而后不断更新达到
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有