1SSN1673-4785 CN23-1538/TP AA 中国人工智能学会会刊 智能系统学报 CAAI TRANSACTIONS ON INTELLIGENT SYSTEMS 登三系缠学招 7oASartos IssN1673-4785 4 08> 2012 771673478120 Vol.7 No.4
《智能系统学报》第二届编辑委员会委员名单 The Second Editorial Board of CAAI Transactions on Intelligent Systems 顾 问Consultants 杨子YANG Shuzi 李行达LI Yanda 吴启迪WUQd 张钱ZHANG Bo 郑南宁ZHENG Nannin吨 赵沁平ZHA0 Qinping涂序查TU Xuyan 在保宗YUAN Baong 童天湘TONG Tianxiang 董祖美DONG Yunm 主 任Chairman何新贵HE Xingui 副主 任Vice Chairmen 徐玉如XU Yun 蔡自兴CAI Zixing 孙增圻SUN Zen可 秦世引QIN Shiyin 王科俊WANG Kejun 委 员Members 丁水生DING Yongsheng 马少平MA Shaoping 马世龙MA Shilong 尹怡欣YIN Yiin 王龙WANG Long 王万森WANG Wansen 王飞跃WANGFeiyue 王立权WANG Liqu 王志良WANG Zhiliang 王国胤WANG Guoyin 王科復WANG Kejun 冯嘉礼FENGJiali 史忠植SHⅢZhongzhi 田金文TIAN Jinwen 朱齐丹ZHU Qidan 庄越挺ZHUANG Yueting 刘丁uUDi 刘民UM 刘宏LJU Hong 刘胜LIU Sheng 刘清UQi吨 刘增良LIU Zengliang 孙增折SUN Zengri 配秋骑RUAN Qiup 何清HE Qing 何华灿HE Huacan 何新贵H亚Xingi 吴快军WU Tiejun 张军ZHANG Jun 张长水ZHANG Changhui 张汝被ZHANG Rubo 张铭钩ZHANG Mingjun 杜军平D0 Junping 迟惠生C印Huisheng 邱玉辉QIU Yuhui 陈杰CHEN Jie 范多旺FAN Duowan唱 周志华ZHOU Zhih 施要飞SHI Pengfei 春红卷ZHA Hongbin 段海滨DUAN Haibin 赵琳ZHAO Lin 钟义信ZHONG Yigin 除玉如XUYuru 徐若冰XU Ruobing 秦世引QIN Shiyi面 贾英民LA Yingmi血 郭军GU0Jun 黄心汉HUANG Xinhar 曹元大CAO Yunda 焦李成IAO Lichen% 韩力群HAN Liqun 鲁华样LU Huxinng 蔡文CAI Wen 蔡自兴CAI Zixing 国间International Consultants G.Sanniti Di Baja,Istituto di Cibernetica,CNR.Italy T.J.Tamn.Washington University,USA 国际委员International Members Don Hong.Middle Temesee Stste University,USA Fanika Mercier-Laurent,Jean Moulin Univenity Lymn 3,French Hyouk Ryeol Choi,Sungkyunkwan University.Koree Jean-Claude Latomhe,Stanford University,USA Jiebo Luo.Eastmun Kodak Company.USA Technology,Japun Laurent Itti.University of Southem Califomia,USA Randall Davis.Maseschu setts Institute of Technology,USA Reinhard Klette,The University of Auckland,New Zealand Ronald L.Yager,Mohammed VUniversity,Moroo Shuzhi Sam Ge,The National Univerity of Singpore,Singpore Wankyun Chung,POSTECH,Koree Xindong Wu.University of Vermiont,USA 编Chief Editor 钟义信ZHONG Yixin 副 编Vice Chief Editor 徐若冰XU Ruobing 编辑部主任Director 徐若冰XU Ruobing 编辑部副主任Deputy Directors 刘玉明LIU Yuming 李雪莲L山Xuelian 责任编辑Responsible Editors 马兰兰MA Lanle 刘充充IU Liangliang 英文编兼)English Editor(Part-time) 朱玉珍ZHU Ywhen Andrew Knox (USA)
智能系统学报 第7卷第4期 (总第36期) 2012年8月 目 次 基于外骨骼机器人技术的人体手臂震颤抑制的理论和方法 孙建,向馗,高理富,李涛,葛运建(283) 相关向量机分类方法的研究进展与分析 …赵春晖,张燚(294) 基于PGA的全流水双精度浮点矩阵乘法器设计 4… 刘沛华,鲁华祥,龚国良,刘文鹏(302) 基于文本的新闻事件多版本发现模型 …肖融,孔亮,张岩(307) 图像复原中的模糊参数估计 王伟,郑津津,刘星,周洪军,沈连缩(315) 基于止血机制的冗余并联机器人精准容错控制 郭崇滨,郝矿荣,丁永生(321) 基于关联词的主题模型语义标注 … 周亦鹏,杜军平(327) 视觉关注转移的事件检测算法 …张丽坤,孙建德,李静(333) 脑电信号的小波变换和样本嫡特征提取方法 ……张毅,罗明伟,罗元(339) 自适应扩维UKF算法在SINS/GPS组合导航系统中的应用 孙尧,马涛,高延滨,王璐(345) 离散时间混合多智能体的拟平均一致性控制 李波,吴淑琴,谷明琴(352) 一种虚拟人追逐过程中的情绪博弈模型 卞玉龙,刘箴(358) 面向学术社区的专家推荐模型 ........... 李春荚,汤庸,陈国华,汤志康(365) 混合改进蚁群算法的函数优化 陈明杰,黄佰川,张旻(370) ·信息交流· 第4届群体智能国际会议征文通知 0年0。。00.0.00。。。00。g00。。0000年000.0000卡。。0+0”00.0。。 (314) 第9届国际机器学习和数据挖掘会议 (338) 2012年第2届计算机科学与网络技术国际会议 ............................................... (344) 第四届全国智能信息处理学术会议(NCP2013)征文通知 (351) 2012年自动化控制和机器人技术国际会议 (364) 2013年EEE机器人和自动化国际会议(ICRA2013) (376) 期刊基本参数:CN23-1538/TP*2006*b*A4*94*zh*P*¥15.00*1500*14*2012-08
CAAI Transactions on Intelligent Systems Vol.7 No.4 (Sum No.36) Aug.2012 Contents A comprehensive review of fundamental theory and methodology for tremor suppression of human arm based on robotic exoskeleton technology..SUN Jian,XIANG Kui,GAO Lifu,LI Tao,GE Yunjian(283) Research progress and analysis on methods for classification of RVM ............................................HAO chunhui,ZHANG Vi(294) Design of an FPGA-based double-precision floating-point matrix multiplier with pipeline architecture ........LIU Peihua,LU Huaxiang,GONG Guoliang,LIU Wenpeng (302) A text clustering model for diverse versions discovery ................XIAO Rong,KONG Liang,ZHANG Yan(307) Estimation of blur parameters in image restoration .......WANG Wei,ZHENG Jinjin,LIU Xing,ZHOU Hongjun,SHEN Lianguan(315) Hemostasis mechanism based precise fault-tolerant control for redundant parallel manipulator ........GUO Chongbin,HAO Kuangrong,DING Yongsheng(321) Semantic tagging of a topic model based on associated words …………e…… ZHOU Yipeng,DU Junping(327) Event detection based on visual attention shift …ZHANG Likun,SUN Jiande,LI Jing(333)) EEG feature extraction method based on wavelet transform and sample entropy …ZHANG Yi,.LU0 Mingwei,LU0Yuan(339) An adaptive augmented unscented Kalman filter with applications in a SINS/GPS integrated navigation system .....................SUN Yao,MA Tao,GAO Yanbin,WANG Lu(345) Quasi-average-consensus control of hybrid swarm agents with discrete time ..............................................................................LIBo,wU Shugin,cU Minggin(352) A model of emotion game for chasing between virtual humans … BIAN Yulong,LIU Zhen (358) Research on an expert recommendation model based on the scholar community SCHOLAT ...........LI Chunying,TANG Yong,CHEN Guohua,TANG Zhikang(365) Function optimization based on an improved hybrid ACO CHEN Mingjie,HUANG Baichuan,ZHANG Min(370) International The Fourth International Conference on Swarm Intelligence (ICSI'2013)..........................(314) 9th International Conference on Machine Learning and Data Mining (MLDM)2013..........................(338) 2nd International Conference on Computer Science and Network Technology(ICCSNT 2012)...............(344) The 4th National Conference on Intelligent Information Processing.......(351) International Conference on Automation,Control and Robotics (ICACR'2012).........(364) The 2013 IEEE International Conference on Robotics and Automation (ICRA 2013)..................(376) Serial parameters:CN23-1538/TP*2006*b*A4*94*zh*P*¥15.00*1500*14*2012-08
第7卷第4期 智能系统学报 Vol.7 No.4 2012年8月 CAAI Transactions on Intelligent Systems Aug.2012 D0I:10.3969/i.issn.16734785.201204017 网络出版t地址:htp://www.cnki.net/kcma/detail/23.1538.TP.20120712.1111.008.html 基于关联词的主题模型语义标注 周亦鹏,杜军平2 (1.北京工商大学计算机与信息工程学院,北京100048;2.北京邮电大学智能通信软件与多蝶体北京市重,点实验 室,北京100876) 摘要:互联网主题分析中经常采用概率主题模型对主题进行描述,但存在对于一般用户难以理解的问题,提出一 种概率主题模型的自动语义标注方法.首先通过基于语义分类的关联规则挖掘关联主题词并建立候选标签集合,然 后以关联词在数据集中的概率分布来设计相关性判别函数,计算候选标签和主题模型的相关度,最后根据最大边缘 相关选择高语义覆盖度和区分度的标签.在食品安全和旅游领域主题模型标注的实验表明,与最大概率主题词标记 方法相比,提出的方法能够明显提高标注的准确性,并且解决了多标签标记中语义类别单一的问题,能够以较少数 量的标签表达更为丰富的语义,这有助于进一步实现更为准确的主题跟踪和主题信息检索。 关键词:主题分析;语义标注;生成模型;关联词;关联规则 中图分类号:TP391文献标志码:A文章编号:16734785(2012)04032706 Semantic tagging of a topic model based on associated words ZHOU Yipeng,DU Junping (1.School of Computer Science and Information Engineering,Beijing Technology and Business University,Beijing 100048,China; 2.Beijing Key Laboratory of Intelligent Telecommunications Software and Multimedia,Beijing University of Posts and Telecommunica- tions,Beijing 100876,China) Abstract:In topic analysis field of Internet,the probabilistic topic model is often used to describe topic seman- teme.But the semanteme of a topic model is difficult for users to understand.An automatic semantic tagging meth- od of a probabilistic topic model is proposed.Firstly,an association rule mining algorithm based on semantic cate- gories is presented to get associated topic words,which consist of a candidate tag set.Then,according to the prob- ability of associated words,a semantic correlation function is used to calculate semantic correlation of candidate tags and topic model.At last,a maximal marginal relevance method is used to select tags with better semantic coverage and discrimination.The experimental results of food safety and tourism topic model proved that,compared with maximum probability topic words tagging method,the proposed method can improve accuracy of topic tagging obvi- ously,and can express more abundant semantemes with a small number of tags,which solve the problem of single semantic category in the multi-tagging method.So it is helpful to achieve more accurate topic tracking and topic in- formation retrieval. Keywords:topic analysis;semantic tagging;generative model;associated words;association rule 主题分析通常采用概率生成模型,如LDA、PL是取概率较高的若干个语义词来表示主题含义3], SA等方法,以语义词概率分布的形式描述主题12], 但这种方法也常常不能准确表示整个分布所覆盖的 这使得一般用户较难理解主题的内容.通常的方法 全部语义.因此,提出一种主题模型的自动标注方 法,提取具有一定语义覆盖度和区分度的主题关联 收稿日期:2012-04-20.网络出版日期:201207-12. 词来描述主题的内容。 基金项目:国家“973”计划资助项目(2012CB821206):国家自然科学 基金资助项目(91024001,61070142);北京市自然科学基 1主题模型的语义标注 金资助项目(4111002). 通信作者:周亦鹏.Email:ripengzhou(@l63.com 主题模型的自动语义标注通常包括2个步骤:
·328 智能系统学报 第7卷 首先构造能够表达各种主题语义的候选标签集,标 有语义关联的主题词,从而建立候选标签集;最后, 签可以是词、短语,也可以是句子;然后,为不同的主 将标签也以主题词概率分布的形式进行描述,并计 题模型选择与其语义相关的一个或多个标签进行标 算其与主题模型的语义相关度,选择具有高语义覆 注.最常用的方法是最大概率主题词标注④],这种 盖度和区分度的多个标签进行标注, 方法的标签集由从文档中抽取的单个词语构成,标 签的选择是根据词语在主题模型当中的分布概率来 2关联主题词的生成 决定的 2.1主题词的语义概念 相对于单个词语的标注方法,采用短语作为标 关联词是依据上下文关系经常搭配使用的词, 签进行标注更容易表达主题模型的语义,因此需要 在自然语言中,为了表达的需要,文本中常常会出现 生成短语标签集合.常用的短语生成方法是基于统 大量关联词.例如,在旅游信息中,“杭州”与“西湖” 计模型的短语抽取56,即根据同现概率获得同现 同时出现的几率非常大,在食品安全事件中,“婴 词,并通过互信息或X测试从文本集中抽取可能的 儿”、“奶粉”与“三聚氰胺”同时出现的几率较大.如 短语.但是,这些方法会受到同义词等问题的影响, 果将这些关联词作为多个语义单元,一方面会增加 因此抽取出的标签会出现语义重复问题,并且仅仅 主题模型的维数,另一方面也降低了主题模型对文 根据概率统计获得的标签也存在语义相关性低或语 档的表达精度,虽然文本特征抽取可以通过预先设 义覆盖性低的问题.此外,如果选择多个标签对主题 定的阈值来降低特征向量的维数,但它不是在保证 模型进行标注,还存在如何比较多标签与主题模型 语义精度的前提下,因此常常适得其反, 的语义相关度、语义覆盖度以及标签间的语义区分 而在另一方面,为了解决主题的表达问题,也必 度等问题.本文提出一种基于关联词的主题模型自 须分析词与词之间的联系,不单是对文本中词的概 动语义标注方法,其框架如图1所示 率统计描述更应从语义上加以理解,此时就需要将 主题词提取 具有语义关联性的词语抽取出来用于描述主题的内 及概念映射 主题词 容.因此,利用关联规则挖掘构造关联词集是一个简 单可行的方法,挖掘具有关联性的词语作为一个语 义单元,既可以实现特征向量的降维,又可以增大主 文本集 主题词特 题表达的准确性.使用关联词集合可以有效地对文 征向量 本特征空间的关联词进行归并,改进主题标注的效 文木主题分析 率和精度 关联主题 词挖掘 构造关联主题词集合需要解决2个问题: 1)同义词问题.由于中文文本存在语法修饰, p(w:18, 不同的词汇表示相同的概念,因此,关联规则算法无 关联词集 法根据中文文本中的深层语义信息挖掘关联词,影 响了关联词归并的质量. 主题模型 ⊕ 2)语义相关性问题.虽然关联规则挖掘可以发 语义相关度计算 现特征词的同现关系,但因为主要反映的是一种统 计规律,所以存在某些规则不能很好反映特征词之 主题标签 tag,tag, 间语义相关性的问题,即某些关联规则在语义上是 无效的 图1基于关联词的主题模型语义标注框架 因此,本文采用“知网”作为概念空间,将特征 Fig.1 Framework of topic model tagging based on as- sociated words 词映射到概念空间,解决同义词问题,同时提出基于 首先从参考文本集中抽取词语,并根据语言本 语义概念分类的关联规则挖掘方法来提高关联词的 体将其映射为义原,实现词语在概念上的归并,从而 语义相关性 获得描述语义概念的主题词,同时主题模型也从一 “知网”[)(HowNet)是著名的采用汉语描述的 般的词语分布转换为概念主题词分布;然后根据实 本体论.它将汉语和英语的词语所代表的概念作为 体、环境、活动等不同语义类别对概念主题词进行分 描述对象,同时描述了概念之间、概念所具有的属性 类,同时采用基于语义分类的关联规则挖掘获得具 之间的关系,并建立了反映这些概念和关系的知识 库.“知网”中,单个或复杂的概念以及各个概念之
第4期 周亦鹏,等:基于关联词的主题模型语义标注 ·329· 间、概念的属性和属性之间的关系是通过义原或义 之后,文本特征向量中的义原和主题特征词分量被 原的组合来进行标注的.这样的好处是虽然新词不 分为实体对象、环境、活动、事件和结果5类,并且根 断出现,但义原的增加却极少.因此,在“知网”中, 据其概率分布,对主题语义的贡献度赋予不同的权 词义就被定义为各种义原的组合 重系数.通过挖掘这5类特征分量间的关联规则,在 在主题的词语概率分布模型中引入“知网”作 发现关联词的同时也有助于反映它们之间的语义联 为背景知识,将主题词映射到义原,可以在一定程度 系.为了避免同类特征项出现在关联规则之中,定义 上解决同义词替换的问题,使得相同概念、不同描述 基于语义分类的关联规则如下, 的词可以进行归并 设文档特征空间中包含的所有义原和特征词构 为了获得主题信息的概念集,首先对文本集 成集合:W={a1,a2,…,a4,t1,2,…,t},其中每 D={d,d2,…,dw}进行预处理,抽取每篇文本d:中 个元素属于一个语义类别K,则定义基于语义分类 权重较高的特征词,构成基于特征词集的特征向量: 的关联规则A+B,其中ACW,BCW,A∩B=☑, V(d)=[坑(d,t)i(d,2)…坑(d,tn)]. 并且,对于规则左部A和右部B中包含的任意项u、 式中:坑为特征词t:在网页d中出现的频率,n为 u,满足K≠K 特征词的数量。 对于文本集D,规则A+B的支持度为s= 然后引人知网,将特征词映射到义原,在将文本 P(A·B),置信度为c=P(B1A). d:中的每个特征词t映射为义原时,首先对具有2 基于语义分类关联规则的关联词集构造算法如下: 个或2个以上语义解释的词t进行语义排歧,获取 1)利用关联规则算法9挖掘基于语义分类的 其对应每个语义解释的概率P,然后以p作为权重 关联规则,获得所有支持度和置信度分别大于、和c 为语义解释涉及到的每个义原α所对应的特征向量 的关联规则; 赋值.由于目前知网收录的词条有限,有些特征词没 重复2)~5),对获得的每一条关联规则的左右 有被知网收录,对于这些特征词予以保留,这样就形 部包含的关联词进行归并; 成了义原加特征词的特征向量: 2)将关联规则右部包含的主题词从主题词集 V(d:)= 合中删除; [o(d,a)…o,a)(d,)…(d(d,)] 3)在归并后的主题词集合中查找含有关联规 式中::(1≤i≤k)为没有被知网收录的特征词, 则任一边的主题词的归并主题词组合; w(d:,a)为义原a:在文本d中的权值: 4)如果找到,则将另一主题词加入到该归并主 题词组合中; tn(d,a)=】 (d54) 5)如找不到归并主题词组合,则以关联规则左 式中:tn(d:,,a:)为文档d:中词条专对义原a:的权重 右部的2个主题词构造一个新的主题词组合,并放 贡献: 人归并后的主题词集合中去; t(d:,,a)=|eft)n{a:}1×乃×入×i(d:,t). 6)在完成所有关联规则的归并后,得到新的主 式中:T9()为词条t对应的义原集合,入为该义原 题词集合,集合内包含多个关联主题词组合,即得到 类别的权重系数 关联词集合。 为了进一步缩减向量维度并提高关联规则挖掘 3关联主题词的语义相关度计算 的支持度和置信度,通过计算义原间的相似度8]可 以进一步将相似义原进行归并.义原相似度的计算 3.1语义相似性计算 方法如下: 在抽取出主题词并得到关联主题词集合后,需 要从其中选择与主题语义相关性高的词作为主题模 Sim(a,az)=dis(a,a2)+a 型的标注词一标签,实现对主题模型的自动语义 式中:dis(a1,a2)是义原a1和a2在知网层次结构中 标注.而语义相关性计算的难点在于标签和主题模 的语义距离,α是一个可调节的参数, 型(主题词的概率分布)之间的匹配.因此本文将标 2.2基于语义分类的关联词集构造 签也以概率分布的方式表示,这样就可以直接与主 经过分析,各类事件信息中的主题词根据语义 题模型相比较 可以分为5类,分别反映了信息中涉及的实体对象、 假设标签1以语义词分布{p(wll)}来表示,则 环境、活动、事件和结果,它们从不同角度描述了事 可以使用Kullback-Leibler(KL)距离算法计算 件信息的语义内容.因此,在建立主题词的概念空间 {p(wl)}与主题{p(wIθ)}之间的相似度.为了获
·330· 智能系统学报 第7卷 得标签l的语义词分布{p(0l)},本文采用一种近 式中:S是已经选择的标签,入是经验参数, 似方法,通过数据集D来估计{p(o1l,D)},以代替 3.3语义区分度计算 {p(w)}.标签和主题之间的语义相似性通过式 以上标签选择方法仅考虑了对单一主题的标注, (1)进行计算. 当对多个主题进行标注时,则需要考虑不同主题间的 S(1.0)=-d(0nl)=-Ep(w1 0)In(w1= 区分,因为如果一个标签在多个主题内都具有较高的 p(wI 1) 相关度,则该标签对于人们区分不同的主题是缺乏帮 ∑p(oIe)np(oID) 助的,因此为多个主题选择标签既需要考虑相关度, p(w1l,D) 也需要考虑区分度,在这种情况下,对式(1)进行修 ∑p(olo)newl p(wID) 正,提出了考虑区分度的语义相似性计算方法: ∑p(ol9)noL,D2 S'(l,0)=S(1,0)-aS(l,0-), p(w11) Sl,0)=-d(0,I)≈Eg,(PI(0,l1D)≈ 2a1on00iD-4o1D, 1 k-.aAΣKo10)a1D)= ∑p(ola),D p(wl 1) -2E,aeID》-E,Qe ∑p(ol0)PM(o,lID)-d(0ID)+Bias(L,D), (3) (1) 式中:0-表示除主题0:之外的其他k-1个主题,即 从式(1)可以看出,标签1和主题0之间的语义 81,2,d-,i+l,…k,k为主题数 相似性包括3个分量,其中分量d(0‖D)表示主题 式(3)通过S'(1,0:)计算跨主题的标签语义相 和情境集之间的KL距离,它对于所有的标签都是 似度并进行排序,可以为多个主题生成语义相关且 相同的,因此在进行排序时可以忽略该值的影响.分 具有一定覆盖度和区分度的标签 量Bias(l,D)可以看作为通过情境数据集D推导标 4实验结果及分析 签1和主题θ之间相关性的偏差,当主题模型和候 选标签均来自于集合D时,可以假定没有偏差.因 4.1实验方案 此,标签和主题相近度的排序主要取决于第1个分 实验选择旅游信息和食品安全事件信息中的 量∑P(o10)PMI(o,l1D),它可以是给定情境下 4200条文本数据构成训练文档集,采用LDA主题 分析方法1]在文本集上建立主题模型,利用快速 标签1和主题模型主题词之间互信息的期望 Gibbs采样进行参数估计,设定主题数K=30,超参 E(PMI(,LID)). 数a=50/K,B=0.1,迭代次数为1000. 3.2语义覆盖度计算 采用本文提出的主题词生成方法进行主题词的 好的标签应该对主题的语义内容有较高的覆盖 提取和关联词集构造,将其作为主题标注的候选标 度,语义相关性仅能保证所选择的标签与主题信息 签集,然后在候选标签集合上,采用本文提出的语义 具有高相关性,但可能仅表达了该主题的部分语义. 相关度计算方法选取能够描述主题语义的标签进行 因此,当选择多个标签对主题进行标记时,希望选择 自动标注. 的新标签能够覆盖主题其他的语义部分,而不是已 有标签已经涵盖的内容. 实验抽取主题词数W=1000,为了控制程序 运行时间,设定概念空间维数为20,关联归并的支 本文采用最大边缘相关(maximal marginal rele 持度s=1%,置信度c=1.5%.最后选择286个关 vance,MMR)方法来选择高语义覆盖度标签.MMR 联主题词,每个关联主题词对应1~3个主题词,构 方法常常用于多文档摘要问题,是一种十分有效的 去冗余并且取得最大相关性和差异性的方法.本文 成主题的候选标签,该标签集记为TagSet-l.同时, 为了与本文的候选标签生成方法进行对比,采用N- 对MMR进行了一定简化以实现对标签的选择,通 过最大化MMR来逐个选择标签,如式(2): gram方法(n=1,2)抽取关键词,并通过X测试选 择前300个主题词建立另一个候选标签集,记为 1= arg max[AS(1,0)-(1-A)maxSim(',)] EL-S TagSet-2,从而利用这2个标签集分别进行主题标 Sim()=-d(=p()n 注,以评价标签集的有效性,在食品安全和旅游信息 p(wl1) 领域采用以上2种方法分别建立的部分候选标签 (2) 如表1所示
第4期 周亦鹏,等:基于关联词的主题模型语义标注 331 表1部分候选标签 型(主题词概率分布)、代表性文档及候选标签集展 Table 1 Some candidate labels 示给志愿者,由他们选择合适的标签进行人工标注, 食品安全候选标签 旅游信息候选标签 可以看出,自动标注的标签基本涵盖了主题的 TagSet-1 TagSet-2 TagSet-1 TagSet-2 语义,尤其在食品安全领域,例如“婴儿奶粉”、 “患”、“肾结石”、“蛋”、“含有”、“苏丹红”等标签已 婴儿奶粉 奶粉 游览路线 景区 经很好地表达了主题语义,与“问题奶粉”、“红心鸭 记者采访 婴幼儿 进入景区 游客 蛋”等人工标注结果较为吻合.某些情况下比人工 医院治疗 肾结石 游客 交通 标注还要准确,例如志愿者因受媒体报道等的影响, 政府监管 乳制品 酒店住宿 游览路线 将禽蛋类食品中发现苏丹红的主题标注为“红心鸭 食物检测 新闻报道 食物制作 酒店价格 蛋”,这是因为最早发现苏丹红是在鸭蛋中,所以媒 企业生产 食品安全 味道 住宿 体将此类事件报道为“红心鸭蛋事件”;而实际上, 主题模型中包括鸡蛋和鸭蛋,本文标注方法将它们 4.2主题标注结果 映射为义原“蛋”并据此生成标签,因此语义上更为 表2和表3分别列出了食品安全和旅游领域的 准确 部分主题的标注结果. 4.3主题标注的有效性 表2部分食品安全主题及相应标签 为了能够准确评价主题标注的有效性,采用评 Table 2 Some food safety topics and corresponding labels 分法将本文标注方法与人工标注和最大概率主题词 本文自动 主题模型 人工标注 标注方法进行比较.其中,最大概率主题词标注根据 标注 主题模型中词语的概率分布选择概率最高的前3个 医院,奶粉,患,出现,婴儿,结 婴儿奶粉 词作为主题标签, 石,治疗,发现,食用,专家,记 问题奶粉 的 标注结果的具体评分方法是:通过5名志愿者 者,原因,孩子,时,肾结石 肾结石 对3种方法的标签进行打分,即将随机排序的主题 鸡蛋,含,发现,苏丹红,中,含 蛋 及其主题词分布、标签和该主题的最相关文档提供 有,进行,鸭蛋,蛋,问题,超市, 红心鸭蛋 含有 给志愿者,由志愿者对3种方法产生的标签分别打 食品,健康,时,报道 苏丹红 分,然后统计平均得分.打分规则是总分为5分,由 销售,生产,还有,造成,我们,事 有关部门 志愿者将这5分按照其对标签准确性的评估分别分 件,标准,作为,有毒,发生,需 政府监管 标准 配给3种方法生成的标签.并且,要求志愿者对仅使 要,部门,危害,应该,管理 管理 用1个标签和使用3个标签进行标注的情况分别打 分,结果如表4所示 表4主题标注的有效性对比 表3部分旅游主题及相应标签 Table 4 Comparison of topic labeling methods Table 3 Some tourism topics and corresponding labels 最大概率 本文 本文自动 数据集 标签数人工标注 主题模型 人工标注 主题词标注自动标注 标注 2.16 0.89 1.94 门票,气温,参观,园,人,气候, 游客 食品安全 1.92 1.41 1.67 直接,路线,之间,票,购买,进景区游览 游览路线 1 3.04 0.76 1.22 入,值得,地区,不宜 购买门票 旅游 2.28 0.97 1.76 菜,味,小,肉,风味,制作,味道 食物制作 从表4中可以看出,虽然在所有情形下人工标 茶,中,时候,食品,食,吃,品尝,地方美食 品尝 注的得分都是最高的,但本文标注方法的得分明显 香 风味 高于最大概率主题词标注方法.在食品安全领域,本 景区,酒店,游客,旅游,价格,宾 酒店住宿 文方法已经接近于人工标注的得分,这主要是因为 馆,市区,当地,方便,他们,很景区住宿 游客 在食品安全领域中,不同主题的主题词之间具有更 多,最好,附近,选择,景点 价格 高的区分度,尤其是一些专有名词和术语主要在特 表2、3中列出了每个主题模型中概率最大的前 定主题中出现. 15个词,以及根据本文方法自动标注的标签.为了 此外,在食品安全领域仅采用1个标签的情况 便于比较,表中也给出了每个主题模型的人工标注 下,本文方法相比最大概率标注方法优势明显,但若 标签.人工标注的具体方法是将每一主题的主题模 采用3个标签,则优势不大.然而在旅游领域使用3
332 智能系统学报 第7卷 个标签的情况下,本文方法仍具有较大优势,这主要 [3]GILDEA D,JURAFSKY D.Automatic labeling of semantic 是因为旅游领域除特定地点或景点主题外,主题词 roles[J].Computer Linguist,2002,28(3):245-288. 多是一些通用词,且某些高概率词的语义类别单一, [4]石晶,李万龙.基于LDA模型的主题词抽取方法[J] 计算机工程,2010,36(19):81-83. 并不能充分表达主题语义.而通过概念映射和建立 SHI Jing,LI Wanlong.Topic words extraction method based 关联词,则可以将属于不同语义类别且具有语义相 on LDA model [J].Computer Engineering,2010,36 关性的主题词组织起来,从而提供更为丰富的语义。 (19):81-83. 例如,“菜”、“肉”、“茶”等主题词被映射为概念“食 [5 BANERJEE S,PEDERSEN T.The design,implementa- 物”,与关联词“制作”共同构成标签“食物制作”,这 tion,and use of the ngram statistics package[C]//Pro- ceedings of the Fourth International Conference on Intelli- 样可以表达更明确的语义. gent Text Processing and Computational Linguistics.Mexico 为了比较不同标签集生成方法的有效性,采用 City,Mexico,2003:370-381. 本文提出的语义相似性计算方法,分别利用TagSet- [6]刘铭,王晓龙,刘远超.基于词汇链的关键短语抽取方法 1和TagSet-22个候选标签集对主题进行标注,并对 的研究[J].计算机学报,2010,33(7):1246-1255. 标注结果打分,总分2分,评分结果如表5所示. LIU Ming,WANG Xiaolong,LIU Yuanchao.Research of key-phrase extraction based on lexical chain[J].Chinese 表5 标签集的有效性对比 Joumal of Computers,2010,33(7):1246-1255 Table 5 Comparison of tag sets [7]孙景广,蔡东风,吕德新,等.基于知网的中文问题自动 数据集 标签数 TagSet-1 TagSet-2 分类[J].中文信息学报,2007,21(1):9095. 1.08 0.92 SUN Jingguang,CAI Dongfeng,LO Dexin,et al.HowNet 食品安全 3 1.12 based Chinese question automatic classification [J].Jour- 0.88 nal of Chinese Information Processing,2007,21(1):90- 1 1.30 0.70 旅游 95. 3 1.22 0.78 [8]夏天.汉语词语语义相似度计算研究[J].计算机工程, 从表5可以看出,本文方法建立的关联词集 2007,33(6):191-194. TagSet--l在总体得分上均高于N-gram关键词集 XIA Tian.Study on Chinese words semantic similarity com- TagSet-2,这主要是因为TagSet-2中存在的多个同义 putation[J].Computer Engineering,2007,33(6):191- 194 或同语义类别词分散了语义相似度的计算结果,如 [9]黄名选,严小卫,张师超.基于矩阵加权关联规则挖掘的 “鸭蛋”、“鸡蛋”和“禽蛋”被作为3个标签分别计算 伪相关反馈查询扩展[J].软件学报,2009,20(7): 语义相似度,导致计算结果偏低,影响了标签的选 1854-1865. 择.而且,TagSet--2中的标签也存在语义类别单一的 HUANG Mingxuan,YAN Xiaowei,ZHANG Shichao.Query 问题,降低了每个标签的语义表达能力. expansion of pseudo relevance feedback based on matrix- weighted association rules mining[J].Joumnal of Software, 5结束语 2009,20(7):1854-1865 [10]石晶,范猛,李万龙.基于LDA模型的主题分析[J]. 提出了一种概率主题模型的自动标注方法,通 自动化学报,2009,35(12):1586-1592. 过主题词提取和语义概念空间上的关联词挖掘方法 SHI Jing,FAN Meng,LI Wanlong.Topic analysis based 来生成候选主题词,并且给出了主题词语义相关性 on LDA model J].Acta Automatica Sinica,2009,35 (12):1586-1592 计算以及高语义覆盖度和区分度标签的选择方法, 作者简介: 实现了主题模型的自动语义标注,解决了对主题词 周亦鹏,男,1976年生,讲师.主要 模型进行语义理解的问题.该方法被用于食品安全 研究方向为人工智能和Web挖掘. 主题和旅游信息主题的自动标注,实验证明该方法 的标注效果优于最大概率主题词标注方法.尤其在 食品安全等专业领域,由于充分考虑了专业术语与 一般词汇的语义区分度和语义覆盖度,使得本文方 法能够取得更好的效果 杜军平,女,1963年生,教授,博士 参考文献: 生导师.主要研究方向为人工智能和数 [1]BLEI D M,NG A Y,JORDAN M I,et al.Latent Dirichlet 据挖掘,承担国家“863”、“973”计划、国 allocation[J].Journal of Machine Learning Research, 家自然科学基金、北京市自然科学基金 2003,3(7):993-1022. 项目等多项,发表学术论文150余篇. [2]COHN D,HOFMANN T.The missing link-a probabilistic model of document content and hypertext connectivity[EB/ OL].[2010-05-10].http://books.nips.cc/nips13.html