【自然语言处理与理解】基于关联词的主题模型语义标注

团购合买资源类别：文库，文档格式：PDF，文档页数：12，文件大小：1.05MB

《智能系统学报》第二届编辑委员会委员名单 The Second Editorial Board of CAAI Transactions on Intelligent Systems 顾问Consultants 杨子YANG Shuzi 李行达LI Yanda 吴启迪WUQd 张钱ZHANG Bo 郑南宁ZHENG Nannin吨赵沁平ZHA0 Qinping涂序查TU Xuyan 在保宗YUAN Baong 童天湘TONG Tianxiang 董祖美DONG Yunm 主任Chairman何新贵HE Xingui 副主任Vice Chairmen 徐玉如XU Yun 蔡自兴CAI Zixing 孙增圻SUN Zen可秦世引QIN Shiyin 王科俊WANG Kejun 委员Members 丁水生DING Yongsheng 马少平MA Shaoping 马世龙MA Shilong 尹怡欣YIN Yiin 王龙WANG Long 王万森WANG Wansen 王飞跃WANGFeiyue 王立权WANG Liqu 王志良WANG Zhiliang 王国胤WANG Guoyin 王科復WANG Kejun 冯嘉礼FENGJiali 史忠植SHⅢZhongzhi 田金文TIAN Jinwen 朱齐丹ZHU Qidan 庄越挺ZHUANG Yueting 刘丁uUDi 刘民UM 刘宏LJU Hong 刘胜LIU Sheng 刘清UQi吨刘增良LIU Zengliang 孙增折SUN Zengri 配秋骑RUAN Qiup 何清HE Qing 何华灿HE Huacan 何新贵H亚Xingi 吴快军WU Tiejun 张军ZHANG Jun 张长水ZHANG Changhui 张汝被ZHANG Rubo 张铭钩ZHANG Mingjun 杜军平D0 Junping 迟惠生C印Huisheng 邱玉辉QIU Yuhui 陈杰CHEN Jie 范多旺FAN Duowan唱周志华ZHOU Zhih 施要飞SHI Pengfei 春红卷ZHA Hongbin 段海滨DUAN Haibin 赵琳ZHAO Lin 钟义信ZHONG Yigin 除玉如XUYuru 徐若冰XU Ruobing 秦世引QIN Shiyi面贾英民LA Yingmi血郭军GU0Jun 黄心汉HUANG Xinhar 曹元大CAO Yunda 焦李成IAO Lichen% 韩力群HAN Liqun 鲁华样LU Huxinng 蔡文CAI Wen 蔡自兴CAI Zixing 国间International Consultants G.Sanniti Di Baja,Istituto di Cibernetica,CNR.Italy T.J.Tamn.Washington University,USA 国际委员International Members Don Hong.Middle Temesee Stste University,USA Fanika Mercier-Laurent,Jean Moulin Univenity Lymn 3,French Hyouk Ryeol Choi,Sungkyunkwan University.Koree Jean-Claude Latomhe,Stanford University,USA Jiebo Luo.Eastmun Kodak Company.USA Technology,Japun Laurent Itti.University of Southem Califomia,USA Randall Davis.Maseschu setts Institute of Technology,USA Reinhard Klette,The University of Auckland,New Zealand Ronald L.Yager,Mohammed VUniversity,Moroo Shuzhi Sam Ge,The National Univerity of Singpore,Singpore Wankyun Chung,POSTECH,Koree Xindong Wu.University of Vermiont,USA 编Chief Editor 钟义信ZHONG Yixin 副编Vice Chief Editor 徐若冰XU Ruobing 编辑部主任Director 徐若冰XU Ruobing 编辑部副主任Deputy Directors 刘玉明LIU Yuming 李雪莲L山Xuelian 责任编辑Responsible Editors 马兰兰MA Lanle 刘充充IU Liangliang 英文编兼)English Editor(Part-time) 朱玉珍ZHU Ywhen Andrew Knox (USA)

CAAI Transactions on Intelligent Systems Vol.7 No.4 (Sum No.36) Aug.2012 Contents A comprehensive review of fundamental theory and methodology for tremor suppression of human arm based on robotic exoskeleton technology..SUN Jian,XIANG Kui,GAO Lifu,LI Tao,GE Yunjian(283) Research progress and analysis on methods for classification of RVM ............................................HAO chunhui,ZHANG Vi(294) Design of an FPGA-based double-precision floating-point matrix multiplier with pipeline architecture ........LIU Peihua,LU Huaxiang,GONG Guoliang,LIU Wenpeng (302) A text clustering model for diverse versions discovery ................XIAO Rong,KONG Liang,ZHANG Yan(307) Estimation of blur parameters in image restoration .......WANG Wei,ZHENG Jinjin,LIU Xing,ZHOU Hongjun,SHEN Lianguan(315) Hemostasis mechanism based precise fault-tolerant control for redundant parallel manipulator ........GUO Chongbin,HAO Kuangrong,DING Yongsheng(321) Semantic tagging of a topic model based on associated words …………e…… ZHOU Yipeng,DU Junping(327) Event detection based on visual attention shift …ZHANG Likun,SUN Jiande,LI Jing(333)） EEG feature extraction method based on wavelet transform and sample entropy …ZHANG Yi,.LU0 Mingwei,LU0Yuan(339） An adaptive augmented unscented Kalman filter with applications in a SINS/GPS integrated navigation system .....................SUN Yao,MA Tao,GAO Yanbin,WANG Lu(345) Quasi-average-consensus control of hybrid swarm agents with discrete time ..............................................................................LIBo,wU Shugin,cU Minggin(352) A model of emotion game for chasing between virtual humans … BIAN Yulong,LIU Zhen (358) Research on an expert recommendation model based on the scholar community SCHOLAT ...........LI Chunying,TANG Yong,CHEN Guohua,TANG Zhikang(365) Function optimization based on an improved hybrid ACO CHEN Mingjie,HUANG Baichuan,ZHANG Min(370) International The Fourth International Conference on Swarm Intelligence (ICSI'2013)..........................(314) 9th International Conference on Machine Learning and Data Mining (MLDM)2013..........................(338) 2nd International Conference on Computer Science and Network Technology(ICCSNT 2012)...............(344) The 4th National Conference on Intelligent Information Processing.......(351) International Conference on Automation,Control and Robotics (ICACR'2012).........(364) The 2013 IEEE International Conference on Robotics and Automation (ICRA 2013)..................(376) Serial parameters:CN23-1538/TP*2006*b*A4*94*zh*P*￥15.00*1500*14*2012-08

第7卷第4期智能系统学报 Vol.7 No.4 2012年8月 CAAI Transactions on Intelligent Systems Aug.2012 D0I:10.3969/i.issn.16734785.201204017 网络出版t地址：htp://www.cnki.net/kcma/detail/23.1538.TP.20120712.1111.008.html 基于关联词的主题模型语义标注周亦鹏，杜军平2 (1.北京工商大学计算机与信息工程学院，北京100048；2.北京邮电大学智能通信软件与多蝶体北京市重，点实验室，北京100876) 摘要：互联网主题分析中经常采用概率主题模型对主题进行描述，但存在对于一般用户难以理解的问题，提出一种概率主题模型的自动语义标注方法.首先通过基于语义分类的关联规则挖掘关联主题词并建立候选标签集合，然后以关联词在数据集中的概率分布来设计相关性判别函数，计算候选标签和主题模型的相关度，最后根据最大边缘相关选择高语义覆盖度和区分度的标签.在食品安全和旅游领域主题模型标注的实验表明，与最大概率主题词标记方法相比，提出的方法能够明显提高标注的准确性，并且解决了多标签标记中语义类别单一的问题，能够以较少数量的标签表达更为丰富的语义，这有助于进一步实现更为准确的主题跟踪和主题信息检索。关键词：主题分析；语义标注；生成模型；关联词；关联规则中图分类号：TP391文献标志码：A文章编号：16734785(2012)04032706 Semantic tagging of a topic model based on associated words ZHOU Yipeng,DU Junping (1.School of Computer Science and Information Engineering,Beijing Technology and Business University,Beijing 100048,China; 2.Beijing Key Laboratory of Intelligent Telecommunications Software and Multimedia,Beijing University of Posts and Telecommunica- tions,Beijing 100876,China) Abstract:In topic analysis field of Internet,the probabilistic topic model is often used to describe topic seman- teme.But the semanteme of a topic model is difficult for users to understand.An automatic semantic tagging meth- od of a probabilistic topic model is proposed.Firstly,an association rule mining algorithm based on semantic cate- gories is presented to get associated topic words,which consist of a candidate tag set.Then,according to the prob- ability of associated words,a semantic correlation function is used to calculate semantic correlation of candidate tags and topic model.At last,a maximal marginal relevance method is used to select tags with better semantic coverage and discrimination.The experimental results of food safety and tourism topic model proved that,compared with maximum probability topic words tagging method,the proposed method can improve accuracy of topic tagging obvi- ously,and can express more abundant semantemes with a small number of tags,which solve the problem of single semantic category in the multi-tagging method.So it is helpful to achieve more accurate topic tracking and topic in- formation retrieval. Keywords:topic analysis;semantic tagging;generative model;associated words;association rule 主题分析通常采用概率生成模型，如LDA、PL是取概率较高的若干个语义词来表示主题含义3]， SA等方法，以语义词概率分布的形式描述主题12]，但这种方法也常常不能准确表示整个分布所覆盖的这使得一般用户较难理解主题的内容.通常的方法全部语义.因此，提出一种主题模型的自动标注方法，提取具有一定语义覆盖度和区分度的主题关联收稿日期：2012-04-20.网络出版日期：201207-12. 词来描述主题的内容。基金项目：国家“973”计划资助项目(2012CB821206):国家自然科学基金资助项目(91024001,61070142)；北京市自然科学基 1主题模型的语义标注金资助项目(4111002). 通信作者：周亦鹏.Email:ripengzhou(@l63.com 主题模型的自动语义标注通常包括2个步骤：

·328 智能系统学报第7卷首先构造能够表达各种主题语义的候选标签集，标有语义关联的主题词，从而建立候选标签集；最后，签可以是词、短语，也可以是句子；然后，为不同的主将标签也以主题词概率分布的形式进行描述，并计题模型选择与其语义相关的一个或多个标签进行标算其与主题模型的语义相关度，选择具有高语义覆注.最常用的方法是最大概率主题词标注④]，这种盖度和区分度的多个标签进行标注，方法的标签集由从文档中抽取的单个词语构成，标签的选择是根据词语在主题模型当中的分布概率来 2关联主题词的生成决定的 2.1主题词的语义概念相对于单个词语的标注方法，采用短语作为标关联词是依据上下文关系经常搭配使用的词，签进行标注更容易表达主题模型的语义，因此需要在自然语言中，为了表达的需要，文本中常常会出现生成短语标签集合.常用的短语生成方法是基于统大量关联词.例如，在旅游信息中，“杭州”与“西湖” 计模型的短语抽取56，即根据同现概率获得同现同时出现的几率非常大，在食品安全事件中，“婴词，并通过互信息或X测试从文本集中抽取可能的儿”、“奶粉”与“三聚氰胺”同时出现的几率较大.如短语.但是，这些方法会受到同义词等问题的影响，果将这些关联词作为多个语义单元，一方面会增加因此抽取出的标签会出现语义重复问题，并且仅仅主题模型的维数，另一方面也降低了主题模型对文根据概率统计获得的标签也存在语义相关性低或语档的表达精度，虽然文本特征抽取可以通过预先设义覆盖性低的问题.此外，如果选择多个标签对主题定的阈值来降低特征向量的维数，但它不是在保证模型进行标注，还存在如何比较多标签与主题模型语义精度的前提下，因此常常适得其反，的语义相关度、语义覆盖度以及标签间的语义区分而在另一方面，为了解决主题的表达问题，也必度等问题.本文提出一种基于关联词的主题模型自须分析词与词之间的联系，不单是对文本中词的概动语义标注方法，其框架如图1所示率统计描述更应从语义上加以理解，此时就需要将主题词提取具有语义关联性的词语抽取出来用于描述主题的内及概念映射主题词容.因此，利用关联规则挖掘构造关联词集是一个简单可行的方法，挖掘具有关联性的词语作为一个语义单元，既可以实现特征向量的降维，又可以增大主文本集主题词特题表达的准确性.使用关联词集合可以有效地对文征向量本特征空间的关联词进行归并，改进主题标注的效文木主题分析率和精度关联主题词挖掘构造关联主题词集合需要解决2个问题： 1)同义词问题.由于中文文本存在语法修饰， p(w:18, 不同的词汇表示相同的概念，因此，关联规则算法无关联词集法根据中文文本中的深层语义信息挖掘关联词，影响了关联词归并的质量. 主题模型 ⊕ 2)语义相关性问题.虽然关联规则挖掘可以发语义相关度计算现特征词的同现关系，但因为主要反映的是一种统计规律，所以存在某些规则不能很好反映特征词之主题标签 tag,tag, 间语义相关性的问题，即某些关联规则在语义上是无效的图1基于关联词的主题模型语义标注框架因此，本文采用“知网”作为概念空间，将特征 Fig.1 Framework of topic model tagging based on as- sociated words 词映射到概念空间，解决同义词问题，同时提出基于首先从参考文本集中抽取词语，并根据语言本语义概念分类的关联规则挖掘方法来提高关联词的体将其映射为义原，实现词语在概念上的归并，从而语义相关性获得描述语义概念的主题词，同时主题模型也从一 “知网”[)(HowNet)是著名的采用汉语描述的般的词语分布转换为概念主题词分布；然后根据实本体论.它将汉语和英语的词语所代表的概念作为体、环境、活动等不同语义类别对概念主题词进行分描述对象，同时描述了概念之间、概念所具有的属性类，同时采用基于语义分类的关联规则挖掘获得具之间的关系，并建立了反映这些概念和关系的知识库.“知网”中，单个或复杂的概念以及各个概念之

第4期周亦鹏，等：基于关联词的主题模型语义标注 ·329· 间、概念的属性和属性之间的关系是通过义原或义之后，文本特征向量中的义原和主题特征词分量被原的组合来进行标注的.这样的好处是虽然新词不分为实体对象、环境、活动、事件和结果5类，并且根断出现，但义原的增加却极少.因此，在“知网”中，据其概率分布，对主题语义的贡献度赋予不同的权词义就被定义为各种义原的组合重系数.通过挖掘这5类特征分量间的关联规则，在在主题的词语概率分布模型中引入“知网”作发现关联词的同时也有助于反映它们之间的语义联为背景知识，将主题词映射到义原，可以在一定程度系.为了避免同类特征项出现在关联规则之中，定义上解决同义词替换的问题，使得相同概念、不同描述基于语义分类的关联规则如下，的词可以进行归并设文档特征空间中包含的所有义原和特征词构为了获得主题信息的概念集，首先对文本集成集合：W={a1,a2,…,a4,t1,2,…,t},其中每 D={d,d2,…,dw}进行预处理，抽取每篇文本d:中个元素属于一个语义类别K,则定义基于语义分类权重较高的特征词，构成基于特征词集的特征向量：的关联规则A+B,其中ACW,BCW,A∩B=☑， V(d)=[坑(d,t)i(d,2)…坑(d,tn)]. 并且，对于规则左部A和右部B中包含的任意项u、式中：坑为特征词t:在网页d中出现的频率，n为 u,满足K≠K 特征词的数量。对于文本集D,规则A+B的支持度为s= 然后引人知网，将特征词映射到义原，在将文本 P(A·B),置信度为c=P(B1A). d:中的每个特征词t映射为义原时，首先对具有2 基于语义分类关联规则的关联词集构造算法如下：个或2个以上语义解释的词t进行语义排歧，获取 1)利用关联规则算法9挖掘基于语义分类的其对应每个语义解释的概率P,然后以p作为权重关联规则，获得所有支持度和置信度分别大于、和c 为语义解释涉及到的每个义原α所对应的特征向量的关联规则；赋值.由于目前知网收录的词条有限，有些特征词没重复2)~5)，对获得的每一条关联规则的左右有被知网收录，对于这些特征词予以保留，这样就形部包含的关联词进行归并；成了义原加特征词的特征向量： 2)将关联规则右部包含的主题词从主题词集 V(d:)= 合中删除； [o(d,a)…o,a)(d,)…(d(d,)] 3)在归并后的主题词集合中查找含有关联规式中：：(1≤i≤k)为没有被知网收录的特征词，则任一边的主题词的归并主题词组合； w(d:,a)为义原a:在文本d中的权值： 4)如果找到，则将另一主题词加入到该归并主题词组合中； tn(d,a)=】 (d54) 5)如找不到归并主题词组合，则以关联规则左式中：tn(d:,,a:)为文档d:中词条专对义原a:的权重右部的2个主题词构造一个新的主题词组合，并放贡献：人归并后的主题词集合中去； t(d:,,a）=|eft)n{a:}1×乃×入×i(d:,t). 6)在完成所有关联规则的归并后，得到新的主式中：T9()为词条t对应的义原集合，入为该义原题词集合，集合内包含多个关联主题词组合，即得到类别的权重系数关联词集合。为了进一步缩减向量维度并提高关联规则挖掘 3关联主题词的语义相关度计算的支持度和置信度，通过计算义原间的相似度8]可以进一步将相似义原进行归并.义原相似度的计算 3.1语义相似性计算方法如下：在抽取出主题词并得到关联主题词集合后，需要从其中选择与主题语义相关性高的词作为主题模 Sim(a,az)=dis(a,a2)+a 型的标注词一标签，实现对主题模型的自动语义式中：dis(a1,a2)是义原a1和a2在知网层次结构中标注.而语义相关性计算的难点在于标签和主题模的语义距离，α是一个可调节的参数，型（主题词的概率分布）之间的匹配.因此本文将标 2.2基于语义分类的关联词集构造签也以概率分布的方式表示，这样就可以直接与主经过分析，各类事件信息中的主题词根据语义题模型相比较可以分为5类，分别反映了信息中涉及的实体对象、假设标签1以语义词分布{p(wll)}来表示，则环境、活动、事件和结果，它们从不同角度描述了事可以使用Kullback-Leibler(KL)距离算法计算件信息的语义内容.因此，在建立主题词的概念空间 {p(wl)}与主题{p(wIθ)}之间的相似度.为了获

·330· 智能系统学报第7卷得标签l的语义词分布{p(0l)},本文采用一种近式中：S是已经选择的标签，入是经验参数，似方法，通过数据集D来估计{p(o1l,D)},以代替 3.3语义区分度计算 {p(w)}.标签和主题之间的语义相似性通过式以上标签选择方法仅考虑了对单一主题的标注， (1)进行计算. 当对多个主题进行标注时，则需要考虑不同主题间的 S(1.0)=-d(0nl)=-Ep(w1 0)In(w1= 区分，因为如果一个标签在多个主题内都具有较高的 p(wI 1) 相关度，则该标签对于人们区分不同的主题是缺乏帮 ∑p(oIe)np(oID) 助的，因此为多个主题选择标签既需要考虑相关度， p(w1l,D) 也需要考虑区分度，在这种情况下，对式(1)进行修 ∑p(olo)newl p(wID) 正，提出了考虑区分度的语义相似性计算方法： ∑p(ol9)noL,D2 S'(l,0)=S(1,0)-aS(l,0-), p(w11) Sl,0）=-d(0,I)≈Eg,(PI(0,l1D)≈ 2a1on00iD-4o1D, 1 k-.aAΣKo10)a1D）= ∑p(ola),D p(wl 1) -2E,aeID》-E,Qe ∑p(ol0)PM(o,lID）-d(0ID)+Bias(L,D), (3) (1) 式中：0-表示除主题0：之外的其他k-1个主题，即从式(1)可以看出，标签1和主题0之间的语义 81,2,d-,i+l,…k,k为主题数相似性包括3个分量，其中分量d(0‖D)表示主题式(3)通过S'(1,0:)计算跨主题的标签语义相和情境集之间的KL距离，它对于所有的标签都是似度并进行排序，可以为多个主题生成语义相关且相同的，因此在进行排序时可以忽略该值的影响.分具有一定覆盖度和区分度的标签量Bias(l,D)可以看作为通过情境数据集D推导标 4实验结果及分析签1和主题θ之间相关性的偏差，当主题模型和候选标签均来自于集合D时，可以假定没有偏差.因 4.1实验方案此，标签和主题相近度的排序主要取决于第1个分实验选择旅游信息和食品安全事件信息中的量∑P(o10)PMI(o,l1D),它可以是给定情境下 4200条文本数据构成训练文档集，采用LDA主题分析方法1]在文本集上建立主题模型，利用快速标签1和主题模型主题词之间互信息的期望 Gibbs采样进行参数估计，设定主题数K=30,超参 E(PMI(,LID)). 数a=50/K,B=0.1,迭代次数为1000. 3.2语义覆盖度计算采用本文提出的主题词生成方法进行主题词的好的标签应该对主题的语义内容有较高的覆盖提取和关联词集构造，将其作为主题标注的候选标度，语义相关性仅能保证所选择的标签与主题信息签集，然后在候选标签集合上，采用本文提出的语义具有高相关性，但可能仅表达了该主题的部分语义. 相关度计算方法选取能够描述主题语义的标签进行因此，当选择多个标签对主题进行标记时，希望选择自动标注. 的新标签能够覆盖主题其他的语义部分，而不是已有标签已经涵盖的内容. 实验抽取主题词数W=1000,为了控制程序运行时间，设定概念空间维数为20，关联归并的支本文采用最大边缘相关(maximal marginal rele 持度s=1%,置信度c=1.5%.最后选择286个关 vance,MMR)方法来选择高语义覆盖度标签.MMR 联主题词，每个关联主题词对应1~3个主题词，构方法常常用于多文档摘要问题，是一种十分有效的去冗余并且取得最大相关性和差异性的方法.本文成主题的候选标签，该标签集记为TagSet-l.同时，为了与本文的候选标签生成方法进行对比，采用N- 对MMR进行了一定简化以实现对标签的选择，通过最大化MMR来逐个选择标签，如式(2)： gram方法(n=1,2)抽取关键词，并通过X测试选择前300个主题词建立另一个候选标签集，记为 1= arg max[AS(1,0)-(1-A)maxSim(',)] EL-S TagSet-2,从而利用这2个标签集分别进行主题标 Sim()=-d(=p()n 注，以评价标签集的有效性，在食品安全和旅游信息 p(wl1) 领域采用以上2种方法分别建立的部分候选标签 (2) 如表1所示

第4期周亦鹏，等：基于关联词的主题模型语义标注 331 表1部分候选标签型（主题词概率分布）、代表性文档及候选标签集展 Table 1 Some candidate labels 示给志愿者，由他们选择合适的标签进行人工标注，食品安全候选标签旅游信息候选标签可以看出，自动标注的标签基本涵盖了主题的 TagSet-1 TagSet-2 TagSet-1 TagSet-2 语义，尤其在食品安全领域，例如“婴儿奶粉”、 “患”、“肾结石”、“蛋”、“含有”、“苏丹红”等标签已婴儿奶粉奶粉游览路线景区经很好地表达了主题语义，与“问题奶粉”、“红心鸭记者采访婴幼儿进入景区游客蛋”等人工标注结果较为吻合.某些情况下比人工医院治疗肾结石游客交通标注还要准确，例如志愿者因受媒体报道等的影响，政府监管乳制品酒店住宿游览路线将禽蛋类食品中发现苏丹红的主题标注为“红心鸭食物检测新闻报道食物制作酒店价格蛋”，这是因为最早发现苏丹红是在鸭蛋中，所以媒企业生产食品安全味道住宿体将此类事件报道为“红心鸭蛋事件”；而实际上，主题模型中包括鸡蛋和鸭蛋，本文标注方法将它们 4.2主题标注结果映射为义原“蛋”并据此生成标签，因此语义上更为表2和表3分别列出了食品安全和旅游领域的准确部分主题的标注结果. 4.3主题标注的有效性表2部分食品安全主题及相应标签为了能够准确评价主题标注的有效性，采用评 Table 2 Some food safety topics and corresponding labels 分法将本文标注方法与人工标注和最大概率主题词本文自动主题模型人工标注标注方法进行比较.其中，最大概率主题词标注根据标注主题模型中词语的概率分布选择概率最高的前3个医院，奶粉，患，出现，婴儿，结婴儿奶粉词作为主题标签，石，治疗，发现，食用，专家，记问题奶粉的标注结果的具体评分方法是：通过5名志愿者者，原因，孩子，时，肾结石肾结石对3种方法的标签进行打分，即将随机排序的主题鸡蛋，含，发现，苏丹红，中，含蛋及其主题词分布、标签和该主题的最相关文档提供有，进行，鸭蛋，蛋，问题，超市，红心鸭蛋含有给志愿者，由志愿者对3种方法产生的标签分别打食品，健康，时，报道苏丹红分，然后统计平均得分.打分规则是总分为5分，由销售，生产，还有，造成，我们，事有关部门志愿者将这5分按照其对标签准确性的评估分别分件，标准，作为，有毒，发生，需政府监管标准配给3种方法生成的标签.并且，要求志愿者对仅使要，部门，危害，应该，管理管理用1个标签和使用3个标签进行标注的情况分别打分，结果如表4所示表4主题标注的有效性对比表3部分旅游主题及相应标签 Table 4 Comparison of topic labeling methods Table 3 Some tourism topics and corresponding labels 最大概率本文本文自动数据集标签数人工标注主题模型人工标注主题词标注自动标注标注 2.16 0.89 1.94 门票，气温，参观，园，人，气候，游客食品安全 1.92 1.41 1.67 直接，路线，之间，票，购买，进景区游览游览路线 1 3.04 0.76 1.22 入，值得，地区，不宜购买门票旅游 2.28 0.97 1.76 菜，味，小，肉，风味，制作，味道食物制作从表4中可以看出，虽然在所有情形下人工标茶，中，时候，食品，食，吃，品尝，地方美食品尝注的得分都是最高的，但本文标注方法的得分明显香风味高于最大概率主题词标注方法.在食品安全领域，本景区，酒店，游客，旅游，价格，宾酒店住宿文方法已经接近于人工标注的得分，这主要是因为馆，市区，当地，方便，他们，很景区住宿游客在食品安全领域中，不同主题的主题词之间具有更多，最好，附近，选择，景点价格高的区分度，尤其是一些专有名词和术语主要在特表2、3中列出了每个主题模型中概率最大的前定主题中出现. 15个词，以及根据本文方法自动标注的标签.为了此外，在食品安全领域仅采用1个标签的情况便于比较，表中也给出了每个主题模型的人工标注下，本文方法相比最大概率标注方法优势明显，但若标签.人工标注的具体方法是将每一主题的主题模采用3个标签，则优势不大.然而在旅游领域使用3

332 智能系统学报第7卷个标签的情况下，本文方法仍具有较大优势，这主要 [3]GILDEA D,JURAFSKY D.Automatic labeling of semantic 是因为旅游领域除特定地点或景点主题外，主题词 roles[J].Computer Linguist,2002,28(3):245-288. 多是一些通用词，且某些高概率词的语义类别单一， [4]石晶，李万龙.基于LDA模型的主题词抽取方法[J] 计算机工程，2010,36(19)：81-83. 并不能充分表达主题语义.而通过概念映射和建立 SHI Jing,LI Wanlong.Topic words extraction method based 关联词，则可以将属于不同语义类别且具有语义相 on LDA model [J].Computer Engineering,2010,36 关性的主题词组织起来，从而提供更为丰富的语义。 (19):81-83. 例如，“菜”、“肉”、“茶”等主题词被映射为概念“食 [5 BANERJEE S,PEDERSEN T.The design,implementa- 物”，与关联词“制作”共同构成标签“食物制作”，这 tion,and use of the ngram statistics package[C]//Pro- ceedings of the Fourth International Conference on Intelli- 样可以表达更明确的语义. gent Text Processing and Computational Linguistics.Mexico 为了比较不同标签集生成方法的有效性，采用 City,Mexico,2003:370-381. 本文提出的语义相似性计算方法，分别利用TagSet- [6]刘铭，王晓龙，刘远超.基于词汇链的关键短语抽取方法 1和TagSet-22个候选标签集对主题进行标注，并对的研究[J].计算机学报，2010,33(7)：1246-1255. 标注结果打分，总分2分，评分结果如表5所示. LIU Ming,WANG Xiaolong,LIU Yuanchao.Research of key-phrase extraction based on lexical chain[J].Chinese 表5 标签集的有效性对比 Joumal of Computers,2010,33(7):1246-1255 Table 5 Comparison of tag sets [7]孙景广，蔡东风，吕德新，等.基于知网的中文问题自动数据集标签数 TagSet-1 TagSet-2 分类[J].中文信息学报，2007,21(1)：9095. 1.08 0.92 SUN Jingguang,CAI Dongfeng,LO Dexin,et al.HowNet 食品安全 3 1.12 based Chinese question automatic classification [J].Jour- 0.88 nal of Chinese Information Processing,2007,21(1):90- 1 1.30 0.70 旅游 95. 3 1.22 0.78 [8]夏天.汉语词语语义相似度计算研究[J].计算机工程，从表5可以看出，本文方法建立的关联词集 2007,33(6):191-194. TagSet--l在总体得分上均高于N-gram关键词集 XIA Tian.Study on Chinese words semantic similarity com- TagSet-2,这主要是因为TagSet-2中存在的多个同义 putation[J].Computer Engineering,2007,33(6):191- 194 或同语义类别词分散了语义相似度的计算结果，如 [9]黄名选，严小卫，张师超.基于矩阵加权关联规则挖掘的 “鸭蛋”、“鸡蛋”和“禽蛋”被作为3个标签分别计算伪相关反馈查询扩展[J].软件学报，2009,20(7)：语义相似度，导致计算结果偏低，影响了标签的选 1854-1865. 择.而且，TagSet--2中的标签也存在语义类别单一的 HUANG Mingxuan,YAN Xiaowei,ZHANG Shichao.Query 问题，降低了每个标签的语义表达能力. expansion of pseudo relevance feedback based on matrix- weighted association rules mining[J].Joumnal of Software, 5结束语 2009,20(7):1854-1865 [10]石晶，范猛，李万龙.基于LDA模型的主题分析[J]. 提出了一种概率主题模型的自动标注方法，通自动化学报，2009,35(12)：1586-1592. 过主题词提取和语义概念空间上的关联词挖掘方法 SHI Jing,FAN Meng,LI Wanlong.Topic analysis based 来生成候选主题词，并且给出了主题词语义相关性 on LDA model J].Acta Automatica Sinica,2009,35 (12):1586-1592 计算以及高语义覆盖度和区分度标签的选择方法，作者简介：实现了主题模型的自动语义标注，解决了对主题词周亦鹏，男，1976年生，讲师.主要模型进行语义理解的问题.该方法被用于食品安全研究方向为人工智能和Web挖掘. 主题和旅游信息主题的自动标注，实验证明该方法的标注效果优于最大概率主题词标注方法.尤其在食品安全等专业领域，由于充分考虑了专业术语与一般词汇的语义区分度和语义覆盖度，使得本文方法能够取得更好的效果杜军平，女，1963年生，教授，博士参考文献：生导师.主要研究方向为人工智能和数 [1]BLEI D M,NG A Y,JORDAN M I,et al.Latent Dirichlet 据挖掘，承担国家“863”、“973”计划、国 allocation[J].Journal of Machine Learning Research, 家自然科学基金、北京市自然科学基金 2003,3(7):993-1022. 项目等多项，发表学术论文150余篇. [2]COHN D,HOFMANN T.The missing link-a probabilistic model of document content and hypertext connectivity[EB/ OL].[2010-05-10].http://books.nips.cc/nips13.html

点击下载完整版文档（PDF格式）

共12页，试读结束，阅读完整版请下载

点击下载（PDF格式）

浏览记录