第3卷第6期 智能系统学报 Vol.3 No.6 2008年12月 CAAI Transactions on Intelligent Systems Dec.2008 基于Chunk-CRF的情感问答研究 唐琴,宋锐,林鸿飞 (大连理工大学计算机科学与工程系,辽宁大连116024) 摘要:相对于事实性问答系统而言,观点或情感问答系统的研究除了需要考虑观点持有者及情感倾向性等与情感 相关问题以外,其难点还在于答案形式更复杂更分散.从百度知道人工搜集了大量的情感问题,并根据情感问题的 特征,统计并归纳了五大情感问题类型.问题分类模式与传统事实性问答系统不同,不能仅仅根据疑问词对其进行 分类,还需要考虑到观点以及受众的反应.问题分类使用基于Chuk的CRF模型与规则相结合的情感问题分类方 法.在答案抽取时结合组块识别的结果和情感的倾向性,并根据情感问题类型的不同采取不同的方法以获取答案. 实验结果表明了评价体系的有效性, 关键词:事实性问答;情感问答;组块分析:知网 中图分类号:TP391文献标识码:A文章编号:16734785(2008)060504-07 Research on emotional question answering based on Chunk-CRF TANG Qin,SONG Rui,LIN Hong-fei (Department of Computer Science and Engineering,Dalian University of Technology,Dalian 116024,China) Abstract:Emotional question answering analyses opinions,polarity,and other factors related to sentiment analysis. Evaluations are complex compared to those for responses to factual questions.A great number of emotional ques- tions were collected from the internet,and a chunk-conditional random field (CRF)model and heuristic rules were applied to classify them into five types based on the emotional features of the questions.This classification method is different from the factual question classification method,which is mainly based on interrogative words,as it has to take the opinions and responses from users into account.Combined with polarity and recognition results from Chunk-CRF,different answers were extracted according to different question types.The experiment shows that this evaluation system for emotional question answering is effective and efficient. Keywords:factual question answering;emotional QA;chunk-CRF;HowNet 目前事实性问答系统在国内外已有大量的研不同的文档中;另外,观点、情感的抽取及其倾向性 究,然而偏重于观点或情感的问答系统的研究却相 识别以及其持有者的识别等也是结合主观信息的问 对较少.人们不仅想要了解既定的事实,也想了解大 答系统研究的一个难点. 众或他人对于某些特别的话题、人物、或者事件所 近几年情感分析方面的研究使得多视角问答系 持有的观点、想法和感情,诸如“医学界反对克隆人 统研究有一定的进展.文献[1]中构建了一个由535 吗?”,“谁支持克隆人?”,“美国人对布什有什么看 篇新闻文章组成的MPQA(multi-perspective question 法?”等.此类偏重于观点或情感的问答系统研究的 answering))语料集,手工对其中的观点性词语进行了 难点是一个由于主观性问题的答案相对于事实性问 标注,其标注属性有类型、强度大小、观点持有者等, 题而言可能更分散更复杂,其答案甚至可能分布在 文献[2]在文献[1]的语料基础上构造了一个 OpQA(opinion question answering)语料集,对新闻 收稿日期:2008-05-26. 语料中的每个话题构造了6~8个问题,事实性和观 基金项目:国家自然科学基金资助项目(60373095,60673039);国家 点性的问题各一半,在此之上实验,并得出结论,传 863高科技计划资助项目(2006AA01Z151);教育部留学人 员归国科研启动基金资助项目(教外司留[2007]1108). 统问答系统方法不能有效地应用于MPQA,同时也 通信作者:林鸿飞.E-mail:hin@dlut.edu.cm. 表明回答观点性问题时过滤掉事实性句子对MPQA
第6期 唐琴,等:基于Chunk-CRF的情感问答研究 ·505· 有一定的指导作用.文献[3]分别在篇章级和句子 首先根据所搜集的情感问题语料统计并归纳出 级上对观点和事实进行分离,并对句子进行聚类,得 主要的5种问题类型:事实类、原因类、比较类、是否 到摘要作为观点性问题的答案.文献[4]证实了对 类和评价类.由于情感问题不同于一般的事实性问 问题和候选答案句子确定其更精确的情感类型比简 题,故不能简单地根据疑问词对其进行分类.本文采 单只区分主观和事实信息所获得的效果要好. 用基于Chunk-CRF(conditional random fields)与规 从这些研究工作可知,目前多视角问答系统多 则相结合的方法对情感问题进行分类.通过对情感 从观点问答人手,国内这方面的研究很少,并无成熟 问题的分析,发现其中的比较类、是否类和评价类3 的语料资源可用.文献[5]中的问题集部分来自于 类问题询问的是大众的看法.对于这些问题,从文档 互联网上的问卷调查表,部分来源于人工构造 中抽取一句话作为答案并没有实际意义,故统计出 大众的支持度或者反对度,然后将统计结果作为问 1主要研究框架 题的答案并以可视化形式表示出来6.至于事实类 通过百度知道这个丰富的知识库来获取所需要 和原因类问题,其主要询问焦点人物个人的喜好或 的语料.作者发现人们对于焦点人物的关注度很高。 经历,因此采用一般答案抽取方法,即直接从文档中 人们喜欢了解焦点人物的喜好,也想要了解别人对 抽取句子或句子片断作为答案.所以在答案抽取阶 这些公众人物是如何看待的.本文从不同于观点问 段,结合问题的组块识别结果和情感的倾向性,根据 答的角度入手,以娱乐焦点人物的喜好以及大众对 问题类型的不同将采用2种不同的方式来获取问题 其的情感作为研究对象,主要研究思路如下, 的答案.研究框架如图1所示 Chunk-CRF 启发式规则 (命名实体识别 、倾问性识捌 (句子相似度计算 情感,题 比较类是否类评价类 统计大众的支持度 或反对度作为答案 情感问题分类 事实类原因类 抽取句子或句子片 断作为答案 情感问题的两种不同答案抽取方式 知网情感分析词师 同义词词林 图1研究框架 Fig-1 Research framework 2情感问题分类 2.2情感问题类型的划分 对于基于事实的问题,人们一般按照疑问词对 2.1中文情感问题获取 其进行分类.常见的问题类型有询问人时间、数量、 百度知道提供了一个问答平台,使得大众可 地点、定义、原因、实体等几种.同样的,对于情感问 以对他人提出的问题提供答案,包括个人的意见、想 题也需要适当对其进行分类,以便更好地抽取答案 法、甚至喜好.目前百度知道上每个月发起的新问题 但是,基于事实的问题分类体系并不能直接应用于 并且得到解决的问题数已经超过百万.百度知道数 情感问答,如:“刘德华曾经遇到最大的挫折是什 据库已经被越来越多的人所使用. 么?”又如:“(大家认为)刘德华的哪些电影好看?” 我们通过大量浏览百度知道的问题发现人们对 这两个问题从一般问答的角度来看都属于询问实体 于焦点人物如娱乐明星的关注度很高.常见的提问 类型,但从情感角度而言,这两个问题并不能归为 方式如:“大家比较喜欢刘德华还是梁朝伟?”,“刘 类.前者询问的是明星本人的情感,而后者的情感是 德华有什么爱好?”等。 从大众角度出发的.不同类型的情感问题则所对应
·506 智能系统学报 第3卷 的抽取答案的方式将不同.所以为情感问题定义新 4)询问是否类型.这类问题有:“世界上最接近 的类型成为必然,不能简单地以疑问词来区分情感 完美的歌手是杰克逊么?”,“大家喜欢刘亦菲吗?”, 问题,同时必须考虑情感的发出者这一关键因素 “你讨厌李敖吗?”。 通过对问题集中所有情感问题的分析,我们发 5)询问大众对哪位明星或者具体某位明星某 现人们大多倾向于询问以下5种类型的问题: 方面的偏好.此类问题定义为评论类情感问题,这类 1)询问娱乐明星个人喜好和经历等.此类问题 问题与第一类问题句式相似,但更为主观,常见问题 较接近于一般事实性问题,定义为事实类情感问题, 有:“迈克尔杰克逊的哪张唱片最经典?”,“大家觉 如,“朱孝天在什么节目中出言鄙视内地粉丝?”, 得哪位港姐最漂亮?”,“谁是当今中国模特界的男 “李连杰喜欢什么颜色?”,“韩雪喜爱的歌手除了 模第一人?” Avirl Lavigne还有谁?”, 除了以上5种类型,还有其他一些类型,如疑问 2)询问原因类型.如:“周杰伦为什么会这么受 词为“怎么样”类型:“罗大佑的作品风格怎样?” 大众喜欢?”,“明星们为什么怕私人生活被曝光?”, “大家觉得07好男儿张超怎么样?”等问题.由于这 “汤唯怎么一夜成名了?”. 些类型的问题数目太少,本文不加讨论.可以看出, 3)对明星进行比较类型.典型问题有:“井柏 后3种问题相对前2种问题而言更主观.表1是各 然、付辛博、乔任梁,你们更欣赏哪一个?”,“杰克逊 类情感问题统计数据。 和麦当娜谁比较红?” 表1情感问题统计 Table 1 Emotional questions statistics 情感问题类型 特征词 问题数 问题比率/% 事实类 什么,谁 211 24.2 原因类 为什么,怎么 101 11.6 比较类 谁,哪一个,更,比较,是…还是… 108 12.4 是否类 吗,么,是不是,算不算,是否… 160 18.4 评价类 谁,哪位,哪个,哪些… 270 31.9 其他类型 2 2.4 2.3 基于Chunk-CRF模型与规则相结合的情感问 感问答中需要着重解决的问题.本文采用基于 题分类策略 Chunk-CRF及规则相结合的分类策略 考虑到情感问题不同于一般事实性问题的分类 下面列举几组评价类情感问题与事实类情感问 标准,如何构建针对情感问题的自动分类策略是情 题的例子,见表2 表2事实类情感问题与评价类情感问题的对比 Table 2 The comparison of appraise type and fact type 编号 评价类情感问题 编号 事实类情感问题 1 大家认为TVB最漂亮的女演员是谁? 4 李霞最心爱的颜色是哪一种? 2 张学友有哪些歌比较好听? 5 洪涛有哪些业余爱好? 3 井柏然最好听的歌是哪首? 6 方琼最尴尬的事情是什么? 由表2,两类问题本质的区别在于情感的发出 不能取得好的效果.因此采用组块(Chunk)分析的 者并不相同:第一类问题中所包含的情感来自于焦 思想],通过对句子特定组块的识别来进一步获得 点人物本身,而第5类问题中所包含的情感却来自 信息 于大众.这种区别导致了回答问题的方式不同.然 考虑到情感问题的特殊性,首先对情感问题集 而,由于两类问题中都含有用于表达情感的形容词 训练一个基于Chunk标注的CRF模型9),再对模型 等相似的词性特征,甚至具有相似的提问方式,可见 的识别结果引入适当的启发式规则来实现对情感问 单纯的从词法或句法角度来对两类问题进行分类并 题的分类
第6期 唐琴,等:基于Chunk-CRF的情感问答研究 ·507 基于情感问题本身的一些具有区别性的特征, 首先,对于表2中的两类问题的分类,一方面通 采用了如表3所示的Chunk标注体系, 过构建一些启发式规则,如B-NH与B-ADJP的出现 表3 Chunk标注体系 与否,以及具有一些评价意味的指示词短语如“令 Table 3 Chunk annotation scheme 人喜欢”,“受欢迎”等进行区分.同时对于比较复杂 Chunk 说明 的表2中的问题3与问题6的分类则是通过对两个 B-VP 动词短语 问题中提取出的B-NP的处理来实现的. B-QP 疑问词短语 在这里通过引入“知网”中的用于情感分析的 B-ADVP 副词短语 中文词库1对B-NP进行处理.例如,问题3中所识 B-PP 介词短语 别出的B-NP为“好听的歌”,而问题6中识别出的 B-RP 代词 B-NP 除人名外单一的名词或名词短语 B-NP为“尴尬的事情”,两个B-NP短语的起始的形 B-UP 助词 容词分别为“好听”和“尴尬”,这两个形容词在文献 B-NT 时间词短语 [10]中分别属于正面评价词语与负面情感词语.这 B-NL 处所词短语 样这种含有评价词语的情感问题则优先属于第一类 B-ADJP 形容词短语 问题,而只含有正负面情感词语的情感问题则被分 B-NH 焦点人物的人名 到第5类问题中. B-CP 连词短语 其次,在表1中,除表2中的两类问题之外,其 在这个Chunk标注体系中,将焦点人名与其他 他类情感问题的特征则相对要明显些.这里通过对 的名词或短语进行区别标注,并且B-NP中的形容 模型中所识别出的特定的Chunk应用简单的规则 词并不将其单独标记为B-ADP,如包含在B-NP中 加以区分,这些规则主要基于情感问题的疑问词和 如表2中问题4中的“心爱的颜色”将被标注为B- 问题中常见的特征词(见表1). NP;而问题2中的“好听”则将被标注为B-ADJP,这 在情感问题的Chunk标注结果的基础上,通过 样的标注主要是为了加强B-ADP的分类能力.而 引入启发式规则和语义情感资源,实现了对几种主 对于含有形容词的B-NP,其中的形容词则会在后续 要类型的情感问题的分类.同时,作者假定,在 的应用规则分类的阶段加以利用.B-NH与B-RP的 Chunk标注结果与分类结果的基础上,由于情感问 标注则是基于表2中问题1所具有的区别于其他问 题被标注为一个Chunk序列,从而能够针对特定类 题的特征 别的情感问题提取出如表4所示的特定的Chunk序 在利用CRF模型识别出情感问题的Chunk标 列而作为问题的主干.在抽取答案以及情感倾向的 注序列后,对识别的序列应用一些启发式规则侧,来对 判别的过程中作为指示信息而进一步加以利用)」 情感问题进行分类, 表4情感问题Chunk标注示例 Table 4 Examples of Chunk annotations 情感问题类州 例句 Cnk标注结界 关键的Chnk 伊能静喜欢看选的业? 事实类 伊能静喜欢看谁的书? VP OP UP NP NH.VP,OP,NP 潘琉柏的哪首歌好听? 评价类 潘玮柏的哪首歌好听? NH.NP.ADJP NH UP OP NP ADIP 胡歌和明道谁更帅? 比较类 制歌和明道谁更脚? NH CP NH QP ADVP ADJP NH,OP,ADJP 羽泉是不是最成功的组合 是否类 羽泉是不是最成功的组合? NH VP ADVP NP NH.ADVP.NP 原因类 大S为什么会和蓝正龙分手? 大S为住么会和蓝正龙分手? 除OP之外的组块 NH OP VP NII VP 2.4情感问题分类实验 的答案.另外,为了扩大和丰富语料,作者实验室其 作者搜集有关娱乐明星问题共1927个,其中 他成员对事实类和原因类的每个问题分别构造两个 事实性问题1056个,情感问题共871个,爬取百度 答案,其中一个是正确答案,另外一个是不相关但具 知道站点下娱乐明星目录下的网页数目15791,网 有干扰作用的答案;而对其他3种类型的所有问题 页内容主要包括两大部分:用户问题和大众所提供 分别构造对应的两个问题,其中之一是与原问题相
·508 智能系统学报 第3卷 似的问题,另外一个是干扰问题.这些问题和答案与 些观点、看法甚至是某人的喜好,而不是既定的客观 从百度知道中获取的问题和答案组成了情感问题分 事实.所以本文根据2.2节所界定的五大情感问题 类以及后面的答案抽取的实验语料。 类型的特点选择不同的答案抽取策略 手工对所有情感问题语料进行组块标注,取其 对于事实类和原因类情感问题,应用一般事实 中2/3用于训练CRF模型,其余1/3用于测试.使 性问答系统抽取答案的方法,即在获得问题类型以 用CoNLL20O0官方的Chunking评测标准a1,各个 后从已获取的文档集中抽取出相应的正确答案.不 组块识别的结果见表5. 同的是,还需要考虑其情感信息.另外,利用前面组 表5组块识别评测结果 块识别的结果对候选句子进行过滤,如通过名词短 Table 5 Chunk identification results 语的识别进一步获得问题的焦点,如“伊能静喜欢 Chunk 准确度 召回率 F值 看谁的书?”,名词“书”便是问题的焦点.具体答案 ADF 88.24 83.33 85.71 抽取策略如下: ADVP 100 100 100 1)如果问句有人名,则候选答案必须含有相应 CP 92.31 92.31 92.31 的焦点人物的人名; NH 96.61 95.00 95.80 2)候选答案与问题的倾向性保持一致; NP 72.22 76.47 74.29 3)候选答案中至少含有一个问题的焦点中的 PP 66.67 40.00 50.00 名词; QP 87.88 96.67 92.06 4)删掉问句中的疑问词和标点符号后与候选 RP 85.71 80.00 82.76 答案进行相似度计算。 UP 97.62 89.13 93.18 由于评价类、比较类和是否类这3种类型询问 P 88.75 86.59 87.65 的多是大众的看法,故简单地从文档中抽取一句话 以上各组块对于不同类型的情感问题有着不同 作为答案并没有实际意义.这3类问题与基于事实 程度的区分和提示作用.如在获得事实类的情况下, 的问题有着根本的区别,因此导致答案抽取方式的 针对不同的疑问词对事实类进一步细分,而名词短 不一样.2.1节中的百度知道语料,是一个常问问题 语NP的识别则有助于获得问题的焦点,动词短语 知识库,所不同的是每个问题下面所提供的答案形 VP则可以帮助分析情感问题的倾向性, 式更加多样化.本文对于这3种情感问题首先找到 利用以上组块识别的结果,结合规则和情感资 百度知道问题集中的相似问题,其方法如下: 源得到分类的准确率为91.4%,表6为Chunk-CRF 1)候选问句必须含有相应焦点人物的人名; 模型结合规则的评测结果 2)候选问句的倾向性应与问题的倾向性保持 表6问题分类结果 致; Table 6 Question classification results 3)利用基于TF-IDF(term frequency-inverse doc 问题类型 测试数 准确数 准确率/% ument frequency)的方法对问题与候选问句进行相 事实类 70 87 似度计算. 然后通过此相似问题统计其在百度知道中对应 原因类 33 32 97 比较类 哈 的大众所提供的答案,得到大众的支持度或反对度 36 100 作为问题的答案.在对每个答案进行统计时主要考 是否类 53 48 91 虑: 由表6可得,事实类与评价类的准确度稍低, 1)如果问题属于比较类,考虑被比较对象出现 方面是因为这两种问题的句子结构比较相似,另外 的位置,以及其在一定窗口内出现的倾向性词语与 NP和ADP组块识别的错误也导致了问题分类的 问题的倾向性是否一致,一致则得分加1,不一致则 错误.相对于原因类和比较类,是否类句子结构比较 其他对象加1分; 灵活,故准确度相对较低 2)如果问题属于评价类,主要是一些列举问 3答案抽取 题,对答案中列举出来的对象累积列举次数; 3)如果问题属于是否类,则判断是肯定回答还 3.1答案抽取策略 是否定回答,得到支持率与反对率. 情感问题具有非常主观的个人因素,如询问一 统计时由于网络用语的不规范,以及人名特别
第6期 唐琴,等:基于Chunk-CRF的情感问答研究 ·509· 是明星焦点人物名字的多样性都将是统计结果出现 问题的答案最后用图形表示出来.例如比较类 偏差的原因. 问题:“周杰伦跟陈冠希谁更帅?”(百度知道问 30m 回文持搜 题31),统计结果如图2.又如评价类中比较有代表 20 性的问题:“大家最喜欢的港台女明星是谁?”(百度 15 知道问题4]),提问者想要知道哪些明星在人们心 10 目中比较受欢迎.统计时列举出得分较高的前几位, 如图3所示. 陈心希 周杰伦 3.2答案抽取实验 答案抽取实验在前面的基于组块识别的CRF分 图2比较对象的支持度统计结果 Fig.2 Support comparison statistics 类实验的基础上进行.本文采用TREC QA的MRR (mean reciprocal of rank)评测标准,公式如下: 回支持度 M=1分1 n T Ti 其中:M为MRR值,n为所有测试问题的数量,对 网 每个问题,给出5个答案,T:为第i个问题的第一个 正确答案的位置.对于事实类和原因类的每个问题, 察依政孙燕姿王心楼©a张韶涵蔡卓谢刘光英张柏芝 从文档中返回5个答案;而评价类,比较类和是否类 图3列举对象的支持度统计结果 则从问题集中返回相似度最大的前5个问题.若5 Fig.3 Support comparison of enumeration objects 个答案都不正确,则1/:取值为0.表7是答案抽取 实验结果 表7答案抽取实验结果 Table 7 Answer extraction results 问题类型 问题测试数 分类准确数 答案排在第1位 答案排在前5位 公 事实类 70 61 45 50 0.679 原因类 33 32 20 26 0.684 比较类 36 36 18 33 0.704 是否类 53 阳 32 42 0.686 评价类 90 81 54 70 0.681 由表7可知事实类问题的答案抽取结果比较 众对其的情感作为研究对象.在所搜集的情感问题 低,一方面由于分类实验中将其错误地分到了其他 语料的基础上,根据问题的特点,归纳了五大情感问 类别当中,特别是将其分成了评价类;由于这两种问 题类型.由于情感问题的特殊性,本文利用基于组块 题的答案抽取的方式存在根本的不同,导致得到了 思想的CRF模型结合一定的规则和语义情感资源 错误的答案.另一方面,通过组块识别所获得的问题 对情感问题进行分类,其缺陷是需要大量的手工标 焦点极大地缩小了候选答案的范围,但是其严格的 注.在答案抽取时结合了组块识别的结果和情感的 限制可能使得漏掉正确答案.因此本文应用哈工大 倾向性,并根据情感问题类型的不同采取了不同的 的《同义词词林(扩展版)》对问题的焦点名词进行 策略以获取答案.下一步工作需要扩大情感问题的 扩充来提高答案抽取的召回率.比较类中多个人名 语料,丰富问题类型,以便在问题分析时获得更多的 的限制提高了答案抽取的准确度,但人名识别的准 特征.另外也需要结合更多的情感倾向性知识来指 确度将严重制约答案的抽取.另外,部分错误还来自 导答案的抽取, 于句子倾向性识别, 参考文献: 4结束语 [1]CARDIE C,WIEBE J,LITMAN D,et al.Combining low- 本文从百度知道这个丰富的知识库中人工搜集 level and summary representations of opinions for multi-per- 了大量的情感问题,以娱乐焦点人物的喜好以及大 spective question answering C]//Proceedings of AAAI
·510. 智能系统学报 第3卷 Spring Symposium Workshop.Stanford,Califonia,USA, html/e index.html. 2003:20-27. [11]KRISHNAN V,DAS S,CHAKRABARTI S.Enhanced [2]STOYANOV V,CARDIE C,WIEBE J.Multi-perspective answer type inference from questions using sequential mod- questions answering using the OpQA corpus[C]//Proceed- els[C]//Proceedings of Human Language Technology ings of the Human Language Technology Conference and Conference and Conference on Empirical Methods in Natu- Conference on Empiricial Methods in Natural Language Pro- ral Language Processing (HLT/EMNLP).Vancouver, cessing.Vancouver,Canada,2005:923-930. Canada,2005:315-322 [3]YU H,HATZIVASSILOGLOU V.Towards answering opin- [12]CoNLL-2000.Text chunking:A perl seript for perform- ion questions:separating facts from opinions and identifying ance measuring EB/OL].[2008-05-01].http://www. the polarity of opinion sentences[C]//Proceedings of the cnts.ua.ac.be/conll2000/chunking/conlleval.txt. 2003 Conference on Empirical Methods in Natural Language [13]亚洲四小龙.周杰伦跟陈冠希哪个更帅[EB/0L]. Processing.Sapporo,Japan,2003:129-136. 2008-04-15 ]http://zhidao.baidu.com/question/ [4]SOMASUNDARAN S,WILSON T,WIEBE J,et al.QA 13834567.html?i=1. with attitude:exploiting opinion type analysis for improving [14]XUYING8763.大家最喜欢的港台的女明星是谁[EB/ question answering in on-line discussions and the news OL].[2008-04-15].http://zhidao.baidu.com/ques- C]//Proceedings of the International Conference on tion/174674.html?si =1. Weblogs and Social Media.Boulder,Colorado,USA, 作者简介: 2007. 唐琴,女,1982年生,硕士研究 [5]KU Lunwei,LIANG Yuting,CHEN Hsinhsi.Question a- 生,主要研究方向为问答系统和自然语 nalysis and answer passage retrieval for opinion question an- 言处理 swering systems[C]//Proceedings of 19th Conference on Computational Linguistics and Speech Processing.Taipei, China,2007:177-190. [6]CHKLOVSKI T.Deriving quantitative overviews of free text 宋锐,男,1984年生,硕士研究 assessments on the web[C]//Proceedings of the 11th inter- 生,主要研究方向为情感计算和自动文 national conference on Intelligent User interfaces.New 摘。 York,USA,2006:155-162. [7 BAIDU.Baidu[EB/OL].2008-05-02 ]http:// zhidao.baidu.com. [8 ABNEY S.Parsing by chunks M]//BERWICK R,AB- 林鸿飞,男,1962生,教授,博士生 NEY S,TENNY C.Principle-Based Parsing.Dordrecht: 导师,现任《中文信息学报》编委,中文 Kluwer Academic Publishers,1991. 信息学会理事,中国中文信息学会信息 [9]LAFFERTY J,MCCALLUM A,PEREIRA F.Conditional 检索专业委员会委员,中国人工智能学 random fields:Probabilistic models for segmenting and labe- 会离散数学专业委员会副主任,中国人 ling sequence data[C]//Proc 18th Intemational Conf on 工智能学会机器学习专业委员会委员. Machine Learning.San Francisco,USA,2001:282-289. 主要研究方向为搜索引擎、文本挖掘、情感计算和自然语言 [10]DONG Zhendong.HowNet knowledge datatase[EB/OL] 理解.主持多项国家自然科学基金和863项目.发表学术论 (200803-12).[200804-10].htp:/www.keenage..com/ 文100余篇