第4卷第2期 智能系统学报 Vol 4 Ng 2 2009年4月 CAA I Transactions on Intelligent Systems Apr 2009 基于语法的情感词汇自动获取 陈建美,林鸿飞,杨志豪 大连理工大学电子与信息工程学院,辽宁大连116024) 摘要:情感计算是目前人工智能领域的热门课题,而词汇的情感计算又是准确完成文本情感计算的基础.目前情 感词汇的获取大多采用人工获取的方法,如何自动地获取情感词汇,已成为当前情感计算研究亟需解决的问题,提 出了情感词汇的自动提取机制,首先分析了情感词汇的一般语法规律,例如,重叠的规律,受否定词、程度副词修饰 的规律等.然后在情感词汇的这些语法规律的基础上运用CF模型实现了情感词汇的自动获取.最后,分析了不同 的语法规律对情感词汇自动获取的作用大小,并对实验结果进行了详细分析,实验结果表明情感词汇自动获取方法 是有效的 关键词:情感词汇;词汇自动获取,情感计算;条件随机域 中图分类号:TP3913文献标识码:A文章编号:1673-4785(2009)020100-07 Automatic acquisition of emotional vocabulary ba sed on syntax CHEN Jianmei,L N Hong-fei,YANG Zhi-hao (School of Electronic and Infomation Engineering,Dalian University of Technology,Dalian 116024,China) A bstract:A ffective computation has received more and more attentions in the field of artific ial intelligence;howev- er,the calculation of affective lexicon ontology is a requirement for affective computation of texts Atpresent,most emotional lexicons are obtained by manual methods The automatic acquisition of emotional lexicons has become an urgent task that needs to be addressed This paper presents an automatic acquisition method for emotional lexicons The authors analyzed the general syntactical rules of emotional lexicons,such as the rules of overlapp ing words, then rules goveming how these acquired emotional words were modified by privatives and degree adverbs Then we used the conditional random fields (CRF)model to acquire emotional words based on the general rules Finally, we analyzed the effects of various syntax rules on the automatic acquisition of emotional vocabulary Experments were done and the results showed that the proposed method is effective for automatic acquisition of emotional words Keywords:emotional vocabulary,automatic vocabulary acquisition:affective computer conditional random field 人类之间的沟通与交流是自然而富有感情的,算文本的情感在许多方面有着广阔的应用前景,如 因此,在人机交互的过程中,人们也很自然地期望计颜色条表示文章的情感结构)、自动聊天系统) 算机具有情感能力.情感计算口就是要赋予计算机 文语转换、舆论监控等等 类似于人一样的观察、理解和生成各种情感特征的 词汇的情感计算是文本的情感计算的基础.目 能力,最终使计算机像人一样能进行自然、亲切和生 前,关于情感词汇方面的资源比较少,英文的有 动地交互,目前在情感计算方面所做的研究主要集 WordNet,可以利用WordNet Domain对其进行分类 中在声音、图像、生理信号和文本几方面.随着ner 划分出WordNet-A ffec类.中文的有知网的情感分 net的发展,以文本形式出现的信息越来越多,逐渐 析用词语集州!,该词语集将情感分为正面和负面2 成为最容易获取也是最为丰富的一种交互资源.计 种.但是人类的情感却不是非正即负的,而是喜、怒、 收稿日期:2008-12-16 哀、乐等丰富多彩的因此,细致而准确的文本情感 基金项目:国家自然科学基金资助项目(60373095,60673039):田家 计算,需要多类别的情感词汇的支持 “863计划资助项目(2006AA01Z151):教育部留学人员归 国启动基金资助项目(教外留司[2007]1108号). 通信作者:林鸿飞.Emaik hflin@dlut edu cn 1994-2009 China Academic Journal Electronic Publishing House.All rights reserved.http://www.cnki.net
第 4卷第 2期 智 能 系 统 学 报 Vol. 4 №. 2 2009年 4月 CAA I Transactions on Intelligent System s Ap r. 2009 基于语法的情感词汇自动获取 陈建美 ,林鸿飞 ,杨志豪 (大连理工大学 电子与信息工程学院 ,辽宁 大连 116024) 摘 要 :情感计算是目前人工智能领域的热门课题 ,而词汇的情感计算又是准确完成文本情感计算的基础. 目前情 感词汇的获取大多采用人工获取的方法 ,如何自动地获取情感词汇 ,已成为当前情感计算研究亟需解决的问题. 提 出了情感词汇的自动提取机制 ,首先分析了情感词汇的一般语法规律 ,例如 ,重叠的规律 ,受否定词、程度副词修饰 的规律等. 然后在情感词汇的这些语法规律的基础上 ,运用 CRF模型实现了情感词汇的自动获取. 最后 ,分析了不同 的语法规律对情感词汇自动获取的作用大小 ,并对实验结果进行了详细分析 ,实验结果表明情感词汇自动获取方法 是有效的. 关键词 :情感词汇 ;词汇自动获取 ;情感计算 ;条件随机域 中图分类号 : TP391. 3 文献标识码 : A 文章编号 : 167324785 (2009) 0220100207 Automatic acquisition of emotional vocabulary based on syntax CHEN Jian2mei, L IN Hong2fei, YANG Zhi2hao ( School of Electronic and Information Engineering, Dalian University of Technology, Dalian 116024, China) Abstract:Affective computation has received more and more attentions in the field of artificial intelligence; howev2 er, the calculation of affective lexicon ontology is a requirement for affective computation of texts. A t p resent, most emotional lexicons are obtained by manualmethods. The automatic acquisition of emotional lexicons has become an urgent task that needs to be addressed. This paper p resents an automatic acquisition method for emotional lexicons. The authors analyzed the general syntactical rules of emotional lexicons, such as the rules of overlapp ing words, then rules governing how these acquired emotional words were modified by p rivatives and degree adverbs. Then we used the conditional random fields (CRF) model to acquire emotional words based on the general rules. Finally, we analyzed the effects of various syntax rules on the automatic acquisition of emotional vocabulary. Experiments were done and the results showed that the p roposed method is effective for automatic acquisition of emotionalwords. Keywords: emotional vocabulary; automatic vocabulary acquisition; affective computer; conditional random field 收稿日期 : 2008212216. 基金项目 :国家自然科学基金资助项目 ( 60373095, 60673039) ;国家 “863”计划资助项目 (2006AA01Z151) ;教育部留学人员归 国启动基金资助项目 (教外留司 [ 2007 ]1108号 ). 通信作者 :林鸿飞. E2mail: hflin@dlut. edu. cn. 人类之间的沟通与交流是自然而富有感情的 , 因此 ,在人机交互的过程中 ,人们也很自然地期望计 算机具有情感能力. 情感计算 [ 1 ]就是要赋予计算机 类似于人一样的观察、理解和生成各种情感特征的 能力 ,最终使计算机像人一样能进行自然、亲切和生 动地交互. 目前在情感计算方面所做的研究主要集 中在声音、图像、生理信号和文本几方面. 随着 Inter2 net的发展 ,以文本形式出现的信息越来越多 ,逐渐 成为最容易获取也是最为丰富的一种交互资源. 计 算文本的情感在许多方面有着广阔的应用前景 ,如 颜色条表示文章的情感结构 [ 2 ]、自动聊天系统 [ 3 ]、 文语转换、舆论监控等等. 词汇的情感计算是文本的情感计算的基础. 目 前 ,关于情感词汇方面的资源比较少 ,英文的有 WordNet,可以利用 WordNet Domain对其进行分类 , 划分出 WordNet2Affect类. 中文的有知网的“情感分 析用词语集 ” [ 4 ] ,该词语集将情感分为正面和负面 2 种. 但是人类的情感却不是非正即负的 ,而是喜、怒、 哀、乐等丰富多彩的. 因此 ,细致而准确的文本情感 计算 ,需要多类别的情感词汇的支持
第2期 陈建美,等:基于语法的情感词汇自动获取 101· 关系:E代表词汇的情感信息,包括情感类别、情感 1情感词汇本体库 强度、情感极性,是情感词汇描述框架中比较重要的 大连理工大学的情感词汇本体将情感分为7大 一部分. 类20个小类51,如表1所示.情感词汇本体通过一 情感本体的基本知识主要来源于现有的一些词 个三元组来描述: 典和语义网络.其中词典包括《现代汉语分类词 Lexicon =(B.R.E) 典》、汉语褒贬义词语用法词典》)、《中华成语 式中:B表示词汇的基本信息,主要包括编号、词条、 大词典》/I等等.语义知识网络有知网和WordNet 对应英文、词性、录入者和版本信息:R代表词汇之 另外还加入了《汉语情感系统中情感划分的研 间的同义关系,即表示该词汇与哪些词汇有同义的 究》中的部分词汇 表1情感分类 Table 1 Affective chassifica tion 编号情感大类 情感小类 例词 数量个 1 乐 快乐 喜悦欢喜、笑咪咪欢天喜地 840 安心 踏实、宽心、定心丸、问心无愧 234 好 尊敬、恭敬、敬爱、毕恭毕敬、肃然起敬 451 赞扬 英俊优秀、通情达理、实事求是 5602 相信 信任、信赖、可靠、毋庸置疑 204 6 喜爱 倾慕宝贝、一见钟情、爱不释手 765 7 怒 愤怒 气愤恼火、大发雷霆、七窍生烟 264 8 哀 悲伤 忧伤悲苦、心如刀割,悲痛欲绝 659 9 失望 憾事、绝望、灰心丧气、心灰意冷 243 10 疚 内疚忏悔过意不去问心有愧 85 分 相思、思念、牵肠挂肚、朝思暮想 127 12 惧 慌 慌张心慌、不知所措、手忙脚乱 202 13 恐惧 胆怯、害怕担惊受怕、胆颤心惊 338 14 羞 害羞、害臊、面红耳赤、无地自容 74 15 恶 烦闷 憋闷、烦躁、心烦意乱、自寻烦恼 712 16 憎恶 反感、可耻、恨之入骨深恶痛绝 1086 17 贬责 呆板、虚荣、杂乱无章心狠手辣 5025 18 妒忌 眼红吃醋、醋坛子、嫉贤妒能 19 怀疑 多心、生疑将信将疑疑神疑鬼 67 20 惊 惊奇 奇怪、奇迹、大吃一惊瞠目结舌 134 目前,该情感词汇本体已收录情感词汇17156 研究.与之相似的研究有:领域词汇的自动获取和倾 个,为段落级和文本级的情感计算提供了基础和依 向性词汇的自动获取.领域词汇的自动获取,目前的 据.但是,这17156个情感词汇的获取基本采用人 方法主要有:前景背景语料的方法1、领域词汇特 工的方法,既费时又费力,如何在现有的情感词汇资 定模式匹配的方法川、以及计算未知词汇和种子词 源的基础之上自动地获取情感词汇,从而节省人工 汇MI(pointw ise mutual info mation)的方法I2.倾 成本成为了亟需解决的问题 向性词汇的自动获取,目前的方法主要有模式匹 配和计算M4-15 2相似研究 文献[10中使用前景背景语料的方法,来获取 关于情感词汇的自动获取,目前还没有相关的 体育新闻领域的词汇.前景背景语料的构建需要有 1994-2009 China Academic Journal Electronic Publishing House.All rights reserved. http://www.cnki.net
1 情感词汇本体库 大连理工大学的情感词汇本体将情感分为 7大 类 20个小类 [ 5 ] ,如表 1所示. 情感词汇本体通过一 个三元组来描述 : Lexicon = (B , R, E). 式中 : B 表示词汇的基本信息 ,主要包括编号、词条、 对应英文、词性、录入者和版本信息; R 代表词汇之 间的同义关系 ,即表示该词汇与哪些词汇有同义的 关系; E代表词汇的情感信息 ,包括情感类别、情感 强度、情感极性 ,是情感词汇描述框架中比较重要的 一部分. 情感本体的基本知识主要来源于现有的一些词 典和语义网络. 其中词典包括《现代汉语分类词 典 》 [ 6 ]、《汉语褒贬义词语用法词典 》 [ 7 ]、《中华成语 大词典 》 [ 8 ]等等. 语义知识网络有知网和 WordNet. 另外还加入了《汉语情感系统中情感划分的研 究 》 [ 9 ]中的部分词汇. 表 1 情感分类 Table 1 Affective cla ssifica tion 编 号 情感大类 情感小类 例 词 数量 /个 1 乐 快乐 喜悦、欢喜、笑咪咪、欢天喜地 840 2 安心 踏实、宽心、定心丸、问心无愧 234 3 好 尊敬、恭敬、敬爱、毕恭毕敬、肃然起敬 451 4 赞扬 英俊、优秀、通情达理、实事求是 5 602 5 相信 信任、信赖、可靠、毋庸置疑 204 6 喜爱 倾慕、宝贝、一见钟情、爱不释手 765 7 怒 愤怒 气愤、恼火、大发雷霆、七窍生烟 264 8 哀 悲伤 忧伤、悲苦、心如刀割 ,悲痛欲绝 659 9 失望 憾事、绝望、灰心丧气、心灰意冷 243 10 疚 内疚、忏悔、过意不去、问心有愧 85 11 思 相思、思念、牵肠挂肚、朝思暮想 127 12 惧 慌 慌张、心慌、不知所措、手忙脚乱 202 13 恐惧 胆怯、害怕、担惊受怕、胆颤心惊 338 14 羞 害羞、害臊、面红耳赤、无地自容 74 15 恶 烦闷 憋闷、烦躁、心烦意乱、自寻烦恼 712 16 憎恶 反感、可耻、恨之入骨、深恶痛绝 1 086 17 贬责 呆板、虚荣、杂乱无章、心狠手辣 5 025 18 妒忌 眼红、吃醋、醋坛子、嫉贤妒能 44 19 怀疑 多心、生疑、将信将疑、疑神疑鬼 67 20 惊 惊奇 奇怪、奇迹、大吃一惊、瞠目结舌 134 目前 ,该情感词汇本体已收录情感词汇 17 156 个 ,为段落级和文本级的情感计算提供了基础和依 据. 但是 ,这 17 156个情感词汇的获取基本采用人 工的方法 ,既费时又费力 ,如何在现有的情感词汇资 源的基础之上自动地获取情感词汇 ,从而节省人工 成本 ,成为了亟需解决的问题. 2 相似研究 关于情感词汇的自动获取 ,目前还没有相关的 研究. 与之相似的研究有 :领域词汇的自动获取和倾 向性词汇的自动获取. 领域词汇的自动获取 ,目前的 方法主要有 :前景背景语料的方法 [ 10 ]、领域词汇特 定模式匹配的方法 [ 11 ]、以及计算未知词汇和种子词 汇 PM I( pointwise mutual information)的方法 [ 12 ] . 倾 向性词汇的自动获取 ,目前的方法主要有模式匹 配 [ 13 ]和计算 PM I [ 14215 ] . 文献 [ 10 ]中使用前景背景语料的方法 ,来获取 体育新闻领域的词汇. 前景背景语料的构建需要有 第 2期 陈建美 ,等 :基于语法的情感词汇自动获取 ·101·
·102· 智能系统学报 第4卷 明显的领域界限,而情感词汇没有明显的领域界限, 子级和篇章级的情感规律又和词汇级的情感规律有 即使是在相对而言比较客观的说明文中,也常常包 所不同.例如,在句子级情感计算中,可以考虑句子 含情感词汇 间连接词的规律,句类的规律和句子的长度规律等 文献[l3]中使用“and”、“or”、“but”作为模 等.而词汇的情感计算,由于处理的对象粒度相对较 式,来获取有倾向性的形容词对.这种方法仅仅考虑 小,因而所能利用的规律也相对较少.在观察大量情 了形容词,对于动词、名词、副词等则不予考虑.而 感词汇以及情感词汇的上下文后,总结出了以下的 且模式有限,难以扩充」 情感词汇的一般语法规律 文献[14]认为汉语词汇的少量Morpheme(词 31词性规律 素)可以很好地指示大量汉语词汇的语义倾向,选 中文自然语言处理一般都需要进行分词和词性 取含有强烈语义倾向的Mopheme.,如:“奖、胜、优、 标注的预处理.词汇和词性为后继的各种分析理解 富、健、欢、荣、努、顺”,“伤、贪、疑、困、急、妄、禁、 提供了基础.其中,词性可以作为情感词汇判断的一 拒”,使用M的方法,进行词汇的自动语义倾向判 个显著特征 断.但是文献[14]的作者认为,这种方法只在小规 本文使用哈尔滨工业大学的分词和词性标注系 模的语料范围内是有效的 统.该标注系统包含的词性为28种.在各个词性中, 文献【15]中使用AltaV ista搜索引擎索引的大 情感词的分布却不是均匀的,一般形容词、副词、叹 规模语料,选用具有强烈语义倾向的词汇,如“exce上 词、名词、动词含有情感的比较多,而连词、数词、介 lent”、“poor作为基准词,计算ML来判断词汇的 词、量词代词则含有情感的相对较少,由于情感词 语义倾向。 汇的词性分布不均匀性,可以在情感词汇的识别过 倾向性词汇是指褒贬二义的词汇而情感词汇 程中,使用词性的规律」 还包括较多的中性词汇,例如表1中的“大吃一惊” 32词汇规律 不是一个倾向性的词汇,但是表达惊奇的情感, 在情感词汇中观察到这样的情况,某些词汇,例 是一个情感词汇.倾向性词汇只是情感词汇的一部 如:的”、地”、“得等,常常和情感词汇共同出 分,由于情感词的范围太广,基准词的选取存在一定 现,可以作为情感词汇识别的词汇规律.例如: 的困难.而且情感词汇相对于褒贬二义倾向性词汇 “隔壁桌上一位热心的华人热情地帮助了他 而言更复杂,除了ML还需要其他的语言学特征, 们,”(《少年文摘》2006年第3期,任帝星的意大利 才能识别得比较准确,而搜索引擎只能返回点击数 音乐之旅). 和少量的文摘片段,不利于语言学特征的提取 “对于零用钱少得可怜的我来说,要赔一个随 就MI而言,Manning在《Foundations of Statisti- 身听是一件艰巨的事情”(《少年文艺》2006年第4 cal Natural Language Processing》)中提到l6l:“互信息 期,报复). 是衡量独立性的一种很好的方法,但是不是衡量依 “母亲的聪明使父亲微笑得摇头晃脑,全家兴 赖性的一种很好的方法.因为对于依赖性来说,互信 冲冲地等待着四弟露面”(《文学少年》(初中版) 息的值由单独词的频率决定.在其他条件相等的情 2006年第3期,四弟的绿庄园). 况下,由低频率词组成的二元组的互信息要大于高 3.3词汇重叠规律 频率词组成的二元组” 词汇的重叠主要集中在动词、形容词、副词 由于情感词汇的特殊性,不能使用以上的各种方 对于动词的重叠,代表性的观点首先是朱德熙 法进行情感词汇的自动获取.本文使用条件随机域 1980年提出的时量动量说.他认为“动词重叠式 (conditonal random field,CRF)的机器学习方法,将 表示动作的量”,即时量和动量.从这个观点他引申 情感词汇的语法规律作为特征模版,由CRF自动生 出:1)表短时量的重叠式动词用在祈使句里,可以 成特征,进行情感词汇的自动获取.实验突破了形容 使口气显得和缓些;2)表动量小的重叠式常常表 词词性和模式的限制,实现了情感词汇的自动获取. 示尝试.其次是刘月华于1983年在朱德熙的基础上 提出了“表达功能说,主要观点是:1)表己然的动 3情感词汇的一般语法规律 词重叠,具有描写作用:2)表未然的动词重叠,具有 在进行情感词汇获取之前,首先要明确情感词 缓和语气的作用,是委婉表达主观愿望的一种方式: 汇的一般语法规律.目前对于情感规律的研究还比 3)有些动词重叠,表示经常性的、反复进行的动作 较少,仅有的研究也主要集中在句子级和篇章级句 包含轻松随便的意味).朱德熙和刘月华关于动 1994-2009 China Academic Journal Electronic Publishing House.All rights reserved.http://www.cnki.net
明显的领域界限 ,而情感词汇没有明显的领域界限 , 即使是在相对而言比较客观的说明文中 ,也常常包 含情感词汇. 文献 [ 13 ]中使用 “and”、“or”、“but”作为模 式 ,来获取有倾向性的形容词对. 这种方法仅仅考虑 了形容词 ,对于动词、名词、副词等 ,则不予考虑. 而 且模式有限 ,难以扩充. 文献 [ 14 ]认为汉语词汇的少量 Morpheme (词 素 )可以很好地指示大量汉语词汇的语义倾向 ,选 取含有强烈语义倾向的 Morpheme,如 :“奖、胜、优、 富、健、欢、荣、努、顺 ”,“伤、贪、疑、困、急、妄、禁、 拒 ”,使用 PM I的方法 ,进行词汇的自动语义倾向判 断. 但是文献 [ 14 ]的作者认为 ,这种方法只在小规 模的语料范围内是有效的. 文献 [ 15 ]中使用 A ltaV ista搜索引擎索引的大 规模语料 ,选用具有强烈语义倾向的词汇 ,如“excel2 lent”、“poor”作为基准词 ,计算 PM I,来判断词汇的 语义倾向. 倾向性词汇是指褒贬二义的词汇 ,而情感词汇 还包括较多的中性词汇 ,例如表 1中的“大吃一惊 ” 不是一个倾向性的词汇 ,但是表达“惊奇 ”的情感 , 是一个情感词汇. 倾向性词汇只是情感词汇的一部 分 ,由于情感词的范围太广 ,基准词的选取存在一定 的困难. 而且情感词汇相对于褒贬二义倾向性词汇 而言更复杂 ,除了 PM I,还需要其他的语言学特征 , 才能识别得比较准确 ,而搜索引擎只能返回点击数 和少量的文摘片段 ,不利于语言学特征的提取. 就 PM I而言 ,Manning在《Foundations of Statisti2 cal Natural Language Processing》中提到 [ 16 ] :“互信息 是衡量独立性的一种很好的方法 ,但是不是衡量依 赖性的一种很好的方法. 因为对于依赖性来说 ,互信 息的值由单独词的频率决定. 在其他条件相等的情 况下 ,由低频率词组成的二元组的互信息要大于高 频率词组成的二元组. ” 由于情感词汇的特殊性 ,不能使用以上的各种方 法进行情感词汇的自动获取. 本文使用条件随机域 ( conditional random field, CRF)的机器学习方法 ,将 情感词汇的语法规律作为特征模版 ,由 CRF自动生 成特征 ,进行情感词汇的自动获取. 实验突破了形容 词词性和模式的限制 ,实现了情感词汇的自动获取. 3 情感词汇的一般语法规律 在进行情感词汇获取之前 ,首先要明确情感词 汇的一般语法规律. 目前对于情感规律的研究还比 较少 ,仅有的研究也主要集中在句子级和篇章级. 句 子级和篇章级的情感规律又和词汇级的情感规律有 所不同. 例如 ,在句子级情感计算中 ,可以考虑句子 间连接词的规律 ,句类的规律和句子的长度规律等 等. 而词汇的情感计算 ,由于处理的对象粒度相对较 小 ,因而所能利用的规律也相对较少. 在观察大量情 感词汇以及情感词汇的上下文后 ,总结出了以下的 情感词汇的一般语法规律. 3. 1 词性规律 中文自然语言处理一般都需要进行分词和词性 标注的预处理. 词汇和词性为后继的各种分析理解 提供了基础. 其中 ,词性可以作为情感词汇判断的一 个显著特征. 本文使用哈尔滨工业大学的分词和词性标注系 统. 该标注系统包含的词性为 28种. 在各个词性中 , 情感词的分布却不是均匀的 ,一般形容词、副词、叹 词、名词、动词含有情感的比较多 ,而连词、数词、介 词、量词、代词则含有情感的相对较少. 由于情感词 汇的词性分布不均匀性 ,可以在情感词汇的识别过 程中 ,使用词性的规律. 3. 2 词汇规律 在情感词汇中观察到这样的情况 ,某些词汇 ,例 如 :“的 ”、“地 ”、“得 ”等 ,常常和情感词汇共同出 现 ,可以作为情感词汇识别的词汇规律. 例如 : “隔壁桌上一位热心的华人热情地帮助了他 们 , ”(《少年文摘 》2006年第 3期 ,任帝星的意大利 音乐之旅 ). “对于零用钱少得可怜的我来说 ,要赔一个随 身听是一件艰巨的事情 ”(《少年文艺 》2006年第 4 期 ,报复 ). “母亲的聪明使父亲微笑得摇头晃脑 ,全家兴 冲冲地等待着四弟露面 ”(《文学少年 》(初中版 ) 2006年第 3期 ,四弟的绿庄园 ). 3. 3 词汇重叠规律 词汇的重叠主要集中在动词、形容词、副词. 对于动词的重叠 ,代表性的观点首先是朱德熙 1980年 提出的“时量动量 ”说. 他认为“动词重叠式 表示动作的量 ”,即时量和动量. 从这个观点他引申 出 : 1) 表短时量的重叠式动词用在祈使句里 ,可以 使口气显得和缓些 ; 2) 表动量小的重叠式常常表 示尝试. 其次是刘月华于 1983年在朱德熙的基础上 提出了“表达功能 ”说 ,主要观点是 : 1) 表已然的动 词重叠 ,具有描写作用 ; 2) 表未然的动词重叠 ,具有 缓和语气的作用 ,是委婉表达主观愿望的一种方式 ; 3) 有些动词重叠 ,表示经常性的、反复进行的动作 , 包含轻松、随便的意味 [ 17 ] . 朱德熙和刘月华关于动 ·102· 智 能 系 统 学 报 第 4卷
第2期 陈建美,等:基于语法的情感词汇自动获取 ·103· 词重叠的研究,都说明了动词重叠对于情感表达的 Pylx)=ep(∑入i(e y|ex)+ 影响,无论是语气上隐含的情感,还是主观愿望上直 c∈Ek 接的情感」 4&e川x (1)》 对于形容词的重叠和情感表达的联系,朱德熙 情感词汇标注正是一个序列标注问题,当前词 在1956年曾举了这样的例子:“白白的”有主观的 是不是情感词不仅仅由词本身决定,而且受当前词 感情色彩,而“白的没有 上下文的影响.采用条件随机域CRF++工具包, 对于副词的重叠,一般表达强调修饰,如“匆 进行情感词汇的自动标注.C℉F++工具包使用方 匆、老老实实、慌慌张张、忙忙碌碌等,而强调一般 便,只需要按照工具包要求的格式,整理训练语料和 都含有某种情感。 测试语料以及特征模版,CRF++就能自动地按照 3.4否定词与词性搭配规律 特征模版和训练语料选取特征,并生成相应的模型」 否定词与形容词搭配,其中的形容词一般是情 42实验步骤 感词汇,例如: 实验语料选自《少年文艺》、猜年文摘》、《新青 “为什么这么不用心?”《秒年文摘》,2006年第 年等9本文学期刊,选择2006年的有强烈感情色 1期,当时年少春衫薄). 彩的文章515篇,22955个句子,人工地标注其中的 “爱因斯坦很快与弗莱克斯纳之间发生了一些 情感词汇2).实验采用4倍交叉验证(4-fold cross 不愉快.”(《少年文摘》2006然后第3期,令人留恋 validation)的方法,将数据集分成4份,轮流将其中 的学者“大酒店”). 3份做训练,1份做测试,4次的结果的均值作为对 本文中否定词的获取是通过知网实现的.在知 算法精度的估计.交叉验证的方法能够排除单一验 网中选取具有否定意义的义原,如:{neg否},{m- 证的随机性对实验结果的影响,从而比较客观地体 possible不会等,从中抽取出包含否定义原的概 现算法的效果 念,经人工过滤得到18个否定词 以下是情感词汇自动获取的实验步骤 3.5程度副词修饰规律 1)将上文获得的否定词、程度副词以及人工标 汉语言中,关于程度副词的分类、各类的作用以 注的情感词汇,加入哈工大的分词和词性标注系统 及程度副词与其他词性的搭配有很多的研究.其中, 的扩展词典,进行分词和词性标注 陈群在近代汉语:程度副词研究》中指出,汉语 2)为了考察各个特征对情感词汇识别的作用 的程度副词主要用来修饰性质形容词、某些性状动 依次加入情感词汇的语法特征,如果加入的特征提 词以及一部分心理动词.其中,部分性质形容词、部 高了实验结果,则保留该特征,反之,则剔除该特征 分性状动词和全部的心理动词,都可能是情感词汇 从而最终寻找出最佳的特征集.实验依次使用了以 本文的程度副词来自知网,含有{degree程度}义原 下4种特征集: 的副词,经过人工过滤得到72个程度副词 特征集1:词汇规律和词性规律: 4情感词汇自动获取 特征集2:在特征集1的基础上加入重叠规律; 特征集3:在特征集2的基础上加入否定词与 将情感词汇的一般语法规律与机器学习方法相 词性搭配规律」 结合,实现情感词汇的自动获取,并且根据实验结 特征集4:在特征集2的基础上加入程度副词 果,分析以上5种语法规律对于情感词汇自动获取 修饰规律」 的作用,从而寻找出最佳的特征集用于情感词汇的 最终得到特征集4的特征模板如表2所示,其 自动获取.使用的CRF++工具包为情感词汇的自 余特征集的模板根据所包含的情感词汇规律,为特 动获取提供了便捷的机器学习工具,可以将更多的 精力用于情感词汇本身规律的分析和研究。 征集4的特征模板的相应子集。 3)根据不同的特征集,按照CRF++要求的格 41条件随机域 式整理训练语料、测试语料和特征模版 条件随机域(CRF),是一种基于无向图的概率 4)使用CRF++和以上4种特征集,自动标注 模型,常用于处理序列标注问题,如分词、词性标注 测试语料中的情感词汇 等.给定序列X,标注序列为Y的概率公式如式 (1)21这里x是观察值序列,y是标记序列,y川s表 5)分别计算4种特征集情况下的正确率和召回率。 示子图中和相连的顶点.和g都是预先设定的 6)实验结果分析. 特征 1994-2009 China Academic Journal Electronic Publishing House.All rights reserved.http://www.cnki.net
词重叠的研究 ,都说明了动词重叠对于情感表达的 影响 ,无论是语气上隐含的情感 ,还是主观愿望上直 接的情感. 对于形容词的重叠和情感表达的联系 ,朱德熙 在 1956年曾举了这样的例子 :“白白的 ”有主观的 感情色彩 ,而“白的 ”没有 [ 18 ] . 对于副词的重叠 ,一般表达强调修饰 ,如“匆 匆、老老实实、慌慌张张、忙忙碌碌 ”等 ,而强调一般 都含有某种情感. 3. 4 否定词与词性搭配规律 否定词与形容词搭配 ,其中的形容词一般是情 感词汇 ,例如 : “为什么这么不用心 ?”《少年文摘 》, 2006年第 1期 ,当时年少春衫薄 ). “爱因斯坦很快与弗莱克斯纳之间发生了一些 不愉快. ”(《少年文摘 》2006然后第 3期 ,令人留恋 的学者“大酒店 ”). 本文中否定词的获取是通过知网实现的. 在知 网中选取具有否定意义的义原 ,如 : { neg |否 } , { im2 possible |不会 }等 ,从中抽取出包含否定义原的概 念 ,经人工过滤得到 18个否定词. 3. 5 程度副词修饰规律 汉语言中 ,关于程度副词的分类、各类的作用以 及程度副词与其他词性的搭配有很多的研究. 其中 , 陈群在《近代汉语 :程度副词研究 》 [ 19 ]中指出 ,汉语 的程度副词主要用来修饰性质形容词、某些性状动 词以及一部分心理动词. 其中 ,部分性质形容词、部 分性状动词和全部的心理动词 ,都可能是情感词汇. 本文的程度副词来自知网 ,含有 { degree |程度 }义原 的副词 ,经过人工过滤得到 72个程度副词. 4 情感词汇自动获取 将情感词汇的一般语法规律与机器学习方法相 结合 ,实现情感词汇的自动获取 ,并且根据实验结 果 ,分析以上 5种语法规律对于情感词汇自动获取 的作用 ,从而寻找出最佳的特征集用于情感词汇的 自动获取. 使用的 CRF + +工具包为情感词汇的自 动获取提供了便捷的机器学习工具 ,可以将更多的 精力用于情感词汇本身规律的分析和研究. 4. 1 条件随机域 条件随机域 (CRF) ,是一种基于无向图的概率 模型 ,常用于处理序列标注问题 ,如分词、词性标注 等. 给定序列 X, 标注序列为 Y 的概率公式如式 (1) [ 20 ] . 这里 x是观察值序列 , y是标记序列 , y | s表 示子图 S中和 y相连的顶点. fk和 gk都是预先设定的 特征. Pθ ( y | x) = exp ( e∈∑E, k λk fk ( e, y | e, x) + v∈∑v, k uk gk ( v, y | v, x) ). (1) 情感词汇标注正是一个序列标注问题 ,当前词 是不是情感词不仅仅由词本身决定 ,而且受当前词 上下文的影响. 采用条件随机域 CRF + +工具包 , 进行情感词汇的自动标注. CRF + +工具包使用方 便 ,只需要按照工具包要求的格式 ,整理训练语料和 测试语料以及特征模版 , CRF + +就能自动地按照 特征模版和训练语料选取特征 ,并生成相应的模型. 4. 2 实验步骤 实验语料选自《少年文艺 》、《青年文摘 》、《新青 年 》等 9本文学期刊 ,选择 2006年的有强烈感情色 彩的文章 515篇 , 22 955个句子 ,人工地标注其中的 情感词汇 [ 21 ] . 实验采用 4倍交叉验证 ( 42fold cross validation)的方法 ,将数据集分成 4份 ,轮流将其中 3份做训练 , 1份做测试 , 4次的结果的均值作为对 算法精度的估计. 交叉验证的方法能够排除单一验 证的随机性对实验结果的影响 ,从而比较客观地体 现算法的效果. 以下是情感词汇自动获取的实验步骤 : 1)将上文获得的否定词、程度副词以及人工标 注的情感词汇 ,加入哈工大的分词和词性标注系统 的扩展词典 ,进行分词和词性标注. 2)为了考察各个特征对情感词汇识别的作用 , 依次加入情感词汇的语法特征 ,如果加入的特征提 高了实验结果 ,则保留该特征 ,反之 ,则剔除该特征 , 从而最终寻找出最佳的特征集. 实验依次使用了以 下 4种特征集 : 特征集 1:词汇规律和词性规律 ; 特征集 2:在特征集 1的基础上加入重叠规律 ; 特征集 3:在特征集 2的基础上加入否定词与 词性搭配规律 ; 特征集 4:在特征集 2的基础上加入程度副词 修饰规律. 最终得到特征集 4的特征模板如表 2所示 ,其 余特征集的模板根据所包含的情感词汇规律 ,为特 征集 4的特征模板的相应子集. 3)根据不同的特征集 ,按照 CRF + +要求的格 式整理训练语料、测试语料和特征模版. 4)使用 CRF + +和以上 4种特征集 ,自动标注 测试语料中的情感词汇. 5)分别计算 4种特征集情况下的正确率和召回率. 6)实验结果分析. 第 2期 陈建美 ,等 :基于语法的情感词汇自动获取 ·103·
104 智能系统学报 第4卷 表2情感词汇特征模板 Table 2 The fea ture tem plates of affective words 情感词汇的规律 特征模板项 说 明 词汇 %[-1,0] 情感词的前一个词 %1,0] 情感词的后一个词 词性 %x[-2,1] 情感词的前面第2个词的词性 %x[·1,1] 情感词的前面第1个词的词性 %x[0,1] 情感词本身的词性 %x1,1] 情感词的后面第1个词的词性 %x[2,1] 情感词的后面面第2个词的词性 %x[-2,1]1%x-1,1]/%x[0,1] 情感词与前面第2个词,前面第1个词的词性的搭配 %x[0,1]/%x[1,1]/%x[2,1] 情感词与后面第1个词,后面第2个词的词性的搭配 %x[-1,1]/%x[0,1]/%x[1,1] 情感词与前、后词的词性搭配 词汇和词性的搭配 %x[-1,0]/%x[0,1] 情感词的词性与前一个词的搭配 %x[1,0]/%x[0,1] 情感词的词性与后一个词的搭配 重叠 %x[·1,2] 情感词前一个词的重叠 %x[0,2] 情感词的重叠 否定和词性的搭配 %x[-2,3]/%x[0,1] 情感词的词性和前面第2个词否定的搭配 %x[-1,3]/%x[0,1] 情感词的词性和前面第1个词否定的搭配 程度副词 %x-2,4] 情感词前面第2个词是否为程度副词 %x[-1,4] 情感词前面第1个词是否为程度副词 43实验结果 特征集234665461.5455065812 情感词汇自动获取的结果评测,采用自然语言 特征集334700861.2255.165803 处理中常用的评测标准:正确率P,召回率R和B1 值 特征集4346678665354605998 P=CorrectEmotionSum 44实验结果分析 EmotionSum 由表3可以看出:相比于特征集1,特征集2的 其中:CorrectEnotionSum指情感词汇判断正确 结果正确率、召回率、B1都有所提高,说明词汇的 的数量,EmotionSum指所有判断为情感词汇的词汇 重叠规律能有效地提高情感词识别效果.相比于特 数量 征集2,特征集3的结果正确率有所下降,但是召回 率上升,总体上的B1值仍略有下降.说明否定词 R CorrectEmotonSum EmotionStandardSum 和词性的搭配规律不利于定位情感词汇,但有利于 其中:Correct旧notionSum指情感词汇判断正确 找回情感词汇.特征集4的正确率有较大的提高 的数量,EmotionStandardSum指人工标注中情感词 (531%),但是召回率略微降低(044%),这说明 汇的总数 特征集4中包含的程度副词规律,能较准确地定位 FB1=2·P·R 情感词汇,但是由于程度副词对情感词的限制性,使 P+R 得召回率下降.总体上的B1值仍然是4组特征集 情感词汇自动获取的结果如表3所示 中最好的. 表3情感词汇自动获取的实验结果 对实验的结果进行了进一步地错误分析,找出 Table 3 Experiment results n affective word acquisition 了导致错误发生的主要原因,主要有以下几个方面: 特征集特征数 正确率召回率 FB1/% 1)就实验本身而言,实验的每一个步骤都可能 P/%R/% 造成错误的积累,例如分词和词性标注部分,并不能 特征集1346644 6069549357.67 做到完全的正确.在否定词和程度副词的集合中,也 1994-2009 China Academic Journal Electronic Publishing House.All rights reserved.http://www.cnki.net
表 2 情感词汇特征模板 Table 2 The fea ture tem pla tes of affective words 情感词汇的规律 特征模板项 说 明 词汇 % ×[ - 1, 0 ] 情感词的前一个词 % ×[ 1, 0 ] 情感词的后一个词 词性 % x[ - 2, 1 ] 情感词的前面第 2个词的词性 % x[ - 1, 1 ] 情感词的前面第 1个词的词性 % x[ 0, 1 ] 情感词本身的词性 % x[ 1, 1 ] 情感词的后面第 1个词的词性 % x[ 2, 1 ] 情感词的后面面第 2个词的词性 % x[ - 2, 1 ] /% x[ - 1, 1 ] /% x[ 0, 1 ] 情感词与前面第 2个词 ,前面第 1个词的词性的搭配 % x[ 0, 1 ] /% x[ 1, 1 ] /% x[ 2, 1 ] 情感词与后面第 1个词 ,后面第 2个词的词性的搭配 % x[ - 1, 1 ] /% x[ 0, 1 ] /% x[ 1, 1 ] 情感词与前、后词的词性搭配 词汇和词性的搭配 % x[ - 1, 0 ] /% x[ 0, 1 ] 情感词的词性与前一个词的搭配 % x[ 1, 0 ] /% x[ 0, 1 ] 情感词的词性与后一个词的搭配 重叠 % x[ - 1, 2 ] 情感词前一个词的重叠 % x[ 0, 2 ] 情感词的重叠 否定和词性的搭配 % x[ - 2, 3 ] /% x[ 0, 1 ] 情感词的词性和前面第 2个词否定的搭配 % x[ - 1, 3 ] /% x[ 0, 1 ] 情感词的词性和前面第 1个词否定的搭配 程度副词 % x[ - 2, 4 ] 情感词前面第 2个词是否为程度副词 % x[ - 1, 4 ] 情感词前面第 1个词是否为程度副词 4. 3 实验结果 情感词汇自动获取的结果评测 ,采用自然语言 处理中常用的评测标准 :正确率 P,召回率 R和 FB1 值. P = CorrectEmotionSum EmotionSum 其中 : CorrectEmotionSum指情感词汇判断正确 的数量 ; EmotionSum指所有判断为情感词汇的词汇 数量. R = CorrectEmotionSum EmotionStandardSum 其中 : CorrectEmotionSum指情感词汇判断正确 的数量 ; EmotionStandardSum 指人工标注中情感词 汇的总数. FB1 = 2·P·R P + R . 情感词汇自动获取的结果如表 3所示. 表 3 情感词汇自动获取的实验结果 Table 3 Exper im en t results in affective word acqu isition 特征集 特征数 正确率 P /% 召回率 R /% FB1 /% 特征集 1 346 644 60. 69 54. 93 57. 67 特征集 2 346 654 61. 54 55. 06 58. 12 特征集 3 347 008 61. 22 55. 16 58. 03 特征集 4 346 678 66. 53 54. 60 59. 98 4. 4 实验结果分析 由表 3可以看出 :相比于特征集 1,特征集 2的 结果正确率、召回率、FB1都有所提高 ,说明词汇的 重叠规律能有效地提高情感词识别效果. 相比于特 征集 2,特征集 3的结果正确率有所下降 ,但是召回 率上升 ,总体上的 FB1值仍略有下降. 说明否定词 和词性的搭配规律不利于定位情感词汇 ,但有利于 找回情感词汇. 特征集 4的正确率有较大的提高 (5. 31% ) ,但是召回率略微降低 ( 0. 44% ) ,这说明 特征集 4中包含的程度副词规律 ,能较准确地定位 情感词汇 ,但是由于程度副词对情感词的限制性 ,使 得召回率下降. 总体上的 FB1值仍然是 4组特征集 中最好的. 对实验的结果进行了进一步地错误分析 ,找出 了导致错误发生的主要原因 ,主要有以下几个方面 : 1)就实验本身而言 ,实验的每一个步骤都可能 造成错误的积累 ,例如分词和词性标注部分 ,并不能 做到完全的正确. 在否定词和程度副词的集合中 ,也 ·104· 智 能 系 统 学 报 第 4卷
第2期 陈建美,等:基于语法的情感词汇自动获取 ·105· 并不能确定完全包含所有否定词和程度副词.而且, 参考文献: 实验所用的语料是人工标注的,由于精力有限,使得 的情感语料规模有限,这也使得统计不够全面 [1]PCARD R W.Affective computing[M ]Cambridge,MA: 2)就语言本身而言,汉语语言具备无限丰富性 The M IT Press,1997:3- 和动态开放性.这使得一方面,本文第4部分的情感 [2 ]L U Hugo,SELKER T,L IEBERMAN H V isualizing the 词汇的规律不能做到全面,也就是不能以有限的规 affective structure of a text document[C]//Conference on 律覆盖无限的语言现象,另一方面,这些规律也不能 Human Factors in Computing Systems Fbrida,USA, 2003:740-741. 做到完全的正确,某些符合以上规律的词汇,有时候 [3]ZHANGLi,BARNDEN J A,HENDLEY R J,et al Expbi- 并不一定是情感词汇.例如: tation in affect detection in open-ended mprovisational text 我厌恶地看看那只鸡,皱起了眉,朝她挥挥手 [C]//The Annual Meeting of the Association of Computa- 说:张奶奶,您回家再教训他,我们现在要上课.” tional linguistics Sydney,2006:47-55 (《少年文摘》2006年第1期,一地鸡毛的幸 [4董振东,董强.《知网》[B/OL1[2007-0101]hr 福)句中的重叠词并不是情感词. tp://www.keenage com. “从此,我在心中再不喊他老师,而是叫他崔 [5除琳宏,林鸿飞,潘宇,等.情感词汇本体的构造 老头’.”(《心年文艺》,2006年第4期,报复》 [J]情报学报,2008,27(2):180-185 “爸爸问为什么,巧巧说,我不喜欢报纸.”(新 XU L inhong,L N Hongfei,PAN Yu,et al Constructing the 青年》,2006年第1期,美人志).前一句的 affective lexicon ontology [J ]Joumal of the China Society for Scientific and Technical Infomaton,2008.27(2):180- “不”与动词搭配,动词不表达情感,而后一句的 185 “不”与动词搭配,动词却表达情感 [6董大年.现代汉语分类词典[M]上海:汉语大词典出 3)最后,汉语言中的一些词汇是否包含情感, 版社,1998:105-110 是否是情感词汇,只能通过人工才能判断.目前的机 [7正国璋,汉语褒贬义词语用法词典[M]北京:华语教 器计算无法判断出来,无论是采用基于规则的,还是 学出版社,2001:123-128 基于统计的方法.例如: [8程志强.中华成语大词典M]北京:中国大百科全书出 “我打了个喷嚏”,“我打了个冷战.”(《少年文 版社,2003:5660 摘》,2006年第3期,谁是我的亲母)—其中喷 [9许小颖,陶建华.汉语情感系统中情感划分的研究 嚏和冷战”,前者不是情感词汇,而后者是情感词 [C]/第一届中国情感计算及智能交互学术会议.北 京,2003:199-205 汇,只有人工才能区别 XU Xiaoying,TAO Jianhua The study on affective word 实验最后从语料中随机选取文本126篇,包含 classfication in Chinese affective systems C]//The Pro- 130491个词汇,使用特征集4自动获取情感词汇 ceedings of the First Chinese Conference on Affective Com- 5382个,人工过滤,去重得到正确的情感词汇2607 puting and Intelligent Interaction Beijing,2003:199-205. 个.虽然一部分的情感词汇没有被召回,但是将人工 [10刘桐菊,于浩,杨沐昀.基于TFDF的专业领域词汇 过滤的词汇范围从130491个减少到5382个,大大 获取的研究[C]/第一届学生计算语言学研讨会.北 减少了工作量 京,2002:263-267. L U Tonghui,YU Hao,YANG Mujun The research of 5结束语 tem extraction in professional field[C]//The Proceedings of the First National Student Workshop on Computational 本文观察总结了情感词汇的一般规律,在此基 L ingustics Beijing,2002:263-267. 础上,使用CF模型实现了情感词汇的自动获取, [11]DA LLE B.Study and mp lementation of combined tech- 情感词汇的自动获取大大减轻了人工的工作量,并 niques for automatic extraction of tem inolgy [C]//The 促进了句子级和篇章级的情感计算.但是本实验只 32 th Annual Meeting of the A ssociaton for Computational 是对于情感词汇自动获取的初步的探索,实验中,情 Linguistics New Mexico,USA,1994:29-36 感词汇的一般规律还需要进一步的研究和改进.同 [12张晓鹏.汉语特定领域本体的自动构造研究[D]武 时,情感计算是基于语法和语义理解的,因此在情感 汉:华中师范大学,2007 词汇自动获取中,加入语法和语义分析可能也会有 ZHANG Xiaopeng The study on automatic construction of 所帮助,这也是下一步要做的工作」 onpology in special areas[D Wuhan:Huazhong Nomal University,2007. [13 ]HATZNASSLOGOU V,MCKBOWN K R Predicting 1994-2009 China Academic Journal Electronic Publishing House.All rights reserved.http://www.cnki.net
并不能确定完全包含所有否定词和程度副词. 而且 , 实验所用的语料是人工标注的 ,由于精力有限 ,使得 的情感语料规模有限 ,这也使得统计不够全面. 2)就语言本身而言 ,汉语语言具备无限丰富性 和动态开放性. 这使得一方面 ,本文第 4部分的情感 词汇的规律不能做到全面 ,也就是不能以有限的规 律覆盖无限的语言现象 ;另一方面 ,这些规律也不能 做到完全的正确 ,某些符合以上规律的词汇 ,有时候 并不一定是情感词汇. 例如 : “我厌恶地看看那只鸡 ,皱起了眉 ,朝她挥挥手 说 :张’ 奶奶 ,您回家再教训他 ,我们现在要上课. ” (《少 年 文 摘 》2006 年 第 1 期 , 一 地 鸡 毛 的 幸 福 ) ———句中的重叠词并不是情感词. “从此 ,我在心中再不喊他老师 ,而是叫他‘崔 老头 ’. ”(《少年文艺 》, 2006年第 4期 ,报复 》. “爸爸问为什么 ,巧巧说 ,我不喜欢报纸. ”(《新 青年 》, 2006 年第 1 期 , 美人志 ). ———前一句的 “不 ”与动词搭配 ,动词不表达情感 ,而后一句的 “不 ”与动词搭配 ,动词却表达情感. 3)最后 ,汉语言中的一些词汇是否包含情感 , 是否是情感词汇 ,只能通过人工才能判断. 目前的机 器计算无法判断出来 ,无论是采用基于规则的 ,还是 基于统计的方法. 例如 : “我打了个喷嚏 ”,“我打了个冷战. ”(《少年文 摘 》, 2006年第 3期 ,谁是我的亲母 ) ———其中“喷 嚏 ”和“冷战 ”,前者不是情感词汇 ,而后者是情感词 汇 ,只有人工才能区别. 实验最后从语料中随机选取文本 126篇 ,包含 130 491个词汇 ,使用特征集 4自动获取情感词汇 5 382个 ,人工过滤 ,去重得到正确的情感词汇 2 607 个. 虽然一部分的情感词汇没有被召回 ,但是将人工 过滤的词汇范围从 130 491个减少到 5 382个 ,大大 减少了工作量. 5 结束语 本文观察总结了情感词汇的一般规律 ,在此基 础上 ,使用 CRF模型实现了情感词汇的自动获取. 情感词汇的自动获取大大减轻了人工的工作量 ,并 促进了句子级和篇章级的情感计算. 但是本实验只 是对于情感词汇自动获取的初步的探索 ,实验中 ,情 感词汇的一般规律还需要进一步的研究和改进. 同 时 ,情感计算是基于语法和语义理解的 ,因此在情感 词汇自动获取中 ,加入语法和语义分析可能也会有 所帮助 ,这也是下一步要做的工作. 参考文献 : [ 1 ] P ICARD R W. Affective computing[M ]. Cambridge, MA: The M IT Press, 1997: 326. [ 2 ]L IU Hugo, SELKER T, L IEBERMAN H. V isualizing the affective structure of a text document[ C ] / /Conference on Human Factors in Computing Systems. Florida, USA, 2003: 7402741. [ 3 ] ZHANG L i, BARNDEN J A, HENDLEY R J, et al. Exp loi2 tation in affect detection in open2ended imp rovisational text [C ] / / The AnnualMeeting of the A ssociation of Computa2 tional Iinguistics. Sydney, 2006: 47255. [ 4 ]董振东 , 董 强. 《知网 》[ EB /OL ]. [ 2007201201 ]. ht2 tp: / /www. keenage. com. [ 5 ]徐琳宏 , 林鸿飞 , 潘 宇 , 等. 情感词汇本体的构造 [J ]. 情报学报 , 2008, 27 (2) : 1802185. XU L inhong,L IN Hongfei, PAN Yu, et al. Constructing the affective lexicon ontology [ J ]. Journal of the China Society for Scientific and Technical Information, 2008, 27 ( 2) : 1802 185. [ 6 ]董大年. 现代汉语分类词典 [M ]. 上海 :汉语大词典出 版社 , 1998: 1052110. [ 7 ]王国璋. 汉语褒贬义词语用法词典 [M ]. 北京 :华语教 学出版社 , 2001: 1232128. [ 8 ]程志强. 中华成语大词典 [M ]. 北京 :中国大百科全书出 版社 , 2003: 56260. [ 9 ]许小颖 , 陶建华. 汉语情感系统中情感划分的研究 [C ] / /第一届中国情感计算及智能交互学术会议. 北 京 , 2003: 1992205. XU Xiaoying, TAO Jianhua. The study on affective word classfication in Chinese affective system s [ C ] / /The Pro2 ceedings of the First Chinese Conference on Affective Com2 puting and Intelligent Interaction. Beijing, 2003: 1992205. [ 10 ]刘桐菊 , 于 浩 , 杨沐昀. 基于 TF IDF的专业领域词汇 获取的研究 [ C ] / / 第一届学生计算语言学研讨会. 北 京 , 2002: 2632267. L IU Tonghui, YU Hao, YANG Mujun. The research of term extraction in p rofessional field [ C ] / /The Proceedings of the First National Student Workshop on Computational L ingustics. Beijing, 2002: 2632267. [ 11 ]DA ILLE B. Study and imp lementation of combined tech2 niques for automatic extraction of terminology [ C ] / /The 32 th Annual Meeting of the A ssociation for Computational L inguistics. New Mexico, USA, 1994: 29236. [ 12 ]张晓鹏. 汉语特定领域本体的自动构造研究 [D ]. 武 汉 : 华中师范大学 , 2007. ZHANG Xiaopeng. The study on automatic construction of ontology in special areas[D ]. W uhan: Huazhong Normal University, 2007. [ 13 ] HATZIVASSILOGLOU V, MCKEOWN K R. Predicting 第 2期 陈建美 ,等 :基于语法的情感词汇自动获取 ·105·
·106· 智能系统学报 第4卷 the semantic orientation of adjectives[C]//Proceedings of 「21除琳宏,林鸿飞,赵晶.情感语料库的构建和分析 the 35th Annual Meeting of the A ssociation for Computa- [J]中文信息学报,2008,22(1):116.122 tionalL inguistics and the 8th Conference of the European 作者简介: Chapter of the ACL Madrid,Spain,1997:174-181. 陈建美,女,1985年生,硕士研究 [14 ]YUEN R W M,CHAN T YW.Mopheme-based deriva- 生,主要研究方向为情感词汇自动获取 tion of bipolar semantic orientation of Chinese words[C]// 和情感词汇消歧。 Proceedings of the 20th Intemational Conference on Com- putational L inguistics Geneva,Switzerland,2004:1008- 1014 [15 TURNEY PD,L ITIMAN M L Measuring praise and criti- cisn:inference of semantic orientaton fiom association 林鸿飞,男,1962年生,教授,博士 [J ]ACM Transactions on Infomation System (TO S), 生导师,现任《中文信息学报》编委,中 2003,21(4):315-346 文信息学会理事,中国中文信息学会信 [I6 MANN NG C D,SCHUTZE H统计自然语言处理基础 息检索专业委员会委员,中国人工智能 M1电子工业出版社,2005:111-114 学会离散数学专业委员会副主任,中国 [17吴晗.汉语重叠研究综述[J]汉语学习,2000,3: 人工智能学会机器学习专业委员会委 28-33 员.主要研究方向为搜索引擎、文本挖掘、情感计算和自然语 [18侏德熙.现代汉语形容词研究[)1语言研究,1956,1: 言处理.主持多项国家自然科学基金和863计划项目,发表 19 学术论文100余篇 [19陈群.近代汉语:程度副词研究[M]四川:巴蜀书 杨志豪,男,1973年生,副教授,博 社,2006:34-41 士,主要研究方向为文本挖掘和中文信 [20]LAFFERTY J,MCCALLUM A,PERERA E Conditional 息处理,发表学术论文20余篇」 random fields probabilistic models for segmenting and la- beling sequence data[C]//18th Intemational Conf on Ma- chine Leaming San Francisco,USA:Morgan Kaufnann, 2001:282-289 第2届Pao-Lu Hsu会议:机器学习与计算识别 The Second Pao-Lu Hsu Conference (2009): Machine Learn ng and Com putational Recogn ition The Second PaoLu Hsu Conference (2009):Machine Leaming and Computational Recognition will be held on Xi'an Jiaotong University in Xi'an,China in the last week of June,2009 (June 22~28).This is a joint event of the Institute for Infomation and system Science of Xi'an Jiaotong University Zongben Xu Lab)and the Microsoft Lab on Statistics and Infomation Technology at Peking University (PKU MSRA Lab).This conference intends to promote machine leaming and Computational Recognition in China The audiences are expected to be faculty and students in Machine Leaming and related fields from both inside and outside China ORGANIZNG COMM ITTEE Bin Yu,Chair of organizing committee,UC Berkeley Zongben Xu,co-Chair,Xi'an J iaotong University Hang Li,Microsoft Research Asia Ming Jiang,Peking University Zhi Geng,Peking University Jiangshe Zhang,Xi'an Jiaotong University W eb site:htp://icrp.xjtu edu cn/meeting php?blogld=6 1994-2009 China Academic Journal Electronic Publishing House.All rights reserved.http://www.cnki.net
the semantic orientation of adjectives[ C ] / /Proceedings of the 35 th Annual Meeting of the A ssociation for Computa2 tional L inguistics and the 8 th Conference of the European Chap ter of the ACL. Madrid, Spain, 1997: 1742181. [ 14 ]YUEN R W M, CHAN T YW . Morpheme2based deriva2 tion of bipolar semantic orientation of Chinese words[C ] / / Proceedings of the 20 th International Conference on Com2 putational L inguistics. Geneva, Switzerland, 2004: 10082 1014. [ 15 ]TURNEY P D,L ITTMAN M L. Measuring p raise and criti2 cism: inference of semantic orientation from association [J ]. ACM Transactions on Information System ( TO IS) , 2003, 21 (4) : 3152346. [ 16 ]MANN ING C D, SCHUTZE H. 统计自然语言处理基础 [M ]. 电子工业出版社 , 2005: 1112114. [ 17 ]吴 晗. 汉语重叠研究综述 [ J ]. 汉语学习 , 2000, 3: 28233. [ 18 ]朱德熙. 现代汉语形容词研究 [J ]. 语言研究 , 1956, 1: 129. [ 19 ]陈 群. 近代汉语 :程度副词研究 [M ]. 四川 :巴蜀书 社 , 2006: 34241. [ 20 ]LAFFERTY J, MCCALLUM A, PEREIRA F. Conditional random fields: p robabilistic models for segmenting and la2 beling sequence data[C ] / /18 th International Conf on Ma2 chine Learning. San Francisco, USA: Morgan Kaufmann, 2001: 2822289. [ 21 ]徐琳宏 , 林鸿飞 , 赵 晶. 情感语料库的构建和分析 [J ]. 中文信息学报 , 2008, 22 (1) : 116 - 122. 作者简介 : 陈建美 ,女 , 1985 年生 ,硕士研究 生 ,主要研究方向为情感词汇自动获取 和情感词汇消歧. 林鸿飞 ,男 , 1962年生 ,教授 ,博士 生导师 ,现任《中文信息学报 》编委 ,中 文信息学会理事 ,中国中文信息学会信 息检索专业委员会委员 ,中国人工智能 学会离散数学专业委员会副主任 ,中国 人工智能学会机器学习专业委员会委 员. 主要研究方向为搜索引擎、文本挖掘、情感计算和自然语 言处理. 主持多项国家自然科学基金和 863计划项目 ,发表 学术论文 100余篇. 杨志豪 ,男 , 1973年生 ,副教授 ,博 士 ,主要研究方向为文本挖掘和中文信 息处理 ,发表学术论文 20余篇. 第 2届 Pao2Lu Hsu会议:机器学习与计算识别 The Second Pao2Lu Hsu Conference ( 2009) : Machine Learn ing and Computational Recogn ition The Second Pao2Lu Hsu Conference ( 2009) : Machine Learning and Computational Recognition will be held on Xi’an Jiaotong University in Xi’an, China in the last week of June, 2009 (June 22~28). This is a joint event of the Institute for Information and system Science of Xi’an Jiaotong University ( Zongben Xu Lab) and the M icrosoft Lab on Statistics and Information Technology at Peking University ( PKU MSRA Lab). This conference intends to p romote machine learning and Computational Recognition in China. The audiences are expected to be faculty and students in Machine Learning and related fields from both inside and outside China. ORGANIZING COMM ITTEE Bin Yu, Chair of organizing committee, UC Berkeley Zongben Xu, co2Chair, Xi’an Jiaotong University Hang Li, M icrosoft Research Asia M ing Jiang, Peking University Zhi Geng, Peking University Jiangshe Zhang, Xi’an Jiaotong University W eb site: http: / / icrp. xjtu. edu. cn /meeting. php? blogId = 6 ·106· 智 能 系 统 学 报 第 4卷