【自然语言处理与理解】基于语义特征的多视图情感分类方法

团购合买资源类别：文库，文档格式：PDF，文档页数：7，文件大小：1.54MB

第12卷第5期智能系统学报 Vol.12 No.5 2017年10月 CAAI Transactions on Intelligent Systems 0ct.2017 D0I:10.11992/is.201706026 网络出版地址：htp:/kns.cmki.net/kcms/detail/23.1538.TP.20171021.1350.010.html 基于语义特征的多视图情感分类方法吴钟强12，张耀文12，商琳12 (1.南京大学计算机软件新技术国家重点实验室，江苏南京210046：2.南京大学计算机科学与技术系，江苏南京210046) 摘要：情感分析也称为意见挖掘，是对文本中所包含的情感倾向进行分析的技术。目前很多情感分析工作都是基于纯文本的。而在微博上，除了文本，大量的图片信息也蕴含了丰富的情感信息。本文提出了一种基于文本和图像的多模态分类算法，通过使用潜在语义分析，将文本特征和图像特征分别映射到同维度下的语义空间，得到各自的语义特征，并用SVM2K进行分类。利用新浪微博热门微博栏目下爬取的文字和配图的微博数据进行了实验。实验结果表明，通过融合文本和图像的语义特征，情感分类的效果好于单独使用文本特征或者图像特征。关键词：情感分析：文本挖掘：潜在语义分析：多模态：语义特征：特征融合：特征提取中图分类号：TP181文献标志码：A文章编号：1673-4785(2017)05-0745-07 中文引用格式：吴钟强，张撮文，商琳.基于语义特征的多视图情感分类方法[J].智能系统学报，2017,12(5)：745-751. 英文引用格式：WU Zhongqiang,ZHANG Yaowen,SHANG Lin.Multi-view sentiment classification of microblogs based on semantic features[J].CAAI transactions on intelligent systems,2017,12(5):745-751. Multi-view sentiment classification of microblogs based on semantic features WU Zhongqiang2,ZHANG Yaowen'2,SHANG Lin'2 (1.State Key Laboratory of Novel Software Technology,Nanjing University,Nanjing 210046,China;2.Department of Computer Science and Technology,Nanjing University,Nanjing 210046,China) Abstract:The objective in sentiment analysis is to analyze the sentiment tendency contained in subjective text.Most sentiment analysis methods deal with text only and ignore the information provided in the corresponding pictures.In this paper,we propose a multi-view microblog analysis method based on semantic features.Using latent semantic analysis,we map both the text and image features to the semantic space in the same dimensionality,and use SVM- 2K to obtain and classify the respective semantic features.We conducted experiments by crawling text and pictures from popular microblogs.The results show that,by combining the semantic features of text and pictures,the sentiment classification result is better than that obtained using text or image features alone. Keywords:sentiment analysis;text mining;latent semantic analysis;multi-view;semantic features;feature fusion;feature extraction 随着互联网的快速发展，微博自2006年以来已析的技术。随着Pang等将机器学习方法成功经成为社交网络的最主要应用之一。用户可以通应用在情感分类之后，情感分析领域不断涌现新的过手机或平板电脑等终端设备在微博上发布动态。工作，针对于粒度的不同可以分为文档级别到近年来，从微博数据中挖掘出有价值的信息引起了 (document level)、句子级别](sentence level)和方很多研究者的关注。情感分析或意见挖掘，是一种面级别+s(aspect level)。情感分析的应用也越来对人们发表的观点、表达的情感或商品评价进行分越广泛，如Liu等[将其用于预测销售业绩上， Mishne等]使用博文的情感来预测电影票房，收稿日期：2017-06-08.网络出版日期：2017-10-21. 基金项目：国家自然科学基金项目(61672276)：江苏省自然科学基金项 0'Connor将文本中的情感与票选关联[]。但是绝目(20161406). 通信作者：吴钟强.E-mail:wuzqchom@163.com 大多数研究都只是基于文本，结合微博图像进行情

第１２卷第５期智能系统学报Ｖｏｌ．１２ №．５２０１７年１０月ＣＡＡＩＴｒａｎｓａｃｔｉｏｎｓｏｎＩｎｔｅｌｌｉｇｅｎｔＳｙｓｔｅｍｓＯｃｔ．２０１７ＤＯＩ：１０．１１９９２／ｔｉｓ．２０１７０６０２６网络出版地址：ｈｔｔｐ：／／ｋｎｓ．ｃｎｋｉ．ｎｅｔ／ｋｃｍｓ／ｄｅｔａｉｌ／２３．１５３８．ＴＰ．２０１７１０２１．１３５０．０１０．ｈｔｍｌ基于语义特征的多视图情感分类方法吴钟强１，２，张耀文１，２，商琳１，２（１．南京大学计算机软件新技术国家重点实验室，江苏南京２１００４６；２．南京大学计算机科学与技术系，江苏南京２１００４６）摘要：情感分析也称为意见挖掘，是对文本中所包含的情感倾向进行分析的技术。目前很多情感分析工作都是基于纯文本的。而在微博上，除了文本，大量的图片信息也蕴含了丰富的情感信息。本文提出了一种基于文本和图像的多模态分类算法，通过使用潜在语义分析，将文本特征和图像特征分别映射到同维度下的语义空间，得到各自的语义特征，并用ＳＶＭ⁃２Ｋ进行分类。利用新浪微博热门微博栏目下爬取的文字和配图的微博数据进行了实验。实验结果表明，通过融合文本和图像的语义特征，情感分类的效果好于单独使用文本特征或者图像特征。关键词：情感分析；文本挖掘；潜在语义分析；多模态；语义特征；特征融合；特征提取中图分类号：ＴＰ１８１文献标志码：Ａ文章编号：１６７３－４７８５（２０１７）０５－０７４５－０７中文引用格式：吴钟强，张耀文，商琳．基于语义特征的多视图情感分类方法［Ｊ］．智能系统学报，２０１７，１２（５）：７４５－７５１．英文引用格式：ＷＵＺｈｏｎｇｑｉａｎｇ，ＺＨＡＮＧＹａｏｗｅｎ，ＳＨＡＮＧＬｉｎ．Ｍｕｌｔｉ⁃ｖｉｅｗｓｅｎｔｉｍｅｎｔｃｌａｓｓｉｆｉｃａｔｉｏｎｏｆｍｉｃｒｏｂｌｏｇｓｂａｓｅｄｏｎｓｅｍａｎｔｉｃｆｅａｔｕｒｅｓ［Ｊ］．ＣＡＡＩｔｒａｎｓａｃｔｉｏｎｓｏｎｉｎｔｅｌｌｉｇｅｎｔｓｙｓｔｅｍｓ，２０１７，１２（５）：７４５－７５１．Ｍｕｌｔｉ⁃ｖｉｅｗｓｅｎｔｉｍｅｎｔｃｌａｓｓｉｆｉｃａｔｉｏｎｏｆｍｉｃｒｏｂｌｏｇｓｂａｓｅｄｏｎｓｅｍａｎｔｉｃｆｅａｔｕｒｅｓＷＵＺｈｏｎｇｑｉａｎｇ１，２，ＺＨＡＮＧＹａｏｗｅｎ１，２，ＳＨＡＮＧＬｉｎ１，２（１．ＳｔａｔｅＫｅｙＬａｂｏｒａｔｏｒｙｏｆＮｏｖｅｌＳｏｆｔｗａｒｅＴｅｃｈｎｏｌｏｇｙ，ＮａｎｊｉｎｇＵｎｉｖｅｒｓｉｔｙ，Ｎａｎｊｉｎｇ２１００４６，Ｃｈｉｎａ；２．ＤｅｐａｒｔｍｅｎｔｏｆＣｏｍｐｕｔｅｒＳｃｉｅｎｃｅａｎｄＴｅｃｈｎｏｌｏｇｙ，ＮａｎｊｉｎｇＵｎｉｖｅｒｓｉｔｙ，Ｎａｎｊｉｎｇ２１００４６，Ｃｈｉｎａ）Ａｂｓｔｒａｃｔ：Ｔｈｅｏｂｊｅｃｔｉｖｅｉｎｓｅｎｔｉｍｅｎｔａｎａｌｙｓｉｓｉｓｔｏａｎａｌｙｚｅｔｈｅｓｅｎｔｉｍｅｎｔｔｅｎｄｅｎｃｙｃｏｎｔａｉｎｅｄｉｎｓｕｂｊｅｃｔｉｖｅｔｅｘｔ．Ｍｏｓｔｓｅｎｔｉｍｅｎｔａｎａｌｙｓｉｓｍｅｔｈｏｄｓｄｅａｌｗｉｔｈｔｅｘｔｏｎｌｙａｎｄｉｇｎｏｒｅｔｈｅｉｎｆｏｒｍａｔｉｏｎｐｒｏｖｉｄｅｄｉｎｔｈｅｃｏｒｒｅｓｐｏｎｄｉｎｇｐｉｃｔｕｒｅｓ．Ｉｎｔｈｉｓｐａｐｅｒ，ｗｅｐｒｏｐｏｓｅａｍｕｌｔｉ⁃ｖｉｅｗｍｉｃｒｏｂｌｏｇａｎａｌｙｓｉｓｍｅｔｈｏｄｂａｓｅｄｏｎｓｅｍａｎｔｉｃｆｅａｔｕｒｅｓ．Ｕｓｉｎｇｌａｔｅｎｔｓｅｍａｎｔｉｃａｎａｌｙｓｉｓ，ｗｅｍａｐｂｏｔｈｔｈｅｔｅｘｔａｎｄｉｍａｇｅｆｅａｔｕｒｅｓｔｏｔｈｅｓｅｍａｎｔｉｃｓｐａｃｅｉｎｔｈｅｓａｍｅｄｉｍｅｎｓｉｏｎａｌｉｔｙ，ａｎｄｕｓｅＳＶＭ⁃ ２Ｋｔｏｏｂｔａｉｎａｎｄｃｌａｓｓｉｆｙｔｈｅｒｅｓｐｅｃｔｉｖｅｓｅｍａｎｔｉｃｆｅａｔｕｒｅｓ．Ｗｅｃｏｎｄｕｃｔｅｄｅｘｐｅｒｉｍｅｎｔｓｂｙｃｒａｗｌｉｎｇｔｅｘｔａｎｄｐｉｃｔｕｒｅｓｆｒｏｍｐｏｐｕｌａｒｍｉｃｒｏｂｌｏｇｓ．Ｔｈｅｒｅｓｕｌｔｓｓｈｏｗｔｈａｔ，ｂｙｃｏｍｂｉｎｉｎｇｔｈｅｓｅｍａｎｔｉｃｆｅａｔｕｒｅｓｏｆｔｅｘｔａｎｄｐｉｃｔｕｒｅｓ，ｔｈｅｓｅｎｔｉｍｅｎｔｃｌａｓｓｉｆｉｃａｔｉｏｎｒｅｓｕｌｔｉｓｂｅｔｔｅｒｔｈａｎｔｈａｔｏｂｔａｉｎｅｄｕｓｉｎｇｔｅｘｔｏｒｉｍａｇｅｆｅａｔｕｒｅｓａｌｏｎｅ．Ｋｅｙｗｏｒｄｓ：ｓｅｎｔｉｍｅｎｔａｎａｌｙｓｉｓ；ｔｅｘｔｍｉｎｉｎｇ；ｌａｔｅｎｔｓｅｍａｎｔｉｃａｎａｌｙｓｉｓ；ｍｕｌｔｉ⁃ｖｉｅｗ；ｓｅｍａｎｔｉｃｆｅａｔｕｒｅｓ；ｆｅａｔｕｒｅｆｕｓｉｏｎ；ｆｅａｔｕｒｅｅｘｔｒａｃｔｉｏｎ收稿日期：２０１７－０６－０８．网络出版日期：２０１７－１０－２１．基金项目：国家自然科学基金项目（６１６７２２７６）；江苏省自然科学基金项目（２０１６１４０６）．通信作者：吴钟强．Ｅ⁃ｍａｉｌ：ｗｕｚｑｃｈｏｍ＠１６３．ｃｏｍ．随着互联网的快速发展，微博自２００６年以来已经成为社交网络的最主要应用之一。用户可以通过手机或平板电脑等终端设备在微博上发布动态。近年来，从微博数据中挖掘出有价值的信息引起了很多研究者的关注。情感分析或意见挖掘，是一种对人们发表的观点、表达的情感或商品评价进行分析的技术［１］。随着Ｐａｎｇ等［２］将机器学习方法成功应用在情感分类之后，情感分析领域不断涌现新的工作，针对于粒度的不同可以分为文档级别［２］（ｄｏｃｕｍｅｎｔｌｅｖｅｌ）、句子级别［３］（ｓｅｎｔｅｎｃｅｌｅｖｅｌ）和方面级别［４－５］（ａｓｐｅｃｔｌｅｖｅｌ）。情感分析的应用也越来越广泛，如Ｌｉｕ等［６］将其用于预测销售业绩上，Ｍｉｓｈｎｅ等［７］使用博文的情感来预测电影票房，Ｏ’Ｃｏｎｎｏｒ将文本中的情感与票选关联［８］。但是绝大多数研究都只是基于文本，结合微博图像进行情

·746 智能系统学报第12卷感分类的工作较少。但图像也是传达情感信息的 SVD)技术将词-文档矩阵分解，可以将原始高维空重要渠道。对于文本和图像并存的情况，图像也可间中表示的词和文档投射到低维语义空间。以作为传播情感的载体，如果仅对文本部分进行特 LSA首先构造一个词-文档矩阵N=[X:]。其征的提取，可能导致对微博整体情感特征提取的缺中矩阵的行表示词，列表示文档，X表示第i个词失，使得整体情感分类的结果不理想。在第广个文档中的权重。矩阵中的一行‘：= 要使用不同视图的特征就涉及特征融合问题。 [x1x2…xm]代表某个词和所有文档之间的关系，特征融合被广泛应用在多个领域，如目标跟踪和识矩阵中的一列d,=[xyxg…x]代表某个文档和别)、图像处理0]等领域，主要可以分为串行融合所有词语之间的关系(x:≠0表示该文档包含该词和并行融合山。汇，其值表示第i个词在第个文档中的权重)。两本文通过复数矩阵融合的方式并使用潜在语个行向量的点积·1，「代表文档中两个词（第i个义分析2](latent semantic analysis,LSA)技术提出了词和第p个词)的相关性；两个列的点积d·d,代表基于语义特征的多视图分类方法。首先，将文本和两个文档（第j篇文档和第g篇文档）的相关性。由图像并行融合之后的特征，通过潜在语义分析将原于一个词一般出现在几个特定文档中，故矩阵N通始的文本和图像特征映射到低维的概念空间（语义常是一个稀疏矩阵。而通过奇异值分解，可以将高空间)得到文本和图像的语义特征：然后，通过语义维的系数矩阵转化成低维的稠密矩阵。任何一个特征训练分类器：最后，将分类器用于微博的情感矩阵都可以使用奇异值分解]，假设矩阵N为m× 分类。实验通过爬取的新浪微博数据集验证了本 n矩阵，则奇异值分解定义如式(1)：文提出的方法能够有效地提高多视图情感分类的 N=UEV (1) 效果，同时分析了几个常用特征的利弊。式中：U为m×m的矩阵，Σ为m×n矩阵，V为n× 1潜在语义分析方法简介 n矩阵。矩阵U、V为奇异向量组成的正交方阵。Σ 是奇异值的对角矩阵，Σ=iag(σ1,02，…，0n),其中U1, 1.1潜在语义分析概念 02,un是矩阵N的n个奇异值，且σ1≥02≥…≥ 在信息检索或者文本分析领域，通常使用向量 σ.。得到了奇异值之后，取前r个最大的奇异值以空间模型2(vector space model,VSM)来表示一篇及对应的特征向量即可以得到矩阵的低阶近似，如文档。它将一篇文档或者一段话表示成向量，方便式(2)所示：进行各种数学处理。虽然此种方法在一些应用中 N'≈U''VT (2) 可以获得不错的效果，但在实际生活中，可能存在式中：U'mw=[u1山2…山，]，'x=diag(o1,02,…, 多次同义的问题，而VSM并不能很好地发现词与词 o,),Vn=[12…,]T,为奇异值从大到小排列之间在语义上的关系。的对角矩阵，其中r的值远小于m和n。目标是使 LSA可以在一定程度上解决上述问题。LSA源得N与N'尽可能相似同时获得尽可能小的r,其中自信息检索领域问题：如何从query中找到相关的 r是语义空间的维度。之后，可以在该空间内计算文档)]。LSA试图表达一个词背后隐藏的语义信词之间、文档之间以及词与文档之间的相似性度息，它把词和文档都映射到一个语义空间并在这个量等。空间内进行各种运算。这种想法是受到心理语言学家的启发[。LSA认为文本中的词语存在着潜 2基于语义特征的多视图情感分类在的语义结构，同义词被映射到相同的语义空间之现有的情感分类研究工作很多都是围绕文本后应该有很大的关联度。展开的，但微博除了文本还存在大量的图片，如果 1.2潜在语义分析能够将文本和图片结合，就可以获得比纯文本更多 LSA是一种无监督的学习技术，处理的是词- 的信息量。但若仅仅使用原始特征，有可能带来维文档矩阵（在本文中处理的是文本和图像特征融合度灾难问题。后的复数矩阵)。构建词-文档矩阵之后，LSA通过本文提出的基于语义特征的多视图情感分类使用奇异值分解1(singular value decomposition, 方法将文本和图像特征并行融合，并使用LSA抽取

感分类的工作较少。但图像也是传达情感信息的重要渠道。对于文本和图像并存的情况，图像也可以作为传播情感的载体，如果仅对文本部分进行特征的提取，可能导致对微博整体情感特征提取的缺失，使得整体情感分类的结果不理想。要使用不同视图的特征就涉及特征融合问题。特征融合被广泛应用在多个领域，如目标跟踪和识别［９］、图像处理［１０］等领域，主要可以分为串行融合和并行融合［１１］。本文通过复数矩阵融合的方式并使用潜在语义分析［２］（ｌａｔｅｎｔｓｅｍａｎｔｉｃａｎａｌｙｓｉｓ，ＬＳＡ）技术提出了基于语义特征的多视图分类方法。首先，将文本和图像并行融合之后的特征，通过潜在语义分析将原始的文本和图像特征映射到低维的概念空间（语义空间）得到文本和图像的语义特征；然后，通过语义特征训练分类器；最后，将分类器用于微博的情感分类。实验通过爬取的新浪微博数据集验证了本文提出的方法能够有效地提高多视图情感分类的效果，同时分析了几个常用特征的利弊。１潜在语义分析方法简介１．１潜在语义分析概念在信息检索或者文本分析领域，通常使用向量空间模型［１２］（ｖｅｃｔｏｒｓｐａｃｅｍｏｄｅｌ，ＶＳＭ）来表示一篇文档。它将一篇文档或者一段话表示成向量，方便进行各种数学处理。虽然此种方法在一些应用中可以获得不错的效果，但在实际生活中，可能存在多次同义的问题，而ＶＳＭ并不能很好地发现词与词之间在语义上的关系。ＬＳＡ可以在一定程度上解决上述问题。ＬＳＡ源自信息检索领域问题：如何从ｑｕｅｒｙ中找到相关的文档［１３］。ＬＳＡ试图表达一个词背后隐藏的语义信息，它把词和文档都映射到一个语义空间并在这个空间内进行各种运算。这种想法是受到心理语言学家的启发［１４］。ＬＳＡ认为文本中的词语存在着潜在的语义结构，同义词被映射到相同的语义空间之后应该有很大的关联度。１．２潜在语义分析ＬＳＡ是一种无监督的学习技术，处理的是词－文档矩阵（在本文中处理的是文本和图像特征融合后的复数矩阵）。构建词－文档矩阵之后，ＬＳＡ通过使用奇异值分解［１５］（ｓｉｎｇｕｌａｒｖａｌｕｅｄｅｃｏｍｐｏｓｉｔｉｏｎ，ＳＶＤ）技术将词－文档矩阵分解，可以将原始高维空间中表示的词和文档投射到低维语义空间。ＬＳＡ首先构造一个词－文档矩阵Ｎ＝［Ｘｉｊ］。其中矩阵的行表示词，列表示文档，Ｘｉｊ表示第ｉ个词在第ｊ个文档中的权重。矩阵中的一行ｔｉ＝［ｘｉ１ｘｉ２ … ｘｉｎ］代表某个词和所有文档之间的关系，矩阵中的一列ｄｊ＝［ｘ１ｊｘ２ｊ … ｘｍｊ］Ｔ代表某个文档和所有词语之间的关系（ｘｉｊ ≠ ０表示该文档包含该词汇，其值表示第ｉ个词在第ｊ个文档中的权重）。两个行向量的点积ｔｉ·ｔｐＴ代表文档中两个词（第ｉ个词和第ｐ个词）的相关性；两个列的点积ｄＴｊ ·ｄｑ代表两个文档（第ｊ篇文档和第ｑ篇文档）的相关性。由于一个词一般出现在几个特定文档中，故矩阵Ｎ通常是一个稀疏矩阵。而通过奇异值分解，可以将高维的系数矩阵转化成低维的稠密矩阵。任何一个矩阵都可以使用奇异值分解［１５］，假设矩阵Ｎ为ｍ × ｎ矩阵，则奇异值分解定义如式（１）：Ｎ＝ＵΣ ＶＴ（１）式中：Ｕ为ｍ × ｍ的矩阵， Σ 为ｍ × ｎ矩阵，Ｖ为ｎ × ｎ矩阵。矩阵Ｕ、Ｖ为奇异向量组成的正交方阵。 Σ 是奇异值的对角矩阵，Σ ＝ｄｉａｇ（σ１，σ２，…，σｎ），其中 σ１， σ２，…σｎ是矩阵Ｎ的ｎ个奇异值，且 σ１ ≥ σ２ ≥ … ≥ σｎ。得到了奇异值之后，取前ｒ个最大的奇异值以及对应的特征向量即可以得到矩阵的低阶近似，如式（２）所示：Ｎ′ ≈ Ｕ′Σ′Ｖ′ Ｔ（２）式中：Ｕ′ｍ×ｒ＝［ｕ１ｕ２ … ｕｒ］，Σ′ｒ×ｒ＝ｄｉａｇ（σ１，σ２，…， σｒ），Ｖ′ Ｔｒ×ｎ＝［ｖ１ｖ２… ｖｒ］Ｔ，Σ′为奇异值从大到小排列的对角矩阵，其中ｒ的值远小于ｍ和ｎ。目标是使得Ｎ与Ｎ′尽可能相似同时获得尽可能小的ｒ，其中ｒ是语义空间的维度。之后，可以在该空间内计算词之间、文档之间以及词与文档之间的相似性度量等。２基于语义特征的多视图情感分类现有的情感分类研究工作很多都是围绕文本展开的，但微博除了文本还存在大量的图片，如果能够将文本和图片结合，就可以获得比纯文本更多的信息量。但若仅仅使用原始特征，有可能带来维度灾难问题。本文提出的基于语义特征的多视图情感分类方法将文本和图像特征并行融合，并使用ＬＳＡ抽取 ·７４６· 智能系统学报第１２卷

第5期吴钟强，等：基于语义特征的多视图情感分类方法 .747. 各自的语义特征，其流程如图1所示。的整体关系，即复数的实部表示文本特征，虚部表示图像特征。由于复数矩阵分解之后仍为复数矩文本训练集图像训练集阵，故分解之后的实部和虚部分别对应文本和图像文本预处理图像预处理文本测试集图像测试集的语义特征。特特文本特征和图像特征融合方法如式(4)所示，提取取将融合之后的复合特征称为一个新的文档d。 d=&+i那 (4) 基于文本和图像的潜在语义分析式中：实部α为文本特征向量，虚部B,为图像特征向量，0是权重因子。极端情况：本语义特片语义特当00时，融合的特征d≈&，此时近似于纯文本特征。当9→+o时，则d≈B,即此时近似于使用纯 SVM-2K 图像特征的分类效果。结果在本文工作中，我们将文本和图片同等对待，图1基于语义特征的多视图情感分类方法流程图因此设0=1。假设有m条微博，文本和图像的语义 Fig.1 Flow chart of sentiment classification of 空间的维度为n。那么由复数构成新的文档集合用 microblogs based on semantic features 矩阵表示如式(5)所示：图像和文本的特征融合，在信息检索领域里的「a11+邛11a12+邛12… in+iBin 跨模型检索(cross-modal retrieval)中已经有相应的 a21+邛21a2+iB2 …a2n+邛2 应用。但使用较多的融合方式是文本和图像特征的串行融合[o」 N= a1+邛 a2+邛2 cn+邛m Wag等[1o在3D目标检索时，使用的两组特征串行融合方式如式(3)所示： aml+iB2+i邛na 011 B11B2 B (5) 021 …2 …B21B2 B 式中：a,是第i条微博文本的第j维特征，B,是第i N= 条微博图像对应的第j维特征。 0 X2 B B2 B. 对上面的复数矩阵N进行奇异值分解并进行低阶近似，把高维的空间映射到低维的语义空间。 a2… C …B … Bnm」将其映射到语义空间之后，再分别提取分解后低阶 (3) 近似矩阵的每个元素的实部和虚部，得到文本和图式中：m表示样本的个数，n表示第1个视图的特征片在低维空间的新特征，即语义特征。最后将提取的文本和图片的语义特征用于训练多视图分类器维度，t表示第2个视图的特征维度。α：是第i个样 SVM-2K,并使用测试集测试模型分类结果。具本的第j维特征，B,是第i个样本的第j维特征。体步骤如下：但是这样将两种不同属性的特征强行拼接在 1)提取微博数据中的文本数据和图像数据，然一个特征空间中，应用到微博中会失去原有的物理后将文本和图像数据分成训练集和测试集。特性：一条微博是由文字和配图组成的整体。一条 2)分别对文本和图像进行预处理，并提取文本微博的文字和配图有一定的内在联系，而不是两个和图像的特征。独立的个体。基于并行融合方法[]，本文对于融 3)将文本特征和图像特征进行融合，形成一个合前后的文本和图像特征使用复数进行表示。将复数矩阵。对该复数矩阵进行奇异值分解降维。文字图片的特征使用复数进行融合，可以反应微博将降维后的矩阵分离实部和虚部分别得到文本的

各自的语义特征，其流程如图１所示。图１基于语义特征的多视图情感分类方法流程图Ｆｉｇ．１Ｆｌｏｗｃｈａｒｔｏｆｓｅｎｔｉｍｅｎｔｃｌａｓｓｉｆｉｃａｔｉｏｎｏｆｍｉｃｒｏｂｌｏｇｓｂａｓｅｄｏｎｓｅｍａｎｔｉｃｆｅａｔｕｒｅｓ图像和文本的特征融合，在信息检索领域里的跨模型检索（ｃｒｏｓｓ⁃ｍｏｄａｌｒｅｔｒｉｅｖａｌ）中已经有相应的应用。但使用较多的融合方式是文本和图像特征的串行融合［１０］。Ｗａｎｇ等［１６］在３Ｄ目标检索时，使用的两组特征串行融合方式如式（３）所示：Ｎ＝ α１１ α１２ … α１ｎ … β１１ β１２ … β１ｔ α２１ α２２ … α２ｎ … β２１ β２２ … β２ｔ ︙ ︙ ︙ ︙ ︙ ︙ αｊ１ αｊ２ … αｊｎ … βｊ１ βｊ２ … βｊｔ ︙ ︙ ︙ ︙ ︙ ︙ αｍ１ αｍ２ … αｍｎ … βｍ１ βｍ２ … βｍｔ é ë ê ê ê ê ê ê ê ê êê ù û ú ú ú ú ú ú ú ú úú （３）式中：ｍ表示样本的个数，ｎ表示第１个视图的特征维度，ｔ表示第２个视图的特征维度。 αｉｊ是第ｉ个样本的第ｊ维特征， βｉｊ是第ｉ个样本的第ｊ维特征。但是这样将两种不同属性的特征强行拼接在一个特征空间中，应用到微博中会失去原有的物理特性：一条微博是由文字和配图组成的整体。一条微博的文字和配图有一定的内在联系，而不是两个独立的个体。基于并行融合方法［１０］，本文对于融合前后的文本和图像特征使用复数进行表示。将文字图片的特征使用复数进行融合，可以反应微博的整体关系，即复数的实部表示文本特征，虚部表示图像特征。由于复数矩阵分解之后仍为复数矩阵，故分解之后的实部和虚部分别对应文本和图像的语义特征。文本特征和图像特征融合方法如式（４）所示，将融合之后的复合特征称为一个新的文档ｄｊ。ｄｊ＝ αｊ＋ｉθβｊ（４）式中：实部 αｊ为文本特征向量，虚部 βｊ为图像特征向量，θ 是权重因子。极端情况：当 θ→０时，融合的特征ｄｊ ≈ αｊ，此时近似于纯文本特征。当 θ →＋ ¥时，则ｄｊ ≈ βｊ，即此时近似于使用纯图像特征的分类效果。在本文工作中，我们将文本和图片同等对待，因此设 θ ＝１。假设有ｍ条微博，文本和图像的语义空间的维度为ｎ。那么由复数构成新的文档集合用矩阵表示如式（５）所示：Ｎ＝ α１１＋ｉβ１１ α１２＋ｉβ１２ … α１ｎ＋ｉβ１ｎ α２１＋ｉβ２１ α２２＋ｉβ２２ … α２ｎ＋ｉβ２ｎ ︙ ︙ ︙ αｊ１＋ｉβｊ１ αｊ２＋ｉβｊ２ … αｊｎ＋ｉβｊｎ ︙ ︙ ︙ αｍ１＋ｉβｍ１ αｍ２＋ｉβｍ２ … αｍｎ＋ｉβｍｎ é ë ê ê ê ê ê ê ê ê êê ù û ú ú ú ú ú ú ú ú úú （５）式中：αｉｊ是第ｉ条微博文本的第ｊ维特征， βｉｊ是第ｉ条微博图像对应的第ｊ维特征。对上面的复数矩阵Ｎ进行奇异值分解并进行低阶近似，把高维的空间映射到低维的语义空间。将其映射到语义空间之后，再分别提取分解后低阶近似矩阵的每个元素的实部和虚部，得到文本和图片在低维空间的新特征，即语义特征。最后将提取的文本和图片的语义特征用于训练多视图分类器ＳＶＭ⁃２Ｋ［１７］，并使用测试集测试模型分类结果。具体步骤如下：１）提取微博数据中的文本数据和图像数据，然后将文本和图像数据分成训练集和测试集。２）分别对文本和图像进行预处理，并提取文本和图像的特征。３）将文本特征和图像特征进行融合，形成一个复数矩阵。对该复数矩阵进行奇异值分解降维。将降维后的矩阵分离实部和虚部分别得到文本的第５期吴钟强，等：基于语义特征的多视图情感分类方法 ·７４７·

·748· 智能系统学报第12卷语义特征和图片的语义特征，语义特征提取过程如提出方法的有效性我们采取了交叉验证的方式，其算法所示。中700条数据作为训练集，300条数据作为测试集。 4)将该语义特征在SVM-2K分类器中进行训数据采集过程如图2所示。练，然后用测试集验证。微博模拟登陆网页采集器 URL调度器 5)得到测试集的情感分类结果。算法语义特征提取输入trainset,testset; 信总抽取 URL数据库输出lsa_trainset,lsa_testset 1)txtimgtr+Text(trainset)+ixImage(trainset); /*Text函数取数据集中的文本数据，Image函微博提取URL 数取数据集中的图像数据，ⅰ为虚数的单位i*/； 2)txtimage+Text(testset)+ix Image(testset); 图2新浪微博数据采集过程 3)C0MPS_LSA←-300： Fig.2 Sina micro-blog data acquisition process 4)comTxtlmgTr+txtimgtr 将得到的微博数据作如下数据预处理： /*txtimgtr为矩阵txtimgtr的转置*/； 1)过滤微博的一些冗余信息，如网址、转发对 5)[U,Σ，VT]=swd(comTxtImgTr,COMPS_LSA); 象、表情符号等。 6)US-U(:,1:COMPS_ISA); 2)将得到的微博文本和图像分离并编号，同一 7)SS-S(1 COMPS_LSA,1:COMPS_LSA); 条微博的文本和图片编号相同。 /*对矩阵进行奇异值分解，取前COMPS_LSA= 3)分词：我们使用汉语分词系统ICTCLAS1]对 300个最大的奇异值，也即为语义空间的维度*/：微博的文本进行分词。 8)comTxtImgTe←-comTxtImgTe·U·inv(SS); 4)去除停用词：分词后，去除一些无意义的停 9)comTxtlmgTr←comTxtlmg'·US·inv(SS): 用词。 /*inv为取矩阵的逆的函数*/； 3.2实验设计实验中我们设置LSA语义空间的维度r=300, 10)lsa_Ttr+Text(comTxtImgTr); 11)Isa_Tte+-Text(comTxtImgTe); 分别用向量空间模型(vector space model)和布尔模型(Bool model)进行加权。由于Tan等[]已经证 12)Isa_Itr+Image(comTxtImgTr); 明对于情感分类来说，6000维度已经可以充分表示 13)Isa_Ite+Image(comTxtImgTe); 文本。除了选取6000作为特征维度，我们展示了 14)return Isa_Ttr+lsi_Itr,Isa_Tte Isi_Ite 特征维度为5000维下的实验结果。 3 实验在文本特征选择时，使用了文档频率(document frequency,DF)、互信息(mutual information,Ml)、卡本节实验是为了验证多视图语义特征融合的方分布(Chi-squared distribution,CH)和信息增益有效性。我们使用了基于复数表示的文本特征和 (Information Gain,IG)这4种文本特征选择的方图像特征的并行融合方法，并将其进行潜在语义分法，并比较了这4种特征做情感分类时的结果：对于析。将文本特征和图像特征分别映射到同维度下图像，我们提取了图像的亮度、饱和度、色相、纹理、语义空间，得到各自的语义特征，将得到的语义特灰度共生矩阵。然后将提取的特征通过LSA映射征用于训练分类器，最后使用测试集验证了微博情到一个语义空间得到各自的语义特征，最后将文本感分类的效果。和图像的语义特征使用SVM-2K进行分类，并使用 3.1数据集测试集测试得到情感分类的结果。通过实验结果实验的数据集为爬虫从新浪微博的热门微博验证本文提出的基于文本和图像的语义特征情感下爬取的。为了完成本文的任务，在爬取微博的时分类方法的有效性。候仅仅保留同时含有文字和配图的微博。最终留 3.3实验结果下1000条微博数据并手动进行标注。为了验证所表1展示了文本特征为5000维度时，使用纯

语义特征和图片的语义特征，语义特征提取过程如算法所示。４）将该语义特征在ＳＶＭ⁃２Ｋ分类器中进行训练，然后用测试集验证。５）得到测试集的情感分类结果。算法语义特征提取输入ｔｒａｉｎｓｅｔ，ｔｅｓｔｓｅｔ；输出ｌｓａ＿ｔｒａｉｎｓｅｔ，ｌｓａ＿ｔｅｓｔｓｅｔ。１）ｔｘｔｉｍｇｔｒ←Ｔｅｘｔ（ｔｒａｉｎｓｅｔ）＋ｉ×Ｉｍａｇｅ（ｔｒａｉｎｓｅｔ）；／ ∗ Ｔｅｘｔ函数取数据集中的文本数据，Ｉｍａｇｅ函数取数据集中的图像数据，ｉ为虚数的单位ｉ∗／；２）ｔｘｔｉｍａｇｅ←Ｔｅｘｔ（ｔｅｓｔｓｅｔ）＋ｉ × Ｉｍａｇｅ（ｔｅｓｔｓｅｔ）；３）ＣＯＭＰＳ＿ＬＳＡ←３００；４）ｃｏｍＴｘｔＩｍｇＴｒ← ｔｘｔｉｍｇｔｒＴ／ ∗ ｔｘｔｉｍｇｔｒＴ为矩阵ｔｘｔｉｍｇｔｒ的转置∗／；５）［Ｕ，Σ，ＶＴ］＝ｓｖｄ（ｃｏｍＴｘｔＩｍｇＴｒ，ＣＯＭＰＳ＿ＬＳＡ）；６）ＵＳ←Ｕ（ ∶，１ ∶ＣＯＭＰＳ＿ＬＳＡ）；７）ＳＳ← Ｓ（１ ∶ＣＯＭＰＳ＿ＬＳＡ，１ ∶ＣＯＭＰＳ＿ＬＳＡ）；／ ∗ 对矩阵进行奇异值分解，取前ＣＯＭＰＳ＿ＬＳＡ＝３００个最大的奇异值，也即为语义空间的维度∗／；８）ｃｏｍＴｘｔＩｍｇＴｅ←ｃｏｍＴｘｔＩｍｇＴｅ·Ｕ·ｉｎｖ（ＳＳ）；９）ｃｏｍＴｘｔＩｍｇＴｒ ←ｃｏｍＴｘｔＩｍｇＴｒＴ·ＵＳ·ｉｎｖ（ＳＳ）；／ ∗ ｉｎｖ为取矩阵的逆的函数∗／；１０）ｌｓａ＿Ｔｔｒ←Ｔｅｘｔ（ｃｏｍＴｘｔＩｍｇＴｒ）；１１）ｌｓａ＿Ｔｔｅ←Ｔｅｘｔ（ｃｏｍＴｘｔＩｍｇＴｅ）；１２）ｌｓａ＿Ｉｔｒ←Ｉｍａｇｅ（ｃｏｍＴｘｔＩｍｇＴｒ）；１３）ｌｓａ＿Ｉｔｅ←Ｉｍａｇｅ（ｃｏｍＴｘｔＩｍｇＴｅ）；１４）ｒｅｔｕｒｎｌｓａ＿Ｔｔｒ＋ｌｓｉ＿Ｉｔｒ，ｌｓａ＿Ｔｔｅ＋ｌｓｉ＿Ｉｔｅ。３实验本节实验是为了验证多视图语义特征融合的有效性。我们使用了基于复数表示的文本特征和图像特征的并行融合方法，并将其进行潜在语义分析。将文本特征和图像特征分别映射到同维度下语义空间，得到各自的语义特征，将得到的语义特征用于训练分类器，最后使用测试集验证了微博情感分类的效果。３．１数据集实验的数据集为爬虫从新浪微博的热门微博下爬取的。为了完成本文的任务，在爬取微博的时候仅仅保留同时含有文字和配图的微博。最终留下１０００条微博数据并手动进行标注。为了验证所提出方法的有效性我们采取了交叉验证的方式，其中７００条数据作为训练集，３００条数据作为测试集。数据采集过程如图２所示。图２新浪微博数据采集过程Ｆｉｇ．２Ｓｉｎａｍｉｃｒｏ⁃ｂｌｏｇｄａｔａａｃｑｕｉｓｉｔｉｏｎｐｒｏｃｅｓｓ将得到的微博数据作如下数据预处理：１）过滤微博的一些冗余信息，如网址、转发对象、表情符号等。２）将得到的微博文本和图像分离并编号，同一条微博的文本和图片编号相同。３）分词：我们使用汉语分词系统ＩＣＴＣＬＡＳ［１８］对微博的文本进行分词。４）去除停用词：分词后，去除一些无意义的停用词。３．２实验设计实验中我们设置ＬＳＡ语义空间的维度ｒ＝３００，分别用向量空间模型（ｖｅｃｔｏｒｓｐａｃｅｍｏｄｅｌ）和布尔模型（Ｂｏｏｌｍｏｄｅｌ）进行加权。由于Ｔａｎ等［１９］已经证明对于情感分类来说，６０００维度已经可以充分表示文本。除了选取６０００作为特征维度，我们展示了特征维度为５０００维下的实验结果。在文本特征选择时，使用了文档频率（ｄｏｃｕｍｅｎｔｆｒｅｑｕｅｎｃｙ，ＤＦ）、互信息（ｍｕｔｕａｌｉｎｆｏｒｍａｔｉｏｎ，ＭＩ）、卡方分布（Ｃｈｉ－ｓｑｕａｒｅｄｄｉｓｔｒｉｂｕｔｉｏｎ，ＣＨＩ）和信息增益（ＩｎｆｏｒｍａｔｉｏｎＧａｉｎ，ＩＧ）这４种文本特征选择的方法，并比较了这４种特征做情感分类时的结果；对于图像，我们提取了图像的亮度、饱和度、色相、纹理、灰度共生矩阵。然后将提取的特征通过ＬＳＡ映射到一个语义空间得到各自的语义特征，最后将文本和图像的语义特征使用ＳＶＭ⁃２Ｋ进行分类，并使用测试集测试得到情感分类的结果。通过实验结果验证本文提出的基于文本和图像的语义特征情感分类方法的有效性。３．３实验结果表１展示了文本特征为５０００维度时，使用纯 ·７４８· 智能系统学报第１２卷

第5期吴钟强，等：基于语义特征的多视图情感分类方法 .749 文本特征、纯图像与使用文本和图像结合的语义特表4展示了文本特征为6000维度时各种分类征多视图分类的结果对比。表1对比了DF、CHⅢ 方法的对比，特征的加权方式为向量空间模型。 MI和IG这4种文本特征选择方式对于不同分类方表46000维度的向量空间模型法结果的影响，表中的SVM-2K是指使用基于文本 Table 4 6 000 dimensions of VSM 特征结合图像语义特征的多视图分类器。 SVM SVM SVM-2K 特征提取方法表15000维度的布尔模型纯文本纯图像文本+图像 Table 1 5 000 dimensions of Bool model DF 0.74 0.74 0.77 SVM SVM SVM-2K CHI 0.79 0.63 0.83 特征提取方法纯文本纯图像文本+图像 MI 0.72 0.62 0.82 DF 0.75 0.71 0.809 IG 0.78 0.65 0.785 CHI 0.78 0.63 0.812 平均正确率 0.758 0.66 0.801 MI 0.745 0.653 0.806 实验最后对比了不使用语义特征的多视图分类效果。为分析各个特征对于结果的影响，表5汇 IG 0.772 0.647 0.81 总了本文所提出方法情感分类精度结果。平均正确率 0.762 0.66 0.809 表5基于语义特征的多视图情感分类方法分类精度统计表2展示了文本特征为6000维度时各种分类 Table 5 Accuracy of multi-view sentiment classification of 方法的对比，特征为布尔模型。 microblogs based on semantic features 表26000维度的布尔模型特征提取方法表1 表2 表3 表4 平均值 Table 2 6 000 dimensions of Bool model DE 0.809 0.791 0.65 0.77 0.755 SVM SVM SVM-2K CHI 0.812 0.81 0.81 0.83 0.816 特征提取方法纯文本纯图像文本+图像 MI 0.806 0.78 0.79 0.82 0.799 DF 0.742 0.623 0.791 IG 0.81 0.77 0.8060.785 0.793 CHI 0.763 0.658 0.795 3.4 实验分析 MI 0.76 0.59 0.78 特征抽取方法的比较：通过表5可知，使用本文 IG 0.77 0.61 0.77 方法时CHⅢ特征表现得最好，平均正确率为81.6%；平均正确率 0.759 0.620 0.784 DF表现得最不稳定，有时效果不错（如表1所示），有时表现得很差（如表3所示）。表3展示了文本特征为5000维度时，使用纯语义特征：可以用不同的方式得到一个文档的文本特征、纯图像与使用文本和图像结合的语义特语义特征，例如，可以用DA[20或者针对于文本较征多视图分类的结果对比，同样对比了DF、CHⅢ、MI 短的情况改进的LDA模型[2I-]对文本进行聚类，和IG这4种特征选择方式对于各种分类方法结果用聚类的结果对文本进行再分析。图像也可以使的影响。用类似的方法。但把文本特征和图像特征分开进表35000维度的向量空间模型行语义映射，会失去二者的内在联系。 Table 3 5 000 dimensions of VSM 词项特征和语义特征：通过对比，我们可以发 SVM SVM SVM-2K 现，语义特征的分类精度最好的是81.6%，最坏情况特征提取方法纯文本纯图像文本+图像是75.5%：而未经过LSA处理的纯文本特征最好情 DF 0.62 0.53 0.65 况是75.75%，最坏情况是74.5%。不难看出，使用 CHI 0.78 0.69 0.81 经过LSA得到的语义特征，有助于提升微博情感分 MI 类的精度。不仅整体的分类效果更好，而且各个子 0.73 0.67 0.79 分类器的分类效果也比纯文本特征有所提高。这 IG 0.72 0.65 0.806 表明，进行情感分类工作时在语义级别处理并行融平均正确率 0.712 0.635 0.764 合后特征能得到更好的分类效果

文本特征、纯图像与使用文本和图像结合的语义特征多视图分类的结果对比。表１对比了ＤＦ、ＣＨＩ、ＭＩ和ＩＧ这４种文本特征选择方式对于不同分类方法结果的影响，表中的ＳＶＭ⁃２Ｋ是指使用基于文本特征结合图像语义特征的多视图分类器。表１５０００维度的布尔模型Ｔａｂｌｅ１５０００ｄｉｍｅｎｓｉｏｎｓｏｆＢｏｏｌｍｏｄｅｌ特征提取方法ＳＶＭ纯文本ＳＶＭ纯图像ＳＶＭ⁃２Ｋ文本＋图像ＤＦ０．７５０．７１０．８０９ＣＨＩ０．７８０．６３０．８１２ＭＩ０．７４５０．６５３０．８０６ＩＧ０．７７２０．６４７０．８１平均正确率０．７６２０．６６０．８０９表２展示了文本特征为６０００维度时各种分类方法的对比，特征为布尔模型。表２６０００维度的布尔模型Ｔａｂｌｅ２６０００ｄｉｍｅｎｓｉｏｎｓｏｆＢｏｏｌｍｏｄｅｌ特征提取方法ＳＶＭ纯文本ＳＶＭ纯图像ＳＶＭ⁃２Ｋ文本＋图像ＤＦ０．７４２０．６２３０．７９１ＣＨＩ０．７６３０．６５８０．７９５ＭＩ０．７６０．５９０．７８ＩＧ０．７７０．６１０．７７平均正确率０．７５９０．６２００．７８４表３展示了文本特征为５０００维度时，使用纯文本特征、纯图像与使用文本和图像结合的语义特征多视图分类的结果对比，同样对比了ＤＦ、ＣＨＩ、ＭＩ和ＩＧ这４种特征选择方式对于各种分类方法结果的影响。表３５０００维度的向量空间模型Ｔａｂｌｅ３５０００ｄｉｍｅｎｓｉｏｎｓｏｆＶＳＭ特征提取方法ＳＶＭ纯文本ＳＶＭ纯图像ＳＶＭ⁃２Ｋ文本＋图像ＤＦ０．６２０．５３０．６５ＣＨＩ０．７８０．６９０．８１ＭＩ０．７３０．６７０．７９ＩＧ０．７２０．６５０．８０６平均正确率０．７１２０．６３５０．７６４表４展示了文本特征为６０００维度时各种分类方法的对比，特征的加权方式为向量空间模型。表４６０００维度的向量空间模型Ｔａｂｌｅ４６０００ｄｉｍｅｎｓｉｏｎｓｏｆＶＳＭ特征提取方法ＳＶＭ纯文本ＳＶＭ纯图像ＳＶＭ⁃２Ｋ文本＋图像ＤＦ０．７４０．７４０．７７ＣＨＩ０．７９０．６３０．８３ＭＩ０．７２０．６２０．８２ＩＧ０．７８０．６５０．７８５平均正确率０．７５８０．６６０．８０１实验最后对比了不使用语义特征的多视图分类效果。为分析各个特征对于结果的影响，表５汇总了本文所提出方法情感分类精度结果。表５基于语义特征的多视图情感分类方法分类精度统计Ｔａｂｌｅ５Ａｃｃｕｒａｃｙｏｆｍｕｌｔｉ⁃ｖｉｅｗｓｅｎｔｉｍｅｎｔｃｌａｓｓｉｆｉｃａｔｉｏｎｏｆｍｉｃｒｏｂｌｏｇｓｂａｓｅｄｏｎｓｅｍａｎｔｉｃｆｅａｔｕｒｅｓ特征提取方法表１表２表３表４平均值ＤＦ０．８０９０．７９１０．６５０．７７０．７５５ＣＨＩ０．８１２０．８１０．８１０．８３０．８１６ＭＩ０．８０６０．７８０．７９０．８２０．７９９ＩＧ０．８１０．７７０．８０６０．７８５０．７９３３．４实验分析特征抽取方法的比较：通过表５可知，使用本文方法时ＣＨＩ特征表现得最好，平均正确率为８１．６％；ＤＦ表现得最不稳定，有时效果不错（如表１所示），有时表现得很差（如表３所示）。语义特征：可以用不同的方式得到一个文档的语义特征，例如，可以用ＬＤＡ［２０］或者针对于文本较短的情况改进的ＬＤＡ模型［２１－２２］对文本进行聚类，用聚类的结果对文本进行再分析。图像也可以使用类似的方法。但把文本特征和图像特征分开进行语义映射，会失去二者的内在联系。词项特征和语义特征：通过对比，我们可以发现，语义特征的分类精度最好的是８１．６％，最坏情况是７５．５％；而未经过ＬＳＡ处理的纯文本特征最好情况是７５．７５％，最坏情况是７４．５％。不难看出，使用经过ＬＳＡ得到的语义特征，有助于提升微博情感分类的精度。不仅整体的分类效果更好，而且各个子分类器的分类效果也比纯文本特征有所提高。这表明，进行情感分类工作时在语义级别处理并行融合后特征能得到更好的分类效果。第５期吴钟强，等：基于语义特征的多视图情感分类方法 ·７４９·

·750 智能系统学报第12卷在用户发的带有文本和图片的微博数据中，我息、地理位置信息等。如何有效地利用这些因素提们可以发现，本文所提出的基于语义特征的多视图高情感分类精度有待进一步的研究。微博情感分类方法的效果明显优于只考虑纯文本的情况。例如，微博“我希望躺在向日葵上，即使沮参考文献：丧，也能朝着阳光”，其配图如图3所示。若使用纯 [1]LIU B.Sentiment analysis and opinion mining[J].Synthesis 文本将其分类得到的是负面的，而若采用本文提出 lectures on human language technologies,2012,5(1): 的多视图语义特征方法将其分类得到的为正面情 1-167. 感。再如，微博“一个人不会，也不可能，将祂的全 [2]PANG T B,PANG B,LEE L.Thumbs up?Sentiment 部呈现给你。你所看到的永远是祂的局部，而局部 classification using machine learning J].Proceedings of EMNLP,2002:79-86. 永远是美好的。”其配图如图4所示。若仅使用纯 [3]TACKSTROM O,MCDONALD R.Semi-supervised latent 文本分类则分类结果为正面情感。采用本文提出 variable models for sentence-level sentiment analysis[C]// 的方法，则得到的是负面情感，而负面情感更加符 The 49th Annual Meeting of the Association for 合事实的判断。进而说明了本文方法的有效性。 Computational Linguistics.Stroudsburg,USA,2011: 569-574. [4]QIU G,LIU B,BU J,et al.Opinion word expansion and target extraction through double propagation[]]. Computational linguistics,2011,37(1):9-27. [5]WU Y.ZAHNG Q.HUANG X,et al.Phrase Dependency Parsing for Opinion Mining[C]//Proceedings of the 2009 Conference on Empirical Methods in Natural Language 图3示例1配图 Processing.Stroudsburg,USA,2009:1533-1541. Fig.3 Image in case 1 [6]LIU Y,HUANG X,AN A,et al.ARSA:a sentiment- aware model for predicting sales performance using blogs [C]//International ACM SIGIR Conference on Research and Development in Information Retrieval.New York,USA, 2007:607-614. [7]MISHNE G,GLANCE N S.Predicting movie sales from blogger sentiment [C]//National Conference on Artificial Intelligence.Menlo Park,USA,2006:155-158. [8]O'CONNOR B,BALASUBRAMANYAN R,ROUTLEDGE 图4示例2配图 B R,et al.From tweets to polls:linking text sentiment to Fig.4 Image in case 2 public opinion time series[C]//Proceedings of the Fourth International AAAI Conference on Weblogs and Social 4结束语 Media.Menlo Park,USA,2010:122-129. 9]CHIANG H C,MOSES R L,POTTER L C.Model-based 本文首先利用并行特征融合方式，将文本和图 Bayesian feature matching with application to synthetic 像合理地组合在一起，然后用潜在语义分析技术， aperture radar target recognition[J].Pattern recognition, 将文本和图像特征统一地映射到一个语义空间，最 2001,34(8)：1539-1553. 后使用多视图分类器SVM-2K进行分类。实验表 [10]MCCULLOUGH C L.Feature and data-level fusion of 明，基于本文多视图的语义特征方法的情感分类获 infrared and visual images[J].Proceedings of SPIE-the 得了比单纯的文本特征或者图像特征更好的效果。 international society for optical engineering,1999,3719: 312-318. 使用融合后的语义特征不管是文本特征做情感分 [11]YANG J,YANG J Y,ZHANG D,et al.Feature fusion: 类还是单从图像特征做情感分类，都比原来的分类 parallel strategy vs.serial strategy[J].Pattern 精度有所提高。但是在31小节数据预处理时难免 recognition,2003,36(6):1369-1381. 会剔除一些有用的信息，如表情、终端信息、转发信 [12]SALTON G,WONG A,YANG C S.A vector space model

在用户发的带有文本和图片的微博数据中，我们可以发现，本文所提出的基于语义特征的多视图微博情感分类方法的效果明显优于只考虑纯文本的情况。例如，微博“我希望躺在向日葵上，即使沮丧，也能朝着阳光”，其配图如图３所示。若使用纯文本将其分类得到的是负面的，而若采用本文提出的多视图语义特征方法将其分类得到的为正面情感。再如，微博“一个人不会，也不可能，将祂的全部呈现给你。你所看到的永远是祂的局部，而局部永远是美好的。” 其配图如图４所示。若仅使用纯文本分类则分类结果为正面情感。采用本文提出的方法，则得到的是负面情感，而负面情感更加符合事实的判断。进而说明了本文方法的有效性。图３示例１配图Ｆｉｇ．３Ｉｍａｇｅｉｎｃａｓｅ１图４示例２配图Ｆｉｇ．４Ｉｍａｇｅｉｎｃａｓｅ２４结束语本文首先利用并行特征融合方式，将文本和图像合理地组合在一起，然后用潜在语义分析技术，将文本和图像特征统一地映射到一个语义空间，最后使用多视图分类器ＳＶＭ⁃２Ｋ进行分类。实验表明，基于本文多视图的语义特征方法的情感分类获得了比单纯的文本特征或者图像特征更好的效果。使用融合后的语义特征不管是文本特征做情感分类还是单从图像特征做情感分类，都比原来的分类精度有所提高。但是在３．１小节数据预处理时难免会剔除一些有用的信息，如表情、终端信息、转发信息、地理位置信息等。如何有效地利用这些因素提高情感分类精度有待进一步的研究。参考文献：［１］ＬＩＵＢ．Ｓｅｎｔｉｍｅｎｔａｎａｌｙｓｉｓａｎｄｏｐｉｎｉｏｎｍｉｎｉｎｇ［Ｊ］．Ｓｙｎｔｈｅｓｉｓｌｅｃｔｕｒｅｓｏｎｈｕｍａｎｌａｎｇｕａｇｅｔｅｃｈｎｏｌｏｇｉｅｓ，２０１２，５（１）：１－１６７．［２］ＰＡＮＧＴＢ，ＰＡＮＧＢ，ＬＥＥＬ．Ｔｈｕｍｂｓｕｐ？Ｓｅｎｔｉｍｅｎｔｃｌａｓｓｉｆｉｃａｔｉｏｎｕｓｉｎｇｍａｃｈｉｎｅｌｅａｒｎｉｎｇ［Ｊ］．ＰｒｏｃｅｅｄｉｎｇｓｏｆＥＭＮＬＰ，２００２：７９－８６．［３］ＴÄＣＫＳＴＲÖＭＯ，ＭＣＤＯＮＡＬＤＲ．Ｓｅｍｉ⁃ｓｕｐｅｒｖｉｓｅｄｌａｔｅｎｔｖａｒｉａｂｌｅｍｏｄｅｌｓｆｏｒｓｅｎｔｅｎｃｅ⁃ｌｅｖｅｌｓｅｎｔｉｍｅｎｔａｎａｌｙｓｉｓ［Ｃ］／／Ｔｈｅ４９ｔｈＡｎｎｕａｌＭｅｅｔｉｎｇｏｆｔｈｅＡｓｓｏｃｉａｔｉｏｎｆｏｒＣｏｍｐｕｔａｔｉｏｎａｌＬｉｎｇｕｉｓｔｉｃｓ．Ｓｔｒｏｕｄｓｂｕｒｇ，ＵＳＡ，２０１１：５６９－５７４．［４］ＱＩＵＧ，ＬＩＵＢ，ＢＵＪ，ｅｔａｌ．Ｏｐｉｎｉｏｎｗｏｒｄｅｘｐａｎｓｉｏｎａｎｄｔａｒｇｅｔｅｘｔｒａｃｔｉｏｎｔｈｒｏｕｇｈｄｏｕｂｌｅｐｒｏｐａｇａｔｉｏｎ［Ｊ］．Ｃｏｍｐｕｔａｔｉｏｎａｌｌｉｎｇｕｉｓｔｉｃｓ，２０１１，３７（１）：９－２７．［５］ＷＵＹ，ＺＡＨＮＧＱ，ＨＵＡＮＧＸ，ｅｔａｌ．ＰｈｒａｓｅＤｅｐｅｎｄｅｎｃｙＰａｒｓｉｎｇｆｏｒＯｐｉｎｉｏｎＭｉｎｉｎｇ［Ｃ］／／Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ２００９ＣｏｎｆｅｒｅｎｃｅｏｎＥｍｐｉｒｉｃａｌＭｅｔｈｏｄｓｉｎＮａｔｕｒａｌＬａｎｇｕａｇｅＰｒｏｃｅｓｓｉｎｇ．Ｓｔｒｏｕｄｓｂｕｒｇ，ＵＳＡ，２００９：１５３３－１５４１．［６］ＬＩＵＹ，ＨＵＡＮＧＸ，ＡＮＡ，ｅｔａｌ．ＡＲＳＡ：ａｓｅｎｔｉｍｅｎｔ－ａｗａｒｅｍｏｄｅｌｆｏｒｐｒｅｄｉｃｔｉｎｇｓａｌｅｓｐｅｒｆｏｒｍａｎｃｅｕｓｉｎｇｂｌｏｇｓ［Ｃ］／／ＩｎｔｅｒｎａｔｉｏｎａｌＡＣＭＳＩＧＩＲＣｏｎｆｅｒｅｎｃｅｏｎＲｅｓｅａｒｃｈａｎｄＤｅｖｅｌｏｐｍｅｎｔｉｎＩｎｆｏｒｍａｔｉｏｎＲｅｔｒｉｅｖａｌ．ＮｅｗＹｏｒｋ，ＵＳＡ，２００７：６０７－６１４．［７］ＭＩＳＨＮＥＧ，ＧＬＡＮＣＥＮＳ．Ｐｒｅｄｉｃｔｉｎｇｍｏｖｉｅｓａｌｅｓｆｒｏｍｂｌｏｇｇｅｒｓｅｎｔｉｍｅｎｔ［Ｃ］／／ＮａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅ．ＭｅｎｌｏＰａｒｋ，ＵＳＡ，２００６：１５５－１５８．［８］Ｏ􀆳ＣＯＮＮＯＲＢ，ＢＡＬＡＳＵＢＲＡＭＡＮＹＡＮＲ，ＲＯＵＴＬＥＤＧＥＢＲ，ｅｔａｌ．Ｆｒｏｍｔｗｅｅｔｓｔｏｐｏｌｌｓ：ｌｉｎｋｉｎｇｔｅｘｔｓｅｎｔｉｍｅｎｔｔｏｐｕｂｌｉｃｏｐｉｎｉｏｎｔｉｍｅｓｅｒｉｅｓ［Ｃ］／／ＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅＦｏｕｒｔｈＩｎｔｅｒｎａｔｉｏｎａｌＡＡＡＩＣｏｎｆｅｒｅｎｃｅｏｎＷｅｂｌｏｇｓａｎｄＳｏｃｉａｌＭｅｄｉａ．ＭｅｎｌｏＰａｒｋ，ＵＳＡ，２０１０：１２２－１２９．［９］ＣＨＩＡＮＧＨＣ，ＭＯＳＥＳＲＬ，ＰＯＴＴＥＲＬＣ．Ｍｏｄｅｌ－ｂａｓｅｄＢａｙｅｓｉａｎｆｅａｔｕｒｅｍａｔｃｈｉｎｇｗｉｔｈａｐｐｌｉｃａｔｉｏｎｔｏｓｙｎｔｈｅｔｉｃａｐｅｒｔｕｒｅｒａｄａｒｔａｒｇｅｔｒｅｃｏｇｎｉｔｉｏｎ［Ｊ］．Ｐａｔｔｅｒｎｒｅｃｏｇｎｉｔｉｏｎ，２００１，３４（８）：１５３９－１５５３．［１０］ＭＣＣＵＬＬＯＵＧＨＣＬ．Ｆｅａｔｕｒｅａｎｄｄａｔａ⁃ｌｅｖｅｌｆｕｓｉｏｎｏｆｉｎｆｒａｒｅｄａｎｄｖｉｓｕａｌｉｍａｇｅｓ［Ｊ］．ＰｒｏｃｅｅｄｉｎｇｓｏｆＳＰＩＥ⁃ｔｈｅｉｎｔｅｒｎａｔｉｏｎａｌｓｏｃｉｅｔｙｆｏｒｏｐｔｉｃａｌｅｎｇｉｎｅｅｒｉｎｇ，１９９９，３７１９：３１２－３１８．［１１］ＹＡＮＧＪ，ＹＡＮＧＪＹ，ＺＨＡＮＧＤ，ｅｔａｌ．Ｆｅａｔｕｒｅｆｕｓｉｏｎ：ｐａｒａｌｌｅｌｓｔｒａｔｅｇｙｖｓ．ｓｅｒｉａｌｓｔｒａｔｅｇｙ［Ｊ］．Ｐａｔｔｅｒｎｒｅｃｏｇｎｉｔｉｏｎ，２００３，３６（６）：１３６９－１３８１．［１２］ＳＡＬＴＯＮＧ，ＷＯＮＧＡ，ＹＡＮＧＣＳ．Ａｖｅｃｔｏｒｓｐａｃｅｍｏｄｅｌ ·７５０· 智能系统学报第１２卷

第5期吴钟强.等：基于语义特征的多视图情感分类方法 ·751. for automatic indexing M ]New York:ACM,1975: [21]ZHAO W X,JIANG J,WENG J,et al.Comparing twitter 613-620. and traditional media using topic models[J].Lecture [13]DEERWESTER S,DUMAIS ST,FURNAS G W.Indexing notes in computer science,2011,6611:338-349. by latent semantic analysis[J].Journal of the american [22]YAN X,GUO J,LAN Y,et al.A biterm topic model for society for information science,1990,41:391-407. short texts[C]//Proceedings of the 22nd interational [14]REHDER B,SCHREINER M E,WOLFE M B W,et al. conference on World Wide Web.New York,USA,2013: Using latent semantic analysis to assess knowledge:some 1445-1456. technical considerations[J].Discourse processes,1998. 作者简介： 25(2/3)：337-354. 吴钟强，男，1992年生，硕士研究 [15]GOLUB G H,REINSCH C.Singular value decomposition 生，主要研究方向为文本挖掘、情感 and least squares solutions[].Numerische mathematik, 分析。 1970.14(5):403-420. [16]WANG F,PENG J,LI Y.Hypergraph based feature fusion for 3-D object retrieval[J].Neurocomputing,2015,151: 612-619 [17]FARQUHAR J D R,HARDOON D R,MENG H,et al. 张耀文，男，1989年生，硕士研究 Two view learning:SVM-2K,theory and practice[C]/ 生，主要研究方向为文本挖掘、情感 International Conference on Neural Information Processing 分析。 Systems.Stroud sburg,USA,2005:355-362. [18 ZHANG H P,YU H K,XIONG D Y,et al.HHMM- based Chinese lexical analyzer ICTCLAS[C]// Proceedings of the second SIGHAN workshop on Chinese language Processing-Volume 17.Stroudsburg,USA, 商琳，女，1973年生，副教授，博士， 2003:758-759. 主要研究方向为计算智能、机器学习、 [19]TAN S,ZHANG J.An empirical study of sentiment 文本挖掘等。 analysis for chinese documents[J].Expert systems with applications,2008,34(4):2622-2629. [20]BLEI D M,NG A Y,JORDAN M I.Latent dirichlet allocation[].Journal of machine learning research, 2003.3:993-1022

ｆｏｒａｕｔｏｍａｔｉｃｉｎｄｅｘｉｎｇ［Ｍ］．ＮｅｗＹｏｒｋ：ＡＣＭ，１９７５：６１３－６２０．［１３］ＤＥＥＲＷＥＳＴＥＲＳ，ＤＵＭＡＩＳＳＴ，ＦＵＲＮＡＳＧＷ．Ｉｎｄｅｘｉｎｇｂｙｌａｔｅｎｔｓｅｍａｎｔｉｃａｎａｌｙｓｉｓ［Ｊ］．Ｊｏｕｒｎａｌｏｆｔｈｅａｍｅｒｉｃａｎｓｏｃｉｅｔｙｆｏｒｉｎｆｏｒｍａｔｉｏｎｓｃｉｅｎｃｅ，１９９０，４１：３９１－４０７．［１４］ＲＥＨＤＥＲＢ，ＳＣＨＲＥＩＮＥＲＭＥ，ＷＯＬＦＥＭＢＷ，ｅｔａｌ．Ｕｓｉｎｇｌａｔｅｎｔｓｅｍａｎｔｉｃａｎａｌｙｓｉｓｔｏａｓｓｅｓｓｋｎｏｗｌｅｄｇｅ：ｓｏｍｅｔｅｃｈｎｉｃａｌｃｏｎｓｉｄｅｒａｔｉｏｎｓ［Ｊ］．Ｄｉｓｃｏｕｒｓｅｐｒｏｃｅｓｓｅｓ，１９９８，２５（２／３）：３３７－３５４．［１５］ＧＯＬＵＢＧＨ，ＲＥＩＮＳＣＨＣ．Ｓｉｎｇｕｌａｒｖａｌｕｅｄｅｃｏｍｐｏｓｉｔｉｏｎａｎｄｌｅａｓｔｓｑｕａｒｅｓｓｏｌｕｔｉｏｎｓ［Ｊ］．Ｎｕｍｅｒｉｓｃｈｅｍａｔｈｅｍａｔｉｋ，１９７０，１４（５）：４０３－４２０．［１６］ＷＡＮＧＦ，ＰＥＮＧＪ，ＬＩＹ．Ｈｙｐｅｒｇｒａｐｈｂａｓｅｄｆｅａｔｕｒｅｆｕｓｉｏｎｆｏｒ３⁃Ｄｏｂｊｅｃｔｒｅｔｒｉｅｖａｌ［Ｊ］．Ｎｅｕｒｏｃｏｍｐｕｔｉｎｇ，２０１５，１５１：６１２－６１９．［１７］ＦＡＲＱＵＨＡＲＪＤＲ，ＨＡＲＤＯＯＮＤＲ，ＭＥＮＧＨ，ｅｔａｌ．Ｔｗｏｖｉｅｗｌｅａｒｎｉｎｇ：ＳＶＭ⁃２Ｋ，ｔｈｅｏｒｙａｎｄｐｒａｃｔｉｃｅ［Ｃ］／／ＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＮｅｕｒａｌＩｎｆｏｒｍａｔｉｏｎＰｒｏｃｅｓｓｉｎｇＳｙｓｔｅｍｓ．Ｓｔｒｏｕｄｓｂｕｒｇ，ＵＳＡ，２００５：３５５－３６２．［１８］ＺＨＡＮＧＨＰ，ＹＵＨＫ，ＸＩＯＮＧＤＹ，ｅｔａｌ．ＨＨＭＭ－ｂａｓｅｄＣｈｉｎｅｓｅｌｅｘｉｃａｌａｎａｌｙｚｅｒＩＣＴＣＬＡＳ［Ｃ］／／ＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅｓｅｃｏｎｄＳＩＧＨＡＮｗｏｒｋｓｈｏｐｏｎＣｈｉｎｅｓｅｌａｎｇｕａｇｅＰｒｏｃｅｓｓｉｎｇ⁃Ｖｏｌｕｍｅ１７．Ｓｔｒｏｕｄｓｂｕｒｇ，ＵＳＡ，２００３：７５８－７５９．［１９］ＴＡＮＳ，ＺＨＡＮＧＪ．Ａｎｅｍｐｉｒｉｃａｌｓｔｕｄｙｏｆｓｅｎｔｉｍｅｎｔａｎａｌｙｓｉｓｆｏｒｃｈｉｎｅｓｅｄｏｃｕｍｅｎｔｓ［Ｊ］．Ｅｘｐｅｒｔｓｙｓｔｅｍｓｗｉｔｈａｐｐｌｉｃａｔｉｏｎｓ，２００８，３４（４）：２６２２－２６２９．［２０］ＢＬＥＩＤＭ，ＮＧＡＹ，ＪＯＲＤＡＮＭＩ．Ｌａｔｅｎｔｄｉｒｉｃｈｌｅｔａｌｌｏｃａｔｉｏｎ［Ｊ］．Ｊｏｕｒｎａｌｏｆｍａｃｈｉｎｅｌｅａｒｎｉｎｇｒｅｓｅａｒｃｈ，２００３，３：９９３－１０２２．［２１］ＺＨＡＯＷＸ，ＪＩＡＮＧＪ，ＷＥＮＧＪ，ｅｔａｌ．Ｃｏｍｐａｒｉｎｇｔｗｉｔｔｅｒａｎｄｔｒａｄｉｔｉｏｎａｌｍｅｄｉａｕｓｉｎｇｔｏｐｉｃｍｏｄｅｌｓ［Ｊ］．Ｌｅｃｔｕｒｅｎｏｔｅｓｉｎｃｏｍｐｕｔｅｒｓｃｉｅｎｃｅ，２０１１，６６１１：３３８－３４９．［２２］ＹＡＮＸ，ＧＵＯＪ，ＬＡＮＹ，ｅｔａｌ．Ａｂｉｔｅｒｍｔｏｐｉｃｍｏｄｅｌｆｏｒｓｈｏｒｔｔｅｘｔｓ［Ｃ］／／Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ２２ｎｄｉｎｔｅｒｎａｔｉｏｎａｌｃｏｎｆｅｒｅｎｃｅｏｎＷｏｒｌｄＷｉｄｅＷｅｂ．ＮｅｗＹｏｒｋ，ＵＳＡ，２０１３：１４４５－１４５６．作者简介：吴钟强，男，１９９２年生，硕士研究生，主要研究方向为文本挖掘、情感分析。张耀文，男，１９８９年生，硕士研究生，主要研究方向为文本挖掘、情感分析。商琳，女，１９７３年生，副教授，博士，主要研究方向为计算智能、机器学习、文本挖掘等。第５期吴钟强，等：基于语义特征的多视图情感分类方法 ·７５１·

点击进入文档下载页（PDF格式）

已到末页，全文结束

点击下载（PDF格式）

浏览记录