正在加载图片...
·746 智能系统学报 第12卷 感分类的工作较少。但图像也是传达情感信息的 SVD)技术将词-文档矩阵分解,可以将原始高维空 重要渠道。对于文本和图像并存的情况,图像也可 间中表示的词和文档投射到低维语义空间。 以作为传播情感的载体,如果仅对文本部分进行特 LSA首先构造一个词-文档矩阵N=[X:]。其 征的提取,可能导致对微博整体情感特征提取的缺 中矩阵的行表示词,列表示文档,X表示第i个词 失,使得整体情感分类的结果不理想。 在第广个文档中的权重。矩阵中的一行‘:= 要使用不同视图的特征就涉及特征融合问题。 [x1x2…xm]代表某个词和所有文档之间的关系, 特征融合被广泛应用在多个领域,如目标跟踪和识 矩阵中的一列d,=[xyxg…x]代表某个文档和 别)、图像处理0]等领域,主要可以分为串行融合 所有词语之间的关系(x:≠0表示该文档包含该词 和并行融合山。 汇,其值表示第i个词在第个文档中的权重)。两 本文通过复数矩阵融合的方式并使用潜在语 个行向量的点积·1,「代表文档中两个词(第i个 义分析2](latent semantic analysis,LSA)技术提出了 词和第p个词)的相关性;两个列的点积d·d,代表 基于语义特征的多视图分类方法。首先,将文本和 两个文档(第j篇文档和第g篇文档)的相关性。由 图像并行融合之后的特征,通过潜在语义分析将原 于一个词一般出现在几个特定文档中,故矩阵N通 始的文本和图像特征映射到低维的概念空间(语义 常是一个稀疏矩阵。而通过奇异值分解,可以将高 空间)得到文本和图像的语义特征:然后,通过语义 维的系数矩阵转化成低维的稠密矩阵。任何一个 特征训练分类器:最后,将分类器用于微博的情感 矩阵都可以使用奇异值分解],假设矩阵N为m× 分类。实验通过爬取的新浪微博数据集验证了本 n矩阵,则奇异值分解定义如式(1): 文提出的方法能够有效地提高多视图情感分类的 N=UEV (1) 效果,同时分析了几个常用特征的利弊。 式中:U为m×m的矩阵,Σ为m×n矩阵,V为n× 1潜在语义分析方法简介 n矩阵。矩阵U、V为奇异向量组成的正交方阵。Σ 是奇异值的对角矩阵,Σ=iag(σ1,02,…,0n),其中U1, 1.1潜在语义分析概念 02,un是矩阵N的n个奇异值,且σ1≥02≥…≥ 在信息检索或者文本分析领域,通常使用向量 σ.。得到了奇异值之后,取前r个最大的奇异值以 空间模型2(vector space model,VSM)来表示一篇 及对应的特征向量即可以得到矩阵的低阶近似,如 文档。它将一篇文档或者一段话表示成向量,方便 式(2)所示: 进行各种数学处理。虽然此种方法在一些应用中 N'≈U''VT (2) 可以获得不错的效果,但在实际生活中,可能存在 式中:U'mw=[u1山2…山,],'x=diag(o1,02,…, 多次同义的问题,而VSM并不能很好地发现词与词 o,),Vn=[12…,]T,为奇异值从大到小排列 之间在语义上的关系。 的对角矩阵,其中r的值远小于m和n。目标是使 LSA可以在一定程度上解决上述问题。LSA源 得N与N'尽可能相似同时获得尽可能小的r,其中 自信息检索领域问题:如何从query中找到相关的 r是语义空间的维度。之后,可以在该空间内计算 文档)]。LSA试图表达一个词背后隐藏的语义信 词之间、文档之间以及词与文档之间的相似性度 息,它把词和文档都映射到一个语义空间并在这个 量等。 空间内进行各种运算。这种想法是受到心理语言 学家的启发[。LSA认为文本中的词语存在着潜 2基于语义特征的多视图情感分类 在的语义结构,同义词被映射到相同的语义空间之 现有的情感分类研究工作很多都是围绕文本 后应该有很大的关联度。 展开的,但微博除了文本还存在大量的图片,如果 1.2潜在语义分析 能够将文本和图片结合,就可以获得比纯文本更多 LSA是一种无监督的学习技术,处理的是词- 的信息量。但若仅仅使用原始特征,有可能带来维 文档矩阵(在本文中处理的是文本和图像特征融合 度灾难问题。 后的复数矩阵)。构建词-文档矩阵之后,LSA通过 本文提出的基于语义特征的多视图情感分类 使用奇异值分解1(singular value decomposition, 方法将文本和图像特征并行融合,并使用LSA抽取感分类的工作较少。 但图像也是传达情感信息的 重要渠道。 对于文本和图像并存的情况,图像也可 以作为传播情感的载体,如果仅对文本部分进行特 征的提取,可能导致对微博整体情感特征提取的缺 失,使得整体情感分类的结果不理想。 要使用不同视图的特征就涉及特征融合问题。 特征融合被广泛应用在多个领域,如目标跟踪和识 别[9] 、图像处理[10]等领域,主要可以分为串行融合 和并行融合[11] 。 本文通过复数矩阵融合的方式并使用潜在语 义分析[2] (latent semantic analysis, LSA)技术提出了 基于语义特征的多视图分类方法。 首先,将文本和 图像并行融合之后的特征,通过潜在语义分析将原 始的文本和图像特征映射到低维的概念空间(语义 空间)得到文本和图像的语义特征;然后,通过语义 特征训练分类器;最后,将分类器用于微博的情感 分类。 实验通过爬取的新浪微博数据集验证了本 文提出的方法能够有效地提高多视图情感分类的 效果,同时分析了几个常用特征的利弊。 1 潜在语义分析方法简介 1.1 潜在语义分析概念 在信息检索或者文本分析领域,通常使用向量 空间模型[12] (vector space model, VSM)来表示一篇 文档。 它将一篇文档或者一段话表示成向量,方便 进行各种数学处理。 虽然此种方法在一些应用中 可以获得不错的效果,但在实际生活中,可能存在 多次同义的问题,而 VSM 并不能很好地发现词与词 之间在语义上的关系。 LSA 可以在一定程度上解决上述问题。 LSA 源 自信息检索领域问题:如何从 query 中找到相关的 文档[13] 。 LSA 试图表达一个词背后隐藏的语义信 息,它把词和文档都映射到一个语义空间并在这个 空间内进行各种运算。 这种想法是受到心理语言 学家的启发[14] 。 LSA 认为文本中的词语存在着潜 在的语义结构,同义词被映射到相同的语义空间之 后应该有很大的关联度。 1.2 潜在语义分析 LSA 是一种无监督的学习技术,处理的是词- 文档矩阵(在本文中处理的是文本和图像特征融合 后的复数矩阵)。 构建词-文档矩阵之后,LSA 通过 使用奇异值分解[15] ( singular value decomposition, SVD)技术将词-文档矩阵分解,可以将原始高维空 间中表示的词和文档投射到低维语义空间。 LSA 首先构造一个词-文档矩阵 N = [Xij]。 其 中矩阵的行表示词,列表示文档, Xij 表示第 i 个词 在第 j 个 文 档 中 的 权 重。 矩 阵 中 的 一 行 t i = [xi1 xi2 … xin ] 代表某个词和所有文档之间的关系, 矩阵中的一列 dj = [x1j x2j … xmj] T 代表某个文档和 所有词语之间的关系( xij ≠ 0 表示该文档包含该词 汇,其值表示第 i 个词在第 j 个文档中的权重)。 两 个行向量的点积 t i·t p T 代表文档中两个词(第 i 个 词和第 p 个词)的相关性;两个列的点积 d T j ·dq 代表 两个文档(第 j 篇文档和第 q 篇文档)的相关性。 由 于一个词一般出现在几个特定文档中,故矩阵 N 通 常是一个稀疏矩阵。 而通过奇异值分解,可以将高 维的系数矩阵转化成低维的稠密矩阵。 任何一个 矩阵都可以使用奇异值分解[15] ,假设矩阵 N 为 m × n 矩阵,则奇异值分解定义如式(1): N = UΣ V T (1) 式中:U 为 m × m 的矩阵, Σ 为 m × n 矩阵,V 为 n × n 矩阵。 矩阵 U、V 为奇异向量组成的正交方阵。 Σ 是奇异值的对角矩阵,Σ =diag(σ1,σ2,…,σn ),其中 σ1, σ2,…σn 是矩阵 N 的 n 个奇异值,且 σ1 ≥ σ2 ≥ … ≥ σn 。 得到了奇异值之后,取前 r 个最大的奇异值以 及对应的特征向量即可以得到矩阵的低阶近似,如 式(2)所示: N′ ≈ U′Σ′V′ T (2) 式中:U′m×r = [ u1 u2 … ur ],Σ′r×r = diag(σ1 ,σ2 ,…, σr),V′ T r×n = [v1 v2… vr] T ,Σ′为奇异值从大到小排列 的对角矩阵,其中 r 的值远小于 m 和 n。 目标是使 得 N 与 N′尽可能相似同时获得尽可能小的 r,其中 r 是语义空间的维度。 之后,可以在该空间内计算 词之间、文档之间以及词与文档之间的相似性度 量等。 2 基于语义特征的多视图情感分类 现有的情感分类研究工作很多都是围绕文本 展开的,但微博除了文本还存在大量的图片,如果 能够将文本和图片结合,就可以获得比纯文本更多 的信息量。 但若仅仅使用原始特征,有可能带来维 度灾难问题。 本文提出的基于语义特征的多视图情感分类 方法将文本和图像特征并行融合,并使用 LSA 抽取 ·746· 智 能 系 统 学 报 第 12 卷
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有