正在加载图片...
第5期 吴钟强,等:基于语义特征的多视图情感分类方法 .747. 各自的语义特征,其流程如图1所示。 的整体关系,即复数的实部表示文本特征,虚部表 示图像特征。由于复数矩阵分解之后仍为复数矩 文本训练集 图像训练集 阵,故分解之后的实部和虚部分别对应文本和图像 文本预处理 图像预处理 文本测试集 图像测试集 的语义特征。 特 特 文本特征和图像特征融合方法如式(4)所示, 提 取 取 将融合之后的复合特征称为一个新的文档d。 d=&+i那 (4) 基于文本和图像的 潜在语义分析 式中:实部α为文本特征向量,虚部B,为图像特征 向量,0是权重因子。极端情况: 本语义特 片语义特 当00时,融合的特征d≈&,此时近似于纯 文本特征。 当9→+o时,则d≈B,即此时近似于使用纯 SVM-2K 图像特征的分类效果。 结果 在本文工作中,我们将文本和图片同等对待, 图1基于语义特征的多视图情感分类方法流程图 因此设0=1。假设有m条微博,文本和图像的语义 Fig.1 Flow chart of sentiment classification of 空间的维度为n。那么由复数构成新的文档集合用 microblogs based on semantic features 矩阵表示如式(5)所示: 图像和文本的特征融合,在信息检索领域里的 「a11+邛11a12+邛12… in+iBin 跨模型检索(cross-modal retrieval)中已经有相应的 a21+邛21a2+iB2 …a2n+邛2 应用。但使用较多的融合方式是文本和图像特征 的串行融合[o」 N= a1+邛 a2+邛2 cn+邛m Wag等[1o在3D目标检索时,使用的两组特 征串行融合方式如式(3)所示: aml+iB2+i邛na 011 B11B2 B (5) 021 …2 …B21B2 B 式中:a,是第i条微博文本的第j维特征,B,是第i N= 条微博图像对应的第j维特征。 0 X2 B B2 B. 对上面的复数矩阵N进行奇异值分解并进行 低阶近似,把高维的空间映射到低维的语义空间。 a2… C …B … Bnm」 将其映射到语义空间之后,再分别提取分解后低阶 (3) 近似矩阵的每个元素的实部和虚部,得到文本和图 式中:m表示样本的个数,n表示第1个视图的特征 片在低维空间的新特征,即语义特征。最后将提取 的文本和图片的语义特征用于训练多视图分类器 维度,t表示第2个视图的特征维度。α:是第i个样 SVM-2K,并使用测试集测试模型分类结果。具 本的第j维特征,B,是第i个样本的第j维特征。 体步骤如下: 但是这样将两种不同属性的特征强行拼接在 1)提取微博数据中的文本数据和图像数据,然 一个特征空间中,应用到微博中会失去原有的物理 后将文本和图像数据分成训练集和测试集。 特性:一条微博是由文字和配图组成的整体。一条 2)分别对文本和图像进行预处理,并提取文本 微博的文字和配图有一定的内在联系,而不是两个 和图像的特征。 独立的个体。基于并行融合方法[],本文对于融 3)将文本特征和图像特征进行融合,形成一个 合前后的文本和图像特征使用复数进行表示。将 复数矩阵。对该复数矩阵进行奇异值分解降维。 文字图片的特征使用复数进行融合,可以反应微博 将降维后的矩阵分离实部和虚部分别得到文本的各自的语义特征,其流程如图 1 所示。 图 1 基于语义特征的多视图情感分类方法流程图 Fig.1 Flow chart of sentiment classification of microblogs based on semantic features 图像和文本的特征融合,在信息检索领域里的 跨模型检索( cross⁃modal retrieval)中已经有相应的 应用。 但使用较多的融合方式是文本和图像特征 的串行融合[10] 。 Wang 等 [16] 在 3D 目标检索时,使用的两组特 征串行融合方式如式(3)所示: N = α11 α12 … α1n … β11 β12 … β1t α21 α22 … α2n … β21 β22 … β2t ︙ ︙ ︙ ︙ ︙ ︙ αj1 αj2 … αjn … βj1 βj2 … βjt ︙ ︙ ︙ ︙ ︙ ︙ αm1 αm2 … αmn … βm1 βm2 … βmt é ë ê ê ê ê ê ê ê ê êê ù û ú ú ú ú ú ú ú ú úú (3) 式中: m 表示样本的个数, n 表示第 1 个视图的特征 维度, t 表示第 2 个视图的特征维度。 αij 是第 i 个样 本的第 j 维特征, βij 是第 i 个样本的第 j 维特征。 但是这样将两种不同属性的特征强行拼接在 一个特征空间中,应用到微博中会失去原有的物理 特性:一条微博是由文字和配图组成的整体。 一条 微博的文字和配图有一定的内在联系,而不是两个 独立的个体。 基于并行融合方法[ 10 ] ,本文对于融 合前后的文本和图像特征使用复数进行表示。 将 文字图片的特征使用复数进行融合,可以反应微博 的整体关系,即复数的实部表示文本特征,虚部表 示图像特征。 由于复数矩阵分解之后仍为复数矩 阵,故分解之后的实部和虚部分别对应文本和图像 的语义特征。 文本特征和图像特征融合方法如式(4) 所示, 将融合之后的复合特征称为一个新的文档 dj。 dj = αj + iθβj (4) 式中:实部 αj 为文本特征向量,虚部 βj 为图像特征 向量,θ 是权重因子。 极端情况: 当 θ→0 时,融合的特征 dj ≈ αj, 此时近似于纯 文本特征。 当 θ →+ ¥时,则dj ≈ βj, 即此时近似于使用纯 图像特征的分类效果。 在本文工作中,我们将文本和图片同等对待, 因此设 θ = 1。 假设有 m 条微博,文本和图像的语义 空间的维度为 n 。 那么由复数构成新的文档集合用 矩阵表示如式(5)所示: N = α11 + iβ11 α12 + iβ12 … α1n + iβ1n α21 + iβ21 α22 + iβ22 … α2n + iβ2n ︙ ︙ ︙ αj1 + iβj1 αj2 + iβj2 … αjn + iβjn ︙ ︙ ︙ αm1 + iβm1 αm2 + iβm2 … αmn + iβmn é ë ê ê ê ê ê ê ê ê êê ù û ú ú ú ú ú ú ú ú úú (5) 式中:αij是第 i 条微博文本的第 j 维特征, βij 是第 i 条微博图像对应的第 j 维特征。 对上面的复数矩阵 N 进行奇异值分解并进行 低阶近似,把高维的空间映射到低维的语义空间。 将其映射到语义空间之后,再分别提取分解后低阶 近似矩阵的每个元素的实部和虚部,得到文本和图 片在低维空间的新特征,即语义特征。 最后将提取 的文本和图片的语义特征用于训练多视图分类器 SVM⁃2K [17] ,并使用测试集测试模型分类结果。 具 体步骤如下: 1)提取微博数据中的文本数据和图像数据,然 后将文本和图像数据分成训练集和测试集。 2)分别对文本和图像进行预处理,并提取文本 和图像的特征。 3)将文本特征和图像特征进行融合,形成一个 复数矩阵。 对该复数矩阵进行奇异值分解降维。 将降维后的矩阵分离实部和虚部分别得到文本的 第 5 期 吴钟强,等:基于语义特征的多视图情感分类方法 ·747·
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有