各自的语义特征，其流程如图１所示。图１基于语义特征的多视图情感分

正在加载图片...

第5期吴钟强，等：基于语义特征的多视图情感分类方法 .747. 各自的语义特征，其流程如图1所示。的整体关系，即复数的实部表示文本特征，虚部表示图像特征。由于复数矩阵分解之后仍为复数矩文本训练集图像训练集阵，故分解之后的实部和虚部分别对应文本和图像文本预处理图像预处理文本测试集图像测试集的语义特征。特特文本特征和图像特征融合方法如式(4)所示，提取取将融合之后的复合特征称为一个新的文档d。 d=&+i那 (4) 基于文本和图像的潜在语义分析式中：实部α为文本特征向量，虚部B,为图像特征向量，0是权重因子。极端情况：本语义特片语义特当00时，融合的特征d≈&，此时近似于纯文本特征。当9→+o时，则d≈B,即此时近似于使用纯 SVM-2K 图像特征的分类效果。结果在本文工作中，我们将文本和图片同等对待，图1基于语义特征的多视图情感分类方法流程图因此设0=1。假设有m条微博，文本和图像的语义 Fig.1 Flow chart of sentiment classification of 空间的维度为n。那么由复数构成新的文档集合用 microblogs based on semantic features 矩阵表示如式(5)所示：图像和文本的特征融合，在信息检索领域里的「a11+邛11a12+邛12… in+iBin 跨模型检索(cross-modal retrieval)中已经有相应的 a21+邛21a2+iB2 …a2n+邛2 应用。但使用较多的融合方式是文本和图像特征的串行融合[o」 N= a1+邛 a2+邛2 cn+邛m Wag等[1o在3D目标检索时，使用的两组特征串行融合方式如式(3)所示： aml+iB2+i邛na 011 B11B2 B (5) 021 …2 …B21B2 B 式中：a,是第i条微博文本的第j维特征，B,是第i N= 条微博图像对应的第j维特征。 0 X2 B B2 B. 对上面的复数矩阵N进行奇异值分解并进行低阶近似，把高维的空间映射到低维的语义空间。 a2… C …B … Bnm」将其映射到语义空间之后，再分别提取分解后低阶 (3) 近似矩阵的每个元素的实部和虚部，得到文本和图式中：m表示样本的个数，n表示第1个视图的特征片在低维空间的新特征，即语义特征。最后将提取的文本和图片的语义特征用于训练多视图分类器维度，t表示第2个视图的特征维度。α：是第i个样 SVM-2K,并使用测试集测试模型分类结果。具本的第j维特征，B,是第i个样本的第j维特征。体步骤如下：但是这样将两种不同属性的特征强行拼接在 1)提取微博数据中的文本数据和图像数据，然一个特征空间中，应用到微博中会失去原有的物理后将文本和图像数据分成训练集和测试集。特性：一条微博是由文字和配图组成的整体。一条 2)分别对文本和图像进行预处理，并提取文本微博的文字和配图有一定的内在联系，而不是两个和图像的特征。独立的个体。基于并行融合方法[]，本文对于融 3)将文本特征和图像特征进行融合，形成一个合前后的文本和图像特征使用复数进行表示。将复数矩阵。对该复数矩阵进行奇异值分解降维。文字图片的特征使用复数进行融合，可以反应微博将降维后的矩阵分离实部和虚部分别得到文本的各自的语义特征，其流程如图１所示。图１基于语义特征的多视图情感分类方法流程图Ｆｉｇ．１Ｆｌｏｗｃｈａｒｔｏｆｓｅｎｔｉｍｅｎｔｃｌａｓｓｉｆｉｃａｔｉｏｎｏｆｍｉｃｒｏｂｌｏｇｓｂａｓｅｄｏｎｓｅｍａｎｔｉｃｆｅａｔｕｒｅｓ图像和文本的特征融合，在信息检索领域里的跨模型检索（ｃｒｏｓｓ⁃ｍｏｄａｌｒｅｔｒｉｅｖａｌ）中已经有相应的应用。但使用较多的融合方式是文本和图像特征的串行融合［１０］。Ｗａｎｇ等［１６］在３Ｄ目标检索时，使用的两组特征串行融合方式如式（３）所示：Ｎ＝ α１１ α１２ … α１ｎ … β１１ β１２ … β１ｔ α２１ α２２ … α２ｎ … β２１ β２２ … β２ｔ ︙ ︙ ︙ ︙ ︙ ︙ αｊ１ αｊ２ … αｊｎ … βｊ１ βｊ２ … βｊｔ ︙ ︙ ︙ ︙ ︙ ︙ αｍ１ αｍ２ … αｍｎ … βｍ１ βｍ２ … βｍｔ é ë ê ê ê ê ê ê ê ê êê ù û ú ú ú ú ú ú ú ú úú （３）式中：ｍ表示样本的个数，ｎ表示第１个视图的特征维度，ｔ表示第２个视图的特征维度。 αｉｊ是第ｉ个样本的第ｊ维特征， βｉｊ是第ｉ个样本的第ｊ维特征。但是这样将两种不同属性的特征强行拼接在一个特征空间中，应用到微博中会失去原有的物理特性：一条微博是由文字和配图组成的整体。一条微博的文字和配图有一定的内在联系，而不是两个独立的个体。基于并行融合方法［１０］，本文对于融合前后的文本和图像特征使用复数进行表示。将文字图片的特征使用复数进行融合，可以反应微博的整体关系，即复数的实部表示文本特征，虚部表示图像特征。由于复数矩阵分解之后仍为复数矩阵，故分解之后的实部和虚部分别对应文本和图像的语义特征。文本特征和图像特征融合方法如式（４）所示，将融合之后的复合特征称为一个新的文档ｄｊ。ｄｊ＝ αｊ＋ｉθβｊ（４）式中：实部 αｊ为文本特征向量，虚部 βｊ为图像特征向量，θ 是权重因子。极端情况：当 θ→０时，融合的特征ｄｊ ≈ αｊ，此时近似于纯文本特征。当 θ →＋ ¥时，则ｄｊ ≈ βｊ，即此时近似于使用纯图像特征的分类效果。在本文工作中，我们将文本和图片同等对待，因此设 θ ＝１。假设有ｍ条微博，文本和图像的语义空间的维度为ｎ。那么由复数构成新的文档集合用矩阵表示如式（５）所示：Ｎ＝ α１１＋ｉβ１１ α１２＋ｉβ１２ … α１ｎ＋ｉβ１ｎ α２１＋ｉβ２１ α２２＋ｉβ２２ … α２ｎ＋ｉβ２ｎ ︙ ︙ ︙ αｊ１＋ｉβｊ１ αｊ２＋ｉβｊ２ … αｊｎ＋ｉβｊｎ ︙ ︙ ︙ αｍ１＋ｉβｍ１ αｍ２＋ｉβｍ２ … αｍｎ＋ｉβｍｎ é ë ê ê ê ê ê ê ê ê êê ù û ú ú ú ú ú ú ú ú úú （５）式中：αｉｊ是第ｉ条微博文本的第ｊ维特征， βｉｊ是第ｉ条微博图像对应的第ｊ维特征。对上面的复数矩阵Ｎ进行奇异值分解并进行低阶近似，把高维的空间映射到低维的语义空间。将其映射到语义空间之后，再分别提取分解后低阶近似矩阵的每个元素的实部和虚部，得到文本和图片在低维空间的新特征，即语义特征。最后将提取的文本和图片的语义特征用于训练多视图分类器ＳＶＭ⁃２Ｋ［１７］，并使用测试集测试模型分类结果。具体步骤如下：１）提取微博数据中的文本数据和图像数据，然后将文本和图像数据分成训练集和测试集。２）分别对文本和图像进行预处理，并提取文本和图像的特征。３）将文本特征和图像特征进行融合，形成一个复数矩阵。对该复数矩阵进行奇异值分解降维。将降维后的矩阵分离实部和虚部分别得到文本的第５期吴钟强，等：基于语义特征的多视图情感分类方法 ·７４７·

<<向上翻页向下翻页>>

点击下载：【自然语言处理与理解】基于语义特征的多视图情感分类方法