语义特征和图片的语义特征，语义特征提取过程如算法所示。４）将该语义特

正在加载图片...

·748· 智能系统学报第12卷语义特征和图片的语义特征，语义特征提取过程如提出方法的有效性我们采取了交叉验证的方式，其算法所示。中700条数据作为训练集，300条数据作为测试集。 4)将该语义特征在SVM-2K分类器中进行训数据采集过程如图2所示。练，然后用测试集验证。微博模拟登陆网页采集器 URL调度器 5)得到测试集的情感分类结果。算法语义特征提取输入trainset,testset; 信总抽取 URL数据库输出lsa_trainset,lsa_testset 1)txtimgtr+Text(trainset)+ixImage(trainset); /*Text函数取数据集中的文本数据，Image函微博提取URL 数取数据集中的图像数据，ⅰ为虚数的单位i*/； 2)txtimage+Text(testset)+ix Image(testset); 图2新浪微博数据采集过程 3)C0MPS_LSA←-300： Fig.2 Sina micro-blog data acquisition process 4)comTxtlmgTr+txtimgtr 将得到的微博数据作如下数据预处理： /*txtimgtr为矩阵txtimgtr的转置*/； 1)过滤微博的一些冗余信息，如网址、转发对 5)[U,Σ，VT]=swd(comTxtImgTr,COMPS_LSA); 象、表情符号等。 6)US-U(:,1:COMPS_ISA); 2)将得到的微博文本和图像分离并编号，同一 7)SS-S(1 COMPS_LSA,1:COMPS_LSA); 条微博的文本和图片编号相同。 /*对矩阵进行奇异值分解，取前COMPS_LSA= 3)分词：我们使用汉语分词系统ICTCLAS1]对 300个最大的奇异值，也即为语义空间的维度*/：微博的文本进行分词。 8)comTxtImgTe←-comTxtImgTe·U·inv(SS); 4)去除停用词：分词后，去除一些无意义的停 9)comTxtlmgTr←comTxtlmg'·US·inv(SS): 用词。 /*inv为取矩阵的逆的函数*/； 3.2实验设计实验中我们设置LSA语义空间的维度r=300, 10)lsa_Ttr+Text(comTxtImgTr); 11)Isa_Tte+-Text(comTxtImgTe); 分别用向量空间模型(vector space model)和布尔模型(Bool model)进行加权。由于Tan等[]已经证 12)Isa_Itr+Image(comTxtImgTr); 明对于情感分类来说，6000维度已经可以充分表示 13)Isa_Ite+Image(comTxtImgTe); 文本。除了选取6000作为特征维度，我们展示了 14)return Isa_Ttr+lsi_Itr,Isa_Tte Isi_Ite 特征维度为5000维下的实验结果。 3 实验在文本特征选择时，使用了文档频率(document frequency,DF)、互信息(mutual information,Ml)、卡本节实验是为了验证多视图语义特征融合的方分布(Chi-squared distribution,CH)和信息增益有效性。我们使用了基于复数表示的文本特征和 (Information Gain,IG)这4种文本特征选择的方图像特征的并行融合方法，并将其进行潜在语义分法，并比较了这4种特征做情感分类时的结果：对于析。将文本特征和图像特征分别映射到同维度下图像，我们提取了图像的亮度、饱和度、色相、纹理、语义空间，得到各自的语义特征，将得到的语义特灰度共生矩阵。然后将提取的特征通过LSA映射征用于训练分类器，最后使用测试集验证了微博情到一个语义空间得到各自的语义特征，最后将文本感分类的效果。和图像的语义特征使用SVM-2K进行分类，并使用 3.1数据集测试集测试得到情感分类的结果。通过实验结果实验的数据集为爬虫从新浪微博的热门微博验证本文提出的基于文本和图像的语义特征情感下爬取的。为了完成本文的任务，在爬取微博的时分类方法的有效性。候仅仅保留同时含有文字和配图的微博。最终留 3.3实验结果下1000条微博数据并手动进行标注。为了验证所表1展示了文本特征为5000维度时，使用纯语义特征和图片的语义特征，语义特征提取过程如算法所示。４）将该语义特征在ＳＶＭ⁃２Ｋ分类器中进行训练，然后用测试集验证。５）得到测试集的情感分类结果。算法语义特征提取输入ｔｒａｉｎｓｅｔ，ｔｅｓｔｓｅｔ；输出ｌｓａ＿ｔｒａｉｎｓｅｔ，ｌｓａ＿ｔｅｓｔｓｅｔ。１）ｔｘｔｉｍｇｔｒ←Ｔｅｘｔ（ｔｒａｉｎｓｅｔ）＋ｉ×Ｉｍａｇｅ（ｔｒａｉｎｓｅｔ）；／ ∗ Ｔｅｘｔ函数取数据集中的文本数据，Ｉｍａｇｅ函数取数据集中的图像数据，ｉ为虚数的单位ｉ∗／；２）ｔｘｔｉｍａｇｅ←Ｔｅｘｔ（ｔｅｓｔｓｅｔ）＋ｉ × Ｉｍａｇｅ（ｔｅｓｔｓｅｔ）；３）ＣＯＭＰＳ＿ＬＳＡ←３００；４）ｃｏｍＴｘｔＩｍｇＴｒ← ｔｘｔｉｍｇｔｒＴ／ ∗ ｔｘｔｉｍｇｔｒＴ为矩阵ｔｘｔｉｍｇｔｒ的转置∗／；５）［Ｕ，Σ，ＶＴ］＝ｓｖｄ（ｃｏｍＴｘｔＩｍｇＴｒ，ＣＯＭＰＳ＿ＬＳＡ）；６）ＵＳ←Ｕ（ ∶，１ ∶ＣＯＭＰＳ＿ＬＳＡ）；７）ＳＳ← Ｓ（１ ∶ＣＯＭＰＳ＿ＬＳＡ，１ ∶ＣＯＭＰＳ＿ＬＳＡ）；／ ∗ 对矩阵进行奇异值分解，取前ＣＯＭＰＳ＿ＬＳＡ＝３００个最大的奇异值，也即为语义空间的维度∗／；８）ｃｏｍＴｘｔＩｍｇＴｅ←ｃｏｍＴｘｔＩｍｇＴｅ·Ｕ·ｉｎｖ（ＳＳ）；９）ｃｏｍＴｘｔＩｍｇＴｒ ←ｃｏｍＴｘｔＩｍｇＴｒＴ·ＵＳ·ｉｎｖ（ＳＳ）；／ ∗ ｉｎｖ为取矩阵的逆的函数∗／；１０）ｌｓａ＿Ｔｔｒ←Ｔｅｘｔ（ｃｏｍＴｘｔＩｍｇＴｒ）；１１）ｌｓａ＿Ｔｔｅ←Ｔｅｘｔ（ｃｏｍＴｘｔＩｍｇＴｅ）；１２）ｌｓａ＿Ｉｔｒ←Ｉｍａｇｅ（ｃｏｍＴｘｔＩｍｇＴｒ）；１３）ｌｓａ＿Ｉｔｅ←Ｉｍａｇｅ（ｃｏｍＴｘｔＩｍｇＴｅ）；１４）ｒｅｔｕｒｎｌｓａ＿Ｔｔｒ＋ｌｓｉ＿Ｉｔｒ，ｌｓａ＿Ｔｔｅ＋ｌｓｉ＿Ｉｔｅ。３实验本节实验是为了验证多视图语义特征融合的有效性。我们使用了基于复数表示的文本特征和图像特征的并行融合方法，并将其进行潜在语义分析。将文本特征和图像特征分别映射到同维度下语义空间，得到各自的语义特征，将得到的语义特征用于训练分类器，最后使用测试集验证了微博情感分类的效果。３．１数据集实验的数据集为爬虫从新浪微博的热门微博下爬取的。为了完成本文的任务，在爬取微博的时候仅仅保留同时含有文字和配图的微博。最终留下１０００条微博数据并手动进行标注。为了验证所提出方法的有效性我们采取了交叉验证的方式，其中７００条数据作为训练集，３００条数据作为测试集。数据采集过程如图２所示。图２新浪微博数据采集过程Ｆｉｇ．２Ｓｉｎａｍｉｃｒｏ⁃ｂｌｏｇｄａｔａａｃｑｕｉｓｉｔｉｏｎｐｒｏｃｅｓｓ将得到的微博数据作如下数据预处理：１）过滤微博的一些冗余信息，如网址、转发对象、表情符号等。２）将得到的微博文本和图像分离并编号，同一条微博的文本和图片编号相同。３）分词：我们使用汉语分词系统ＩＣＴＣＬＡＳ［１８］对微博的文本进行分词。４）去除停用词：分词后，去除一些无意义的停用词。３．２实验设计实验中我们设置ＬＳＡ语义空间的维度ｒ＝３００，分别用向量空间模型（ｖｅｃｔｏｒｓｐａｃｅｍｏｄｅｌ）和布尔模型（Ｂｏｏｌｍｏｄｅｌ）进行加权。由于Ｔａｎ等［１９］已经证明对于情感分类来说，６０００维度已经可以充分表示文本。除了选取６０００作为特征维度，我们展示了特征维度为５０００维下的实验结果。在文本特征选择时，使用了文档频率（ｄｏｃｕｍｅｎｔｆｒｅｑｕｅｎｃｙ，ＤＦ）、互信息（ｍｕｔｕａｌｉｎｆｏｒｍａｔｉｏｎ，ＭＩ）、卡方分布（Ｃｈｉ－ｓｑｕａｒｅｄｄｉｓｔｒｉｂｕｔｉｏｎ，ＣＨＩ）和信息增益（ＩｎｆｏｒｍａｔｉｏｎＧａｉｎ，ＩＧ）这４种文本特征选择的方法，并比较了这４种特征做情感分类时的结果；对于图像，我们提取了图像的亮度、饱和度、色相、纹理、灰度共生矩阵。然后将提取的特征通过ＬＳＡ映射到一个语义空间得到各自的语义特征，最后将文本和图像的语义特征使用ＳＶＭ⁃２Ｋ进行分类，并使用测试集测试得到情感分类的结果。通过实验结果验证本文提出的基于文本和图像的语义特征情感分类方法的有效性。３．３实验结果表１展示了文本特征为５０００维度时，使用纯 ·７４８· 智能系统学报第１２卷

<<向上翻页向下翻页>>

点击下载：【自然语言处理与理解】基于语义特征的多视图情感分类方法