正在加载图片...
·748· 智能系统学报 第12卷 语义特征和图片的语义特征,语义特征提取过程如 提出方法的有效性我们采取了交叉验证的方式,其 算法所示。 中700条数据作为训练集,300条数据作为测试集。 4)将该语义特征在SVM-2K分类器中进行训 数据采集过程如图2所示。 练,然后用测试集验证。 微博模拟登陆 网页采集器 URL调度器 5)得到测试集的情感分类结果。 算法语义特征提取 输入trainset,testset; 信总抽取 URL数据库 输出lsa_trainset,lsa_testset 1)txtimgtr+Text(trainset)+ixImage(trainset); /*Text函数取数据集中的文本数据,Image函 微博 提取URL 数取数据集中的图像数据,ⅰ为虚数的单位i*/; 2)txtimage+Text(testset)+ix Image(testset); 图2新浪微博数据采集过程 3)C0MPS_LSA←-300: Fig.2 Sina micro-blog data acquisition process 4)comTxtlmgTr+txtimgtr 将得到的微博数据作如下数据预处理: /*txtimgtr为矩阵txtimgtr的转置*/; 1)过滤微博的一些冗余信息,如网址、转发对 5)[U,Σ,VT]=swd(comTxtImgTr,COMPS_LSA); 象、表情符号等。 6)US-U(:,1:COMPS_ISA); 2)将得到的微博文本和图像分离并编号,同一 7)SS-S(1 COMPS_LSA,1:COMPS_LSA); 条微博的文本和图片编号相同。 /*对矩阵进行奇异值分解,取前COMPS_LSA= 3)分词:我们使用汉语分词系统ICTCLAS1]对 300个最大的奇异值,也即为语义空间的维度*/: 微博的文本进行分词。 8)comTxtImgTe←-comTxtImgTe·U·inv(SS); 4)去除停用词:分词后,去除一些无意义的停 9)comTxtlmgTr←comTxtlmg'·US·inv(SS): 用词。 /*inv为取矩阵的逆的函数*/; 3.2实验设计 实验中我们设置LSA语义空间的维度r=300, 10)lsa_Ttr+Text(comTxtImgTr); 11)Isa_Tte+-Text(comTxtImgTe); 分别用向量空间模型(vector space model)和布尔模 型(Bool model)进行加权。由于Tan等[]已经证 12)Isa_Itr+Image(comTxtImgTr); 明对于情感分类来说,6000维度已经可以充分表示 13)Isa_Ite+Image(comTxtImgTe); 文本。除了选取6000作为特征维度,我们展示了 14)return Isa_Ttr+lsi_Itr,Isa_Tte Isi_Ite 特征维度为5000维下的实验结果。 3 实验 在文本特征选择时,使用了文档频率(document frequency,DF)、互信息(mutual information,Ml)、卡 本节实验是为了验证多视图语义特征融合的 方分布(Chi-squared distribution,CH)和信息增益 有效性。我们使用了基于复数表示的文本特征和 (Information Gain,IG)这4种文本特征选择的方 图像特征的并行融合方法,并将其进行潜在语义分 法,并比较了这4种特征做情感分类时的结果:对于 析。将文本特征和图像特征分别映射到同维度下 图像,我们提取了图像的亮度、饱和度、色相、纹理、 语义空间,得到各自的语义特征,将得到的语义特 灰度共生矩阵。然后将提取的特征通过LSA映射 征用于训练分类器,最后使用测试集验证了微博情 到一个语义空间得到各自的语义特征,最后将文本 感分类的效果。 和图像的语义特征使用SVM-2K进行分类,并使用 3.1数据集 测试集测试得到情感分类的结果。通过实验结果 实验的数据集为爬虫从新浪微博的热门微博 验证本文提出的基于文本和图像的语义特征情感 下爬取的。为了完成本文的任务,在爬取微博的时 分类方法的有效性。 候仅仅保留同时含有文字和配图的微博。最终留 3.3实验结果 下1000条微博数据并手动进行标注。为了验证所 表1展示了文本特征为5000维度时,使用纯语义特征和图片的语义特征,语义特征提取过程如 算法所示。 4) 将该语义特征在 SVM⁃2K 分类器中进行训 练,然后用测试集验证。 5)得到测试集的情感分类结果。 算法 语义特征提取 输入 trainset, testset; 输出 lsa_trainset, lsa_testset。 1)txtimgtr←Text(trainset) + i×Image(trainset); / ∗ Text 函数取数据集中的文本数据,Image 函 数取数据集中的图像数据,i 为虚数的单位 i∗/ ; 2)txtimage←Text(testset) + i × Image(testset); 3)COMPS_LSA←300 ; 4)comTxtImgTr← txtimgtr T / ∗ txtimgtr T 为矩阵 txtimgtr 的转置∗/ ; 5) [U,Σ,V T ] = svd(comTxtImgTr,COMPS_LSA) ; 6)US←U( ∶, 1 ∶COMPS_LSA); 7)SS← S(1 ∶COMPS_LSA, 1 ∶COMPS_LSA); / ∗ 对矩阵进行奇异值分解,取前 COMPS_LSA= 300 个最大的奇异值,也即为语义空间的维度∗/ ; 8)comTxtImgTe←comTxtImgTe·U·inv(SS); 9)comTxtImgTr ←comTxtImgTr T·US·inv(SS); / ∗ inv 为取矩阵的逆的函数∗/ ; 10)lsa_Ttr←Text(comTxtImgTr); 11)lsa_Tte←Text(comTxtImgTe); 12)lsa_Itr←Image(comTxtImgTr); 13)lsa_Ite←Image(comTxtImgTe); 14)return lsa_Ttr+lsi_Itr, lsa_Tte + lsi_Ite。 3 实验 本节实验是为了验证多视图语义特征融合的 有效性。 我们使用了基于复数表示的文本特征和 图像特征的并行融合方法,并将其进行潜在语义分 析。 将文本特征和图像特征分别映射到同维度下 语义空间,得到各自的语义特征,将得到的语义特 征用于训练分类器,最后使用测试集验证了微博情 感分类的效果。 3.1 数据集 实验的数据集为爬虫从新浪微博的热门微博 下爬取的。 为了完成本文的任务,在爬取微博的时 候仅仅保留同时含有文字和配图的微博。 最终留 下 1 000 条微博数据并手动进行标注。 为了验证所 提出方法的有效性我们采取了交叉验证的方式,其 中 700 条数据作为训练集,300 条数据作为测试集。 数据采集过程如图 2 所示。 图 2 新浪微博数据采集过程 Fig.2 Sina micro⁃blog data acquisition process 将得到的微博数据作如下数据预处理: 1)过滤微博的一些冗余信息,如网址、转发对 象、表情符号等。 2)将得到的微博文本和图像分离并编号,同一 条微博的文本和图片编号相同。 3)分词:我们使用汉语分词系统 ICTCLAS [18]对 微博的文本进行分词。 4)去除停用词:分词后,去除一些无意义的停 用词。 3.2 实验设计 实验中我们设置 LSA 语义空间的维度 r = 300, 分别用向量空间模型(vector space model)和布尔模 型(Bool model) 进行加权。 由于 Tan 等 [19]已经证 明对于情感分类来说,6 000 维度已经可以充分表示 文本。 除了选取 6 000 作为特征维度,我们展示了 特征维度为 5 000 维下的实验结果。 在文本特征选择时,使用了文档频率(document frequency, DF)、互信息(mutual information, MI)、卡 方分布(Chi-squared distribution, CHI)和信息增益 (Information Gain, IG) 这 4 种文本特征选择的方 法,并比较了这 4 种特征做情感分类时的结果;对于 图像,我们提取了图像的亮度、饱和度、色相、纹理、 灰度共生矩阵。 然后将提取的特征通过 LSA 映射 到一个语义空间得到各自的语义特征,最后将文本 和图像的语义特征使用 SVM⁃2K 进行分类,并使用 测试集测试得到情感分类的结果。 通过实验结果 验证本文提出的基于文本和图像的语义特征情感 分类方法的有效性。 3.3 实验结果 表 1 展示了文本特征为 5 000 维度时,使用纯 ·748· 智 能 系 统 学 报 第 12 卷
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有