正在加载图片...
郑州大学学报(理学版) 第52卷 仅使用中文语料进行标签传播。 self- training(CN):本实验采用传统的自训练算法,仅使用中文语料进行自训练算法 ⅤAE(CN):本实验采用变分自编码器实现半监督情感分类,仅使用中文语料进行变分自编码器(var iational autoencoder,ⅤAE)实验。 AL(CN):该方法为2.1小节介绍的中文对抗学习的半监督分类方法。 LP(CN+EN):将中文语料和英文语料分别进行标签传播,然后通过融合每条文本的中英文标签概率决 定测试样本的标签。 el- training(CN+EN):将中文语料和英文语料分别进行自训练,然后通过融合每条文本的中英文标签 概率决定测试样本的标签。 ⅤAE(CN+EN):将中文语料和英文语料分别进行变分自编码器的实验,然后联合学习中英文模型的损 失函数,最后通过融合每条文本的中英文标签概率决定测试样本的标签。 AL(CN+EN):该方法为2.2小节介绍的基于双语对抗学习的半监督分类方法。 表1展示了上述几种方法在不同训练集数量上的半监督情感分类任务的性能 表1各方法在不同训练集数量上情感分类任务上的准确率 Table 1 The accurate rate of semi-supervised sentiment classification task on different training sets 600条测试样本在不同训练集上的准确率 20条训练样本 40条训练样本 100条训练样本 LSTM 0.7917 0.825 0.8333 LP(CN) 0.7067 0.7350 0.7950 0.8217 0.8150 0.8517 ⅤAE(CN 0.8017 0.7833 0.8600 0.8250 0.8300 LP(CN+EN) 0.7399 0.7483 000 0337 self-training( CN+EN) 0.8600 0.8500 ⅤAE(CN+EN) 0.8150 0.8467 0.8900 AL(CN+EN) 0.8800 0.8580 0.8967 通过比较,从表1中可以得出以下结论。 1)对抗学习的方法比其他基准半监督的方法好(如表1中粗体所示)。对抗学习的方法在不同训练集 规模上的实验结果比传统的半监督方法(LP和 self-training)的结果都高,并且对比ⅤAE的实验结果也有明 显提升。实验结果说明通过分类器和判别器的对抗学习可以有效学习到未标注样本的文本信息,增强模型 的数据特征,从而帮助分类器更好地进行分类。 2)使用双语对抗学习的半监督情感分类方法比使用单语对抗学习的半监督情感分类方法的实验结果 更好。具体而言,与单语实验相比,加入英文语料的融合结果之后,LP(CN←EN)方法在3种不同的训练集规 模中的实验结果如下:LP(CN+EN)方法平均提高了1.99%; elf-training(CN+EN)方法的实验结果平均提高 了2.78%;VAE(CN+EN)方法的实验结果平均提高了3.56%;本文提出的AL(CN+EN)方法的实验结果平 均提高了3.71%。实验结果表明,利用双语信息能够有效提升半监督情感分类的实验性能。 3)本文提出的基于双语对抗学习的半监督情感分类方法AL(CN+EN)在所有的实验中都表现最好。 当训练集数量为100条时,使用AL(CN+EN)方法进行情感分类任务的准确率比未使用未标注样本的LSTM 方法提高6.34%。实验结果表明利用双语信息及对抗茡习能有效提高半监督情感分类的实验性能,本文提 出的对抗网络能够捕捉未标注样本中的有效信息 3结语 本文提出了基于双语对抗学习的半监督情感分类方法,主要通过分类器和判别器之间的对抗学习充分 利用未标注样本的样本信息,这种对抗学习的方法可以有效避免对未标注样本分类或者自动标注带来的错郑 州 大 学 学 报 (理 学 版) 第 52 卷 仅使用中文语料进行标签传播。 self-training(CN) :本实验采用传统的自训练算法,仅使用中文语料进行自训练算法。 VAE(CN) :本实验采用变分自编码器实现半监督情感分类[ 11] ,仅使用中文语料进行变分自编码器( var￾iational autoencoder,VAE)实验。 AL(CN) :该方法为 2. 1 小节介绍的中文对抗学习的半监督分类方法。 LP(CN+EN) :将中文语料和英文语料分别进行标签传播,然后通过融合每条文本的中英文标签概率决 定测试样本的标签。 self-training(CN+EN) :将中文语料和英文语料分别进行自训练,然后通过融合每条文本的中英文标签 概率决定测试样本的标签。 VAE(CN+EN) :将中文语料和英文语料分别进行变分自编码器的实验,然后联合学习中英文模型的损 失函数,最后通过融合每条文本的中英文标签概率决定测试样本的标签。 AL(CN+EN) :该方法为 2. 2 小节介绍的基于双语对抗学习的半监督分类方法。 表 1 展示了上述几种方法在不同训练集数量上的半监督情感分类任务的性能。 表 1 各方法在不同训练集数量上情感分类任务上的准确率 Table 1 The accurate rate of semi-supervised sentiment classification task on different training sets 方法 600 条测试样本在不同训练集上的准确率 20 条训练样本 40 条训练样本 100 条训练样本 LSTM 0. 791 7 0. 82 5 0. 833 3 LP(CN) 0. 706 7 0. 735 0 0. 795 0 self-training(CN) 0. 821 7 0. 815 0 0. 851 7 VAE(CN) 0. 801 7 0. 783 3 0. 860 0 AL(CN) 0. 825 0 0. 830 0 0. 868 3 LP(CN+EN) 0. 739 9 0. 748 3 0. 808 3 self-training(CN+EN) 0. 860 0 0. 850 0 0. 861 7 VAE(CN+EN) 0. 815 0 0. 846 7 0. 890 0 AL(CN+EN) 0. 880 0 0. 858 0 0. 896 7 通过比较,从表 1 中可以得出以下结论。 1) 对抗学习的方法比其他基准半监督的方法好(如表 1 中粗体所示) 。 对抗学习的方法在不同训练集 规模上的实验结果比传统的半监督方法( LP 和 self-training)的结果都高,并且对比 VAE 的实验结果也有明 显提升。 实验结果说明通过分类器和判别器的对抗学习可以有效学习到未标注样本的文本信息,增强模型 的数据特征,从而帮助分类器更好地进行分类。 2) 使用双语对抗学习的半监督情感分类方法比使用单语对抗学习的半监督情感分类方法的实验结果 更好。 具体而言,与单语实验相比,加入英文语料的融合结果之后,LP(CN+EN)方法在 3 种不同的训练集规 模中的实验结果如下:LP(CN+EN)方法平均提高了 1. 99%;self-training(CN+EN)方法的实验结果平均提高 了 2. 78%;VAE(CN+EN) 方法的实验结果平均提高了 3. 56%;本文提出的 AL( CN+EN) 方法的实验结果平 均提高了 3. 71%。 实验结果表明,利用双语信息能够有效提升半监督情感分类的实验性能。 3) 本文提出的基于双语对抗学习的半监督情感分类方法 AL( CN+EN) 在所有的实验中都表现最好。 当训练集数量为 100 条时,使用 AL(CN+EN)方法进行情感分类任务的准确率比未使用未标注样本的 LSTM 方法提高 6. 34%。 实验结果表明利用双语信息及对抗学习能有效提高半监督情感分类的实验性能,本文提 出的对抗网络能够捕捉未标注样本中的有效信息。 3 结语 本文提出了基于双语对抗学习的半监督情感分类方法,主要通过分类器和判别器之间的对抗学习充分 利用未标注样本的样本信息,这种对抗学习的方法可以有效避免对未标注样本分类或者自动标注带来的错 62
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有