正在加载图片...
第1期 王晓初,等:基于最小最大概率机的迁移学习分类算法 ·89· 为了方便实验的描述,对实验中涉及的有关符 MPM算法中的核函数都选取高斯核函数,参数σ在 号给出相应的定义,如表2所示。 (0.001,0.01,0.1,1,10,100,1000)中选取。TL-MPM 表2实验中涉及的符号定义 算法中的参数在(0.001,0.01,0.1,1,10,100,1000)中 Table 2 Definition of symbols in the experiment 选取。对表3处理好的6个真实分类数据集分别随 符号 定义 机独立重复10次实验,选取最优参数下的取值,表4、 Ds 源域数据集 表5和表6分别记录了10次独立重复实验正确率的 Dt 目标域数据集 均值。 仅利用目标域少量数据训练得到的目标域 表4目标域样本的1%训练结果 T-LMPM MPM线性分类器 Table 4 Results of 1%training samples in the target domain/% 仅利用目标域少量数据训练得到的目标域 数据集 T-LMPM T-KMPM LTL-MPM KTL-MPM T-KMPM MPM非线性分类器 comp ys rec 71.71 72.96 72.56 78.42 LTL-MPM 本文提出的TL-MPM算法得到的线性分类器 comp vs sci 66.46 74.16 72.22 76.49 KTL-MPM 本文提出的L,MPM算法得到的非线性分类器 comp ys talk 90.96 99.15 99.48 99.75 rec vs talk 60.51 71.29 66.26 76.14 4.1 20 News Groups数据集预处理 首先对数据集分成源域训练数据和目标域训练 rec vs sci 62.49 71.00 64.17 76.48 数据,具体的处理结果如表3所示。 sci vs talk 68.21 77.24 67.98 76.44 表320 News Groups数据集处理结果 Table 3 Results of 20News Groups Data set processing 表5目标域样本的5%训练结果 Datasets Ds Dt Table 5 Results of 5%training samples in the target domain/% comp.graphics comp.windows.x 数据集 T-LMPM T-KMPM LTL-MPM KTL-MPM comp vs rec rec.motorcycles rec.autos comp.sys.ibm.pc. comp ys rec 61.46 80.92 64.19 83.94 comp.os.mswindows.misc comp vs sci hardware comp ys sci 58.72 76.33 63.29 79.56 sci.crypt sci.med comp.os.mswindows comp vs talk 94.13 99.41 97.74 99.83 comp.sys.mac.hardware comp vs talk misc rec vs talk 57.36 76.30 60.80 78.60 talk.politics.mideast talk.politics.guns rec vs sci 57.12 78.81 57.49 81.50 rec.autos rec.sport.baseball rec vs talk talk.politics.misc talk.religion.misc sci vs talk 57.42 86.34 63.98 86.75 rec.autos rec.sport.hockey rec vs sci sci.space sci.electronics 表6目标域样本的10%训练结果 sci.med sci.space Table 6 Results of 10%training samples in the target domain/ sci vs talk talk.religion.misc talk.politics.mideast 数据集 T-LMPM T-KMPM LTL-MPM KTL-MPM 其次,由于20 News Groups文本数据集的特 comp vs rec 76.46 85.51 80.05 86.06 征数很大,为了实验的方便,用主元分析法对数 comp vs sci 70.87 84.75 75.00 83.70 据集的特征做降维预处理,取前100维构成新 的实验数据。 comp vs talk 96.16 99.32 98.66 99.69 4.2少量目标域训练样本上的实验结果与分析 rec vs talk 65.30 81.64 66.74 81.56 实验中取源域中的全部数据,分别取目标 rec vs sci 64.93 84.89 70.17 85.90 域中的1%、5%、10%的数据训练TL-MPM算法 sci vs talk 70.49 90.18 72.17 89.09 分类器和MPM算法分类器。在T-MPM和TL-为了方便实验的描述,对实验中涉及的有关符 号给出相应的定义,如表 2 所示。 表 2 实验中涉及的符号定义 Table 2 Definition of symbols in the experiment 符号 定义 Ds 源域数据集 Dt 目标域数据集 T⁃LMPM 仅利用目标域少量数据训练得到的目标域 MPM 线性分类器 T⁃KMPM 仅利用目标域少量数据训练得到的目标域 MPM 非线性分类器 LTL⁃MPM 本文提出的 TL⁃MPM 算法得到的线性分类器 KTL⁃MPM 本文提出的 TL⁃MPM 算法得到的非线性分类器 4.1 20News Groups 数据集预处理 首先对数据集分成源域训练数据和目标域训练 数据,具体的处理结果如表 3 所示。 表 3 20News Groups 数据集处理结果 Table 3 Results of 20News Groups Data set processing Datasets Ds Dt comp vs rec comp.graphics rec.motorcycles comp.windows.x rec.autos comp vs sci comp.os.mswindows.misc sci.crypt comp. sys. ibm. pc. hardware sci.med comp vs talk comp.sys.mac.hardware talk.politics.mideast comp. os. mswindows. misc talk.politics.guns rec vs talk rec.autos talk.politics.misc rec.sport.baseball talk.religion.misc rec vs sci rec.autos sci.space rec.sport.hockey sci.electronics sci vs talk sci.med talk.religion.misc sci.space talk.politics.mideast 其次,由于 20News Groups 文本数据集的特 征数很大,为了实验的方便,用主元分析法对数 据集的特征做降维预处理,取前 100 维构成新 的实验数据。 4.2 少量目标域训练样本上的实验结果与分析 实验中取 源 域 中 的 全 部 数 据, 分 别 取 目 标 域中的 1% 、5% 、10%的数据训练 TL⁃MPM 算法 分类器和 MPM 算法分类器。 在 T⁃MPM 和 TL⁃ MPM 算法中的核函数都选取高斯核函数,参数 σ 在 (0.001,0.01,0.1,1,10,100,1 000)中选取。 TL⁃MPM 算法中的参数在(0.001,0.01,0.1,1,10,100,1 000)中 选取。 对表 3 处理好的 6 个真实分类数据集分别随 机独立重复 10 次实验,选取最优参数下的取值,表 4、 表 5 和表 6 分别记录了 10 次独立重复实验正确率的 均值。 表 4 目标域样本的 1%训练结果 Table 4 Results of 1%training samples in the target domain/ % 数据集 T⁃LMPM T⁃KMPM LTL⁃MPM KTL⁃MPM comp vs rec 71.71 72.96 72.56 78.42 comp vs sci 66.46 74.16 72.22 76.49 comp vs talk 90.96 99.15 99.48 99.75 rec vs talk 60.51 71.29 66.26 76.14 rec vs sci 62.49 71.00 64.17 76.48 sci vs talk 68.21 77.24 67.98 76.44 表 5 目标域样本的 5%训练结果 Table 5 Results of 5%training samples in the target domain/ % 数据集 T⁃LMPM T⁃KMPM LTL⁃MPM KTL⁃MPM comp vs rec 61.46 80.92 64.19 83.94 comp vs sci 58.72 76.33 63.29 79.56 comp vs talk 94.13 99.41 97.74 99.83 rec vs talk 57.36 76.30 60.80 78.60 rec vs sci 57.12 78.81 57.49 81.50 sci vs talk 57.42 86.34 63.98 86.75 表 6 目标域样本的 10%训练结果 Table 6 Results of 10%training samples in the target domain/ % 数据集 T⁃LMPM T⁃KMPM LTL⁃MPM KTL⁃MPM comp vs rec 76.46 85.51 80.05 86.06 comp vs sci 70.87 84.75 75.00 83.70 comp vs talk 96.16 99.32 98.66 99.69 rec vs talk 65.30 81.64 66.74 81.56 rec vs sci 64.93 84.89 70.17 85.90 sci vs talk 70.49 90.18 72.17 89.09 第 1 期 王晓初,等:基于最小最大概率机的迁移学习分类算法 ·89·
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有