表３实验对比算法的基本信息Ｔａｂｌｅ３Ｄｅｔａｉｌｓｏｆｅｖ

正在加载图片...

第3期张钢，等：面向大数据流的半监督在线多核学习算法 ·361. 表3实验对比算法的基本信息训练数据。因此可以接受在线学习方法性能稍差于 Table 3 Details of evaluation methods for comparison 批处理方法。但批处理方法难以处理大规模的数据编号参考文献数据集描述集，正如本组实验的第2部分即将展示的（图3），这采用感知器与Hedge算正是在线学习方法的优势[02]。下面给出F1、2 法融合的在线核学习算与SSL-MKL在M4和M5整个数据集上的结果。训 [17] 全部法，优化过程采用随机练集与测试集的规模按原数据集大小的3：7，对于梯度下降法 SSL-MKL采用转导学习的方式[22】，即把整个测试在线多核学习算法，其集作为无标记集。同样对数据集进行10次随机划 F2 [9] 全部基本原理同算法1，但分，记录每次分类正确率并计算方差，图3给出了在权重更新策略不同数据集M4和M5上算法正确率的比较结果。 3 [18] M4、M5 批处理多核学习算法 0.8i F1与F2可以在5个实验数据集上运行，F3不 0.6 能运行在数据流集上，即只能在M4和M5上运行， F 因此可以把M1、M2、M3与M4、M5分别进行比较。 SSL-MKL 由于算法F3无法直接处理M4和M5这样大规 0.2 模的数据集，只能采用随机抽样的方法，限制训练集的大小才可以使用批处理算法。本组实验对训练数 M M 据集进行无回放抽样，抽样规模为10000。其余2 数据集个算法也在此抽样数据集上进行性能测试，对本文图3M4和M5的实验结果（完整数据集）的SSL-MKL算法，从测试数据集中抽取同样规模的 Fig.3 Evaluation results of M4 and M5(full data set size) 数据集作为算法的无标记数据。考虑到抽样的随机从图3中可看出，由于有完整的训练集，各个算性，对批处理核学习进行10次抽样训练并记录10 法的正确率相比图2有所提升。SSL-MKL算法相次的分类正确率的平均值。图2展示了在M4和比F1和F2的提升幅度比限制规模数据集时更大， M5上的实验结果。表明数据依赖核对于数据分布的估计能够提升核函 0.8f 数的性能。最后给出数据流集(M1、M2、M3)的测试结果。 0.6 F 测试过程是把训练样本按其顺序号依次输入学习模解 ■F2 0.4 ■F 型进行训练：在接受测试样本时，SSL-MKL同时进 ■SSL-MKL 行无监督学习，而1和F2,则仅输出测试结果。由 0.2 于数据集有顺序，截取前面的30%作为训练集，后面70%作为测试集。表4给出了实验中各算法在数 M M 数据集据集上正确率的比较。图2M4和M5的实验结果（限制数据集规模）表4各算法在流数据集上正确率的比较 Fig.2 The main framework of online multiple kernel Table 4 Accuracy comparison on stream data sets learning M1 M2 M3 从图2中可以看到，SSL-MKL不比F3差太多， F1 0.731 0.788 0.775 但比F1和F2好，表明SSL-MKL对于规模受限制的 F2 0.742 0.781 0.770 数据集的性能较有监督的在线核学习算法(F1和 SSL-MKL 0.768 0.796 0.802 F2)好，归功于SSL-MKL算法中的无监督学习对最终学习器性能提升的贡献，说明整个半监督学习框从表4中可知SSL-MKL算法在3个数据集上架的有效性。另一方面，注意到3个在线算法的性都有最好的表现。第2组实验分析本文算法对不同能均不如批处理算法F3,这是可以理解的，因为在规模数据集处理的CPU运算时间增长与数据集大线学习算法每次仅能“看到”当前的训练样本，且基小之间的关系。为了精确控制实验数据集的规模，本上不存储(SSL-MKL算法中的工作集仅是有限度本组实验使用了20种规模依次等距递增的M1数存储)，批处理方法在整个训练期间能访问所有的据集（以10为递增单位），记录了F2和SSL-MKL表３实验对比算法的基本信息Ｔａｂｌｅ３Ｄｅｔａｉｌｓｏｆｅｖａｌｕａｔｉｏｎｍｅｔｈｏｄｓｆｏｒｃｏｍｐａｒｉｓｏｎ编号参考文献数据集描述Ｆ１［１７］全部采用感知器与Ｈｅｄｇｅ算法融合的在线核学习算法，优化过程采用随机梯度下降法Ｆ２［９］全部在线多核学习算法，其基本原理同算法１，但权重更新策略不同Ｆ３［１８］Ｍ４、Ｍ５批处理多核学习算法Ｆ１与Ｆ２可以在５个实验数据集上运行，Ｆ３不能运行在数据流集上，即只能在Ｍ４和Ｍ５上运行，因此可以把Ｍ１、Ｍ２、Ｍ３与Ｍ４、Ｍ５分别进行比较。由于算法Ｆ３无法直接处理Ｍ４和Ｍ５这样大规模的数据集，只能采用随机抽样的方法，限制训练集的大小才可以使用批处理算法。本组实验对训练数据集进行无回放抽样，抽样规模为１００００。其余２个算法也在此抽样数据集上进行性能测试，对本文的ＳＳＬ⁃ＭＫＬ算法，从测试数据集中抽取同样规模的数据集作为算法的无标记数据。考虑到抽样的随机性，对批处理核学习进行１０次抽样训练并记录１０次的分类正确率的平均值。图２展示了在Ｍ４和Ｍ５上的实验结果。图２Ｍ４和Ｍ５的实验结果（限制数据集规模）Ｆｉｇ．２Ｔｈｅｍａｉｎｆｒａｍｅｗｏｒｋｏｆｏｎｌｉｎｅｍｕｌｔｉｐｌｅｋｅｒｎｅｌｌｅａｒｎｉｎｇ从图２中可以看到，ＳＳＬ⁃ＭＫＬ不比Ｆ３差太多，但比Ｆ１和Ｆ２好，表明ＳＳＬ⁃ＭＫＬ对于规模受限制的数据集的性能较有监督的在线核学习算法（Ｆ１和Ｆ２）好，归功于ＳＳＬ⁃ＭＫＬ算法中的无监督学习对最终学习器性能提升的贡献，说明整个半监督学习框架的有效性。另一方面，注意到３个在线算法的性能均不如批处理算法Ｆ３，这是可以理解的，因为在线学习算法每次仅能“看到”当前的训练样本，且基本上不存储（ＳＳＬ⁃ＭＫＬ算法中的工作集仅是有限度存储），批处理方法在整个训练期间能访问所有的训练数据。因此可以接受在线学习方法性能稍差于批处理方法。但批处理方法难以处理大规模的数据集，正如本组实验的第２部分即将展示的（图３），这正是在线学习方法的优势［２０⁃２１］。下面给出Ｆ１、Ｆ２与ＳＳＬ⁃ＭＫＬ在Ｍ４和Ｍ５整个数据集上的结果。训练集与测试集的规模按原数据集大小的３：７，对于ＳＳＬ⁃ＭＫＬ采用转导学习的方式［２２⁃２３］，即把整个测试集作为无标记集。同样对数据集进行１０次随机划分，记录每次分类正确率并计算方差，图３给出了在数据集Ｍ４和Ｍ５上算法正确率的比较结果。图３Ｍ４和Ｍ５的实验结果（完整数据集）Ｆｉｇ．３ＥｖａｌｕａｔｉｏｎｒｅｓｕｌｔｓｏｆＭ４ａｎｄＭ５（ｆｕｌｌｄａｔａｓｅｔｓｉｚｅ）从图３中可看出，由于有完整的训练集，各个算法的正确率相比图２有所提升。ＳＳＬ⁃ＭＫＬ算法相比Ｆ１和Ｆ２的提升幅度比限制规模数据集时更大，表明数据依赖核对于数据分布的估计能够提升核函数的性能。最后给出数据流集（Ｍ１、Ｍ２、Ｍ３）的测试结果。测试过程是把训练样本按其顺序号依次输入学习模型进行训练；在接受测试样本时，ＳＳＬ⁃ＭＫＬ同时进行无监督学习，而Ｆ１和Ｆ２，则仅输出测试结果。由于数据集有顺序，截取前面的３０％作为训练集，后面７０％作为测试集。表４给出了实验中各算法在数据集上正确率的比较。表４各算法在流数据集上正确率的比较Ｔａｂｌｅ４ＡｃｃｕｒａｃｙｃｏｍｐａｒｉｓｏｎｏｎｓｔｒｅａｍｄａｔａｓｅｔｓＭ１Ｍ２Ｍ３Ｆ１０．７３１０．７８８０．７７５Ｆ２０．７４２０．７８１０．７７０ＳＳＬ⁃ＭＫＬ０．７６８０．７９６０．８０２从表４中可知ＳＳＬ⁃ＭＫＬ算法在３个数据集上都有最好的表现。第２组实验分析本文算法对不同规模数据集处理的ＣＰＵ运算时间增长与数据集大小之间的关系。为了精确控制实验数据集的规模，本组实验使用了２０种规模依次等距递增的Ｍ１数据集（以１０６为递增单位），记录了Ｆ２和ＳＳＬ⁃ＭＫＬ第３期张钢，等：面向大数据流的半监督在线多核学习算法 ·３６１·

<<向上翻页向下翻页>>

点击下载：机器学习：面向大数据流的半监督在线多核学习算法