机器学习：面向大数据流的半监督在线多核学习算法

团购合买资源类别：文库，文档格式：PDF，文档页数：9，文件大小：688.54KB

第9卷第3期智能系统学报 Vol.9 No.3 2014年6月 CAAI Transactions on Intelligent Systems Jun.2014 D0:10.3969/j.issn.1673-4785.201403067 网络出版地址：http://www.enki..net/kcms/doi/10.3969/j.issn.16734785.201403067.html 面向大数据流的半监督在线多核学习算法张钢，谢晓珊，黄英，王春茹 (广东工业大学自动化学院，广东广州510006) 摘要：在机器学习中，核函数的选择对核学习器性能有很大的影响，而通过核学习的方法可以得到有效的核函数。提出一种面向大数据流的半监督在线核学习算法，通过当前读取的大数据流片段以在线方式更新当前的核函数。算法通过大数据流的标签对核函数参数进行有监督的调整，同时以无监督的方式通过流形学习对核函数参数进行修改，以使得核函数所体现的等距面尽可能沿着数据的某种低维流形分布。算法的创新性在于能同时进行有监督和无监督的核学习，且不需要对历史数据进行再次扫描，有效降低了算法的时间复杂度，适用于在大数据和高速数据流环境下的核函数学习问题，其对无监督学习的支持有效解决了大数据流中部分标记缺失的问题。在MOA生成的人工数据集以及UC大数据分析的基准数据集上进行算法有效性的评估，其结果表明该算法是有效的。关键词：大数据流：在线多核学习：流形学习：数据依赖核：半监督学习中图分类号：TP18文献标志码：A文章编号：1673-4785(2014)03-0355-09 中文引用格式：张钢，谢晓珊，黄英，等.面向大数据流的半监督在线多核学习算法[J].智能系统学报，2014,9(3)：355-363. 英文引用格式：ZHANG Gang,XIE Xiaoxian,HUANG Ying,etal.An online multi-kernel learning algorithm for big data[J】 CAAI Transactions on Intelligent Systems,2014,9(3):355-363. An online multi-kernel learning algorithm for big data ZHANG Gang,XIE Xiaoshan,HUANG Ying,WANG Chunru (School of Automation,Guangdong University of Technology,Guangzhou 510006,China) Abstract:In machine learning,a proper kernel function affects much on the performance of target learners.Commonly an effective kernel function can be obtained through kernel learing.We present a semi-supervised online multiple ker- nel algorithm for big data stream analysis.The algorithm learns a kernel function through an online update procedure by reading current segments of a big data stream.The algorithm adjusts the parameters of currently learned kemel function in a supervised manner and modifies the kemel through unsupervised manifold learning,so as to make the contour sur- faces of the kemel along with some low dimensionality manifold in the data space as far as possible.The novelty is that it performs supervised and unsupervised leaming at the same time,and scans the training data only once,which reduces the computational complexity and is suitable for the kernel learning tasks in big datasets and high speed data streams. This algorithm's support to the unsupervised learning effectively solves the problem of label missing in big data streams. The evaluation results from the synthetic datasets generated by MOA and the benchmark datasets of the big data analysis from the UCI data repository show the effectiveness of the proposed algorithm. Keywords:big data stream;online multi-kemel learning;manifold learning;data-dependent kernel;semi-supervised learning 随着信息技术的快速发展和大规模应用，数据收稿日期：2014-03-25.网络出版日期：2014-06-14. 的生成速度及存储规模也在快速增长，特别是Wb 基金项目：国家自然科学基金资助项目(81373883) 通信作者：张钢.E-mail:px@gut.edu.cn.. 页面、社交网络及物联网的普及和应用，使人们所要

第９卷第３期智能系统学报Ｖｏｌ．９ №．３２０１４年６月ＣＡＡＩＴｒａｎｓａｃｔｉｏｎｓｏｎＩｎｔｅｌｌｉｇｅｎｔＳｙｓｔｅｍｓＪｕｎ．２０１４ＤＯＩ：１０．３９６９／ｊ．ｉｓｓｎ．１６７３⁃４７８５．２０１４０３０６７网络出版地址：ｈｔｔｐ：／／ｗｗｗ．ｃｎｋｉ．ｎｅｔ／ｋｃｍｓ／ｄｏｉ／１０．３９６９／ｊ．ｉｓｓｎ．１６７３４７８５．２０１４０３０６７．ｈｔｍｌ面向大数据流的半监督在线多核学习算法张钢，谢晓珊，黄英，王春茹（广东工业大学自动化学院，广东广州５１０００６）摘要：在机器学习中，核函数的选择对核学习器性能有很大的影响，而通过核学习的方法可以得到有效的核函数。提出一种面向大数据流的半监督在线核学习算法，通过当前读取的大数据流片段以在线方式更新当前的核函数。算法通过大数据流的标签对核函数参数进行有监督的调整，同时以无监督的方式通过流形学习对核函数参数进行修改，以使得核函数所体现的等距面尽可能沿着数据的某种低维流形分布。算法的创新性在于能同时进行有监督和无监督的核学习，且不需要对历史数据进行再次扫描，有效降低了算法的时间复杂度，适用于在大数据和高速数据流环境下的核函数学习问题，其对无监督学习的支持有效解决了大数据流中部分标记缺失的问题。在ＭＯＡ生成的人工数据集以及ＵＣＩ大数据分析的基准数据集上进行算法有效性的评估，其结果表明该算法是有效的。关键词：大数据流；在线多核学习；流形学习；数据依赖核；半监督学习中图分类号：ＴＰ１８文献标志码：Ａ文章编号：１６７３⁃４７８５（２０１４）０３⁃０３５５⁃０９中文引用格式：张钢，谢晓珊，黄英，等．面向大数据流的半监督在线多核学习算法［Ｊ］．智能系统学报，２０１４，９（３）：３５５⁃３６３．英文引用格式：ＺＨＡＮＧＧａｎｇ，ＸＩＥＸｉａｏｘｉａｎ，ＨＵＡＮＧＹｉｎｇ，ｅｔａｌ．Ａｎｏｎｌｉｎｅｍｕｌｔｉ⁃ｋｅｒｎｅｌｌｅａｒｎｉｎｇａｌｇｏｒｉｔｈｍｆｏｒｂｉｇｄａｔａ［Ｊ］．ＣＡＡＩＴｒａｎｓａｃｔｉｏｎｓｏｎＩｎｔｅｌｌｉｇｅｎｔＳｙｓｔｅｍｓ，２０１４，９（３）：３５５⁃３６３．Ａｎｏｎｌｉｎｅｍｕｌｔｉ⁃ｋｅｒｎｅｌｌｅａｒｎｉｎｇａｌｇｏｒｉｔｈｍｆｏｒｂｉｇｄａｔａＺＨＡＮＧＧａｎｇ，ＸＩＥＸｉａｏｓｈａｎ，ＨＵＡＮＧＹｉｎｇ，ＷＡＮＧＣｈｕｎｒｕ（ＳｃｈｏｏｌｏｆＡｕｔｏｍａｔｉｏｎ，ＧｕａｎｇｄｏｎｇＵｎｉｖｅｒｓｉｔｙｏｆＴｅｃｈｎｏｌｏｇｙ，Ｇｕａｎｇｚｈｏｕ５１０００６，Ｃｈｉｎａ）Ａｂｓｔｒａｃｔ：Ｉｎｍａｃｈｉｎｅｌｅａｒｎｉｎｇ，ａｐｒｏｐｅｒｋｅｒｎｅｌｆｕｎｃｔｉｏｎａｆｆｅｃｔｓｍｕｃｈｏｎｔｈｅｐｅｒｆｏｒｍａｎｃｅｏｆｔａｒｇｅｔｌｅａｒｎｅｒｓ．Ｃｏｍｍｏｎｌｙａｎｅｆｆｅｃｔｉｖｅｋｅｒｎｅｌｆｕｎｃｔｉｏｎｃａｎｂｅｏｂｔａｉｎｅｄｔｈｒｏｕｇｈｋｅｒｎｅｌｌｅａｒｎｉｎｇ．Ｗｅｐｒｅｓｅｎｔａｓｅｍｉ－ｓｕｐｅｒｖｉｓｅｄｏｎｌｉｎｅｍｕｌｔｉｐｌｅｋｅｒ⁃ ｎｅｌａｌｇｏｒｉｔｈｍｆｏｒｂｉｇｄａｔａｓｔｒｅａｍａｎａｌｙｓｉｓ．Ｔｈｅａｌｇｏｒｉｔｈｍｌｅａｒｎｓａｋｅｒｎｅｌｆｕｎｃｔｉｏｎｔｈｒｏｕｇｈａｎｏｎｌｉｎｅｕｐｄａｔｅｐｒｏｃｅｄｕｒｅｂｙｒｅａｄｉｎｇｃｕｒｒｅｎｔｓｅｇｍｅｎｔｓｏｆａｂｉｇｄａｔａｓｔｒｅａｍ．Ｔｈｅａｌｇｏｒｉｔｈｍａｄｊｕｓｔｓｔｈｅｐａｒａｍｅｔｅｒｓｏｆｃｕｒｒｅｎｔｌｙｌｅａｒｎｅｄｋｅｒｎｅｌｆｕｎｃｔｉｏｎｉｎａｓｕｐｅｒｖｉｓｅｄｍａｎｎｅｒａｎｄｍｏｄｉｆｉｅｓｔｈｅｋｅｒｎｅｌｔｈｒｏｕｇｈｕｎｓｕｐｅｒｖｉｓｅｄｍａｎｉｆｏｌｄｌｅａｒｎｉｎｇ，ｓｏａｓｔｏｍａｋｅｔｈｅｃｏｎｔｏｕｒｓｕｒ⁃ ｆａｃｅｓｏｆｔｈｅｋｅｒｎｅｌａｌｏｎｇｗｉｔｈｓｏｍｅｌｏｗｄｉｍｅｎｓｉｏｎａｌｉｔｙｍａｎｉｆｏｌｄｉｎｔｈｅｄａｔａｓｐａｃｅａｓｆａｒａｓｐｏｓｓｉｂｌｅ．Ｔｈｅｎｏｖｅｌｔｙｉｓｔｈａｔｉｔｐｅｒｆｏｒｍｓｓｕｐｅｒｖｉｓｅｄａｎｄｕｎｓｕｐｅｒｖｉｓｅｄｌｅａｒｎｉｎｇａｔｔｈｅｓａｍｅｔｉｍｅ，ａｎｄｓｃａｎｓｔｈｅｔｒａｉｎｉｎｇｄａｔａｏｎｌｙｏｎｃｅ，ｗｈｉｃｈｒｅｄｕｃｅｓｔｈｅｃｏｍｐｕｔａｔｉｏｎａｌｃｏｍｐｌｅｘｉｔｙａｎｄｉｓｓｕｉｔａｂｌｅｆｏｒｔｈｅｋｅｒｎｅｌｌｅａｒｎｉｎｇｔａｓｋｓｉｎｂｉｇｄａｔａｓｅｔｓａｎｄｈｉｇｈｓｐｅｅｄｄａｔａｓｔｒｅａｍｓ．Ｔｈｉｓａｌｇｏｒｉｔｈｍ’ｓｓｕｐｐｏｒｔｔｏｔｈｅｕｎｓｕｐｅｒｖｉｓｅｄｌｅａｒｎｉｎｇｅｆｆｅｃｔｉｖｅｌｙｓｏｌｖｅｓｔｈｅｐｒｏｂｌｅｍｏｆｌａｂｅｌｍｉｓｓｉｎｇｉｎｂｉｇｄａｔａｓｔｒｅａｍｓ．ＴｈｅｅｖａｌｕａｔｉｏｎｒｅｓｕｌｔｓｆｒｏｍｔｈｅｓｙｎｔｈｅｔｉｃｄａｔａｓｅｔｓｇｅｎｅｒａｔｅｄｂｙＭＯＡａｎｄｔｈｅｂｅｎｃｈｍａｒｋｄａｔａｓｅｔｓｏｆｔｈｅｂｉｇｄａｔａａｎａｌｙｓｉｓｆｒｏｍｔｈｅＵＣＩｄａｔａｒｅｐｏｓｉｔｏｒｙｓｈｏｗｔｈｅｅｆｆｅｃｔｉｖｅｎｅｓｓｏｆｔｈｅｐｒｏｐｏｓｅｄａｌｇｏｒｉｔｈｍ．Ｋｅｙｗｏｒｄｓ：ｂｉｇｄａｔａｓｔｒｅａｍ；ｏｎｌｉｎｅｍｕｌｔｉ⁃ｋｅｒｎｅｌｌｅａｒｎｉｎｇ；ｍａｎｉｆｏｌｄｌｅａｒｎｉｎｇ；ｄａｔａ⁃ｄｅｐｅｎｄｅｎｔｋｅｒｎｅｌ；ｓｅｍｉ⁃ｓｕｐｅｒｖｉｓｅｄｌｅａｒｎｉｎｇ收稿日期：２０１４⁃０３⁃２５．网络出版日期：２０１４⁃０６⁃１４．基金项目：国家自然科学基金资助项目（８１３７３８８３）．通信作者：张钢．Ｅ⁃ｍａｉｌ：ｉｐｘ＠ｇｄｕｔ．ｅｄｕ．ｃｎ．随着信息技术的快速发展和大规模应用，数据的生成速度及存储规模也在快速增长，特别是Ｗｅｂ页面、社交网络及物联网的普及和应用，使人们所要

·356· 智能系统学报第9卷存储、处理和分析的数据规模以指数方式递增。如存，算法通过对当前输入的样本进行分析，同步更新谷歌搜索引擎在2008年索引的网页个数突破1万学习器，其中神经网络中的感知器模型就是在线学亿个，沃尔玛最近构建的一个数据仓库的数据规模习的经典例子6。由于在线学习不用保存以往的达到4PB。在此背景下对大数据的分析和挖掘成数据样本，或仅需保存以往数据样本的某种充分统为当前的热点研究主题。从算法的层面来看，大计量，十分适合大数据分析的应用场景。对于超大数据的机器学习和分析挖掘问题，主要存在以下的型数据集，以顺序方式输入模型，并同步更新学习问题：器：对高速数据流，在线学习可以实现数据的边输入 1)数据规模巨大，体现在数据记录个数及维度边学习，使学习器模型能够反映出最近一段时间的上，对于很多大数据分析问题，即使是多项式时间复输入数据规律并进行有效预测。杂度的机器学习算法也不能在人们可接受的时间内本文研究大数据环境下的在线核学习(online 得到结果。 kernel learning)算法。与传统在线学习不同，本文 2)由于数据集比计算机内存大，导致无法在训的工作主要针对大数据流中的核函数学习问题，算练学习器时加载整个训练集，或是出于应用环境的法并不直接通过数据样本的分析对学习器进行更限制，在训练学习器时不能获取整个数据集，数据记新，而是通过在线学习以迭代的方式确定一个最适录可能按某种速率到来，而且数据产生的规律性会用于当前数据产生规律的核函数。本文认为，核函随着时间变化而有所改变。数的学习比直接训练学习器有更广泛的适用性，一要解决问题1)，主要从2个途径去考虑，其一个合适的核函数可以被嵌入到各种不同核学习器的是降低现有分析算法的时间复杂度，采取一些近似训练过程，也可以直接用于核主成份分析(kernel 算法，在复杂度和精度方面取得折衷，如Yang等) PCA)、相关性分析(kernel CCA)或聚类分析等领提出了一种决策树快速增量学习方法，通过对决策域。因此，一个有效适用于大数据环境下的核学习树的属性选择指标进行近似，使算法能适用于数据算法有重要应用价值。流和超大型数据集，其性能和普通版本的决策树相目前被公开报道的在线核学习研究工作并不比并没有明显的下降：Jordan[)对大数据统计推断多，虽然核学习被广泛用于机器学习的不同应用领进行了回顾，并针对大数据分而治之的算法提出了域，但核函数的学习问题由于其对分析目标的间接 2种设计方法，其中重采样策略是对完整训练集的性影响，在大数据分析和挖掘领域中并没有被充分近似，而分治策略把大数据集数据间的相互关系限研究，因此研究大数据环境下的核函数学习问题对制在较小的范围内，最终目的是降低算法的复杂度：其他大数据机器学习任务有重要的基础性意义。其二是对现有算法进行修改，转化为可以并发/并行本文提出一种适用于大数据流的在线核学习算计算的版本，并利用云计算开发工具，如MapReduce 法，在现有多核学习框架中结合数据依赖核的构建编写可以在云计算平台上运行的程序，通过计算云方法，同时进行有监督学习和无监督学习，对于高速的强大运算能力，使算法能在可接受的时间内解决数据流中的有标记数据使用一种类似感知器训练的大数据分析问题，如Acar等f)在MapReduce框架中学习策略进行有监督核函数学习，对于所有数据实现了自适应计算的数据流分析算法，通过维护一 (包括有标记和无标记数据)进行基于数据依赖核个数据表跟踪数据集不同部分计算之间的依赖关的核函数更新策略，实质上进行一种无监督学习，不系，当需要更新时仅需考虑有关联的部分数据，算法需要存储和重新扫描历史数据，仅需通过选择的方有相对较佳的运行效率：Ai等)设计了面向数据式维持一个样本工作集，在读取新的数据样本时能流的相关分析和关联规则挖掘的云计算算法，能够以较低的时间复杂度直接更新当前的核函数，适用以批处理和在线的方式把相关分析和关联规则挖掘于大数据环境下的核学习问题，特别是高速大数据的任务透明分配到计算云的不同部分，同时计算然流中标记缺失的情形。后再进行整合。 1在线核学习的相关工作对于问题2)，目前主要解决思路是设计出以往机器学习和挖掘算法的在线学习版本。在线学习原核函数学习问题是机器学习研究中的一个分支方是机器学习的一个研究分支，其目标数据样本以顺向，通过机器学习的方法学习一个针对特定应用背景序的方式输入学习器，且不对历史数据样本进行保的核函数，能够大幅提高训练学习器的效果。Gonen

存储、处理和分析的数据规模以指数方式递增。如谷歌搜索引擎在２００８年索引的网页个数突破１万亿个，沃尔玛最近构建的一个数据仓库的数据规模达到４ＰＢ。在此背景下对大数据的分析和挖掘成为当前的热点研究主题［１］。从算法的层面来看，大数据的机器学习和分析挖掘问题，主要存在以下的问题：１）数据规模巨大，体现在数据记录个数及维度上，对于很多大数据分析问题，即使是多项式时间复杂度的机器学习算法也不能在人们可接受的时间内得到结果。２）由于数据集比计算机内存大，导致无法在训练学习器时加载整个训练集，或是出于应用环境的限制，在训练学习器时不能获取整个数据集，数据记录可能按某种速率到来，而且数据产生的规律性会随着时间变化而有所改变。要解决问题１），主要从２个途径去考虑，其一是降低现有分析算法的时间复杂度，采取一些近似算法，在复杂度和精度方面取得折衷，如Ｙａｎｇ等［２］提出了一种决策树快速增量学习方法，通过对决策树的属性选择指标进行近似，使算法能适用于数据流和超大型数据集，其性能和普通版本的决策树相比并没有明显的下降；Ｊｏｒｄａｎ［３］对大数据统计推断进行了回顾，并针对大数据分而治之的算法提出了２种设计方法，其中重采样策略是对完整训练集的近似，而分治策略把大数据集数据间的相互关系限制在较小的范围内，最终目的是降低算法的复杂度；其二是对现有算法进行修改，转化为可以并发／并行计算的版本，并利用云计算开发工具，如ＭａｐＲｅｄｕｃｅ编写可以在云计算平台上运行的程序，通过计算云的强大运算能力，使算法能在可接受的时间内解决大数据分析问题，如Ａｃａｒ等［４］在ＭａｐＲｅｄｕｃｅ框架中实现了自适应计算的数据流分析算法，通过维护一个数据表跟踪数据集不同部分计算之间的依赖关系，当需要更新时仅需考虑有关联的部分数据，算法有相对较佳的运行效率；Ａｒｉ等［５］设计了面向数据流的相关分析和关联规则挖掘的云计算算法，能够以批处理和在线的方式把相关分析和关联规则挖掘的任务透明分配到计算云的不同部分，同时计算然后再进行整合。对于问题２），目前主要解决思路是设计出以往机器学习和挖掘算法的在线学习版本。在线学习原是机器学习的一个研究分支，其目标数据样本以顺序的方式输入学习器，且不对历史数据样本进行保存，算法通过对当前输入的样本进行分析，同步更新学习器，其中神经网络中的感知器模型就是在线学习的经典例子［６］。由于在线学习不用保存以往的数据样本，或仅需保存以往数据样本的某种充分统计量，十分适合大数据分析的应用场景。对于超大型数据集，以顺序方式输入模型，并同步更新学习器；对高速数据流，在线学习可以实现数据的边输入边学习，使学习器模型能够反映出最近一段时间的输入数据规律并进行有效预测。本文研究大数据环境下的在线核学习（ｏｎｌｉｎｅｋｅｒｎｅｌｌｅａｒｎｉｎｇ）算法。与传统在线学习不同，本文的工作主要针对大数据流中的核函数学习问题，算法并不直接通过数据样本的分析对学习器进行更新，而是通过在线学习以迭代的方式确定一个最适用于当前数据产生规律的核函数。本文认为，核函数的学习比直接训练学习器有更广泛的适用性，一个合适的核函数可以被嵌入到各种不同核学习器的训练过程，也可以直接用于核主成份分析（ｋｅｒｎｅｌＰＣＡ）、相关性分析（ｋｅｒｎｅｌＣＣＡ）或聚类分析等领域。因此，一个有效适用于大数据环境下的核学习算法有重要应用价值。目前被公开报道的在线核学习研究工作并不多，虽然核学习被广泛用于机器学习的不同应用领域，但核函数的学习问题由于其对分析目标的间接性影响，在大数据分析和挖掘领域中并没有被充分研究，因此研究大数据环境下的核函数学习问题对其他大数据机器学习任务有重要的基础性意义。本文提出一种适用于大数据流的在线核学习算法，在现有多核学习框架中结合数据依赖核的构建方法，同时进行有监督学习和无监督学习，对于高速数据流中的有标记数据使用一种类似感知器训练的学习策略进行有监督核函数学习，对于所有数据（包括有标记和无标记数据）进行基于数据依赖核的核函数更新策略，实质上进行一种无监督学习，不需要存储和重新扫描历史数据，仅需通过选择的方式维持一个样本工作集，在读取新的数据样本时能以较低的时间复杂度直接更新当前的核函数，适用于大数据环境下的核学习问题，特别是高速大数据流中标记缺失的情形。１在线核学习的相关工作核函数学习问题是机器学习研究中的一个分支方向，通过机器学习的方法学习一个针对特定应用背景的核函数，能够大幅提高训练学习器的效果。Ｇöｎｅｎ ·３５６· 智能系统学报第９卷

第3期张钢，等：面向大数据流的半监督在线多核学习算法 ·357. 等)回顾了目前的主要多核学习算法，指出大多数算面向大数据的多核学习算法法所得到核函数组合对学习器的影响差别不大，但是在学习算法的时间复杂度及核函数组合的稀疏性方面首先形式化描述多核学习问题，然后再给出带却有很大差异，这种差异性在处理大数据的多核学习有数据依赖的多核学习问题，并给出在线学习版本问题时必须考虑。他们的工作表明通过非线性和数据的算法。核学习所解决的问题是直接从训练数据集依赖的方式进行核函数的组合具有更好的性能，数据 (有标记或无标记)中学习参数化或半参数化的核依赖的核函数修正方式适合于高速无标记的数据流，函数，使其能充分反映数据所蕴含的分布规律。给这是本文在线核学习方法的一个出发点。Orabona 定一系列的训练样本D,={(x,y:)Ii=1,2,…, 等[劉提出了一种多核学习的快速算法，能够通过参数 n},其中x:为属性集，y:∈{-1，+1}为分类标记控制所生成核的稀疏程度，算法即使在待组合的核数给定一个包含m个基本核函数的集合K={k(·, 量很大的情况下仍然能够快速收敛，且模型训练的时 ·):X×X→R,j=1,2,…,m,学习一组非负权值间复杂度仅是训练样本的线性函数。该工作大大减轻 u=山1，山2，…，山，∑4=1，使核学习器在测试了核学习的算法复杂度，并能控制核的稀疏和与数据集上的分类错误最小化。由于权值非负，根据核函拟合的程度，有很重要的理论和应用价值。但该工作数的性质可知，核函数的凸组合仍为一个有效的核并不完全适用于大数据，特别是高速数据流，其原因是函数。该问题可以形式化描述为它并非一种增量更新算法，而是一种批处理的优化方 min::fIa+C∑fx,)) (1) 法。此外，该方法是一种有监督的核学习方法，并不能式中：l为Hinge Loss损失函数，定义为l(a,b)= 处理无标记的数据样本，而在大数据流中数据样本的 max(0,1-ab),Hx为核函数K所张成的希尔伯特标记缺失十分常见，因此核学习器的无监督学习能力空间，C控制模型复杂度与损失惩罚比重的参数。非常重要。求解该优化问题的时间复杂度比较高，这是由于其针对数据流学习和模型的增量更新问题，研究中包含2步优化，第1步选择一个“，确定一个核函者们对在线学习进行了深入研究，其中值得关注的研究工作是Jim等)提出的在线核学习框架，他们数K=∑uk,从而确定了H:第2步在H,中寻找 i=1 系统地提出了在线多核学习问题理论及其算法。针最简单的且在当前训练集中正确率最高（由C控对核函数和核学习器的增量更新问题，他们提出了制)的学习器f,这2个目标分别对应式(1)中的2 使用确定和随机2种方法进行更新，其中随机更新项。若核函数确定，则寻找满足2个条件的f的问需要结合一定的采样策略进行。他们的工作对于基题可以直接求解，如SVM模型则属于此种情况。但本核函数较多的情况下是有效的，但仅在有监督学若核函数是通过参数“来对若干基核函数进行加权习中进行研究，即遇到一个新的样本，若当前模型分组合，要求最优的“和f,则问题变得很有挑战性，类正确，则不进行更新动作，否则按照一定的策略更特别是在大数据学习环境中，此类问题基本上不可新模型。该方法并不直接适用于大数据流环境下的能在可接受的时间内求得最优解。多核学习问题，其主要问题是它不能适应数据流产若通过限制基本核函数的个数或“中各分量的生规律变化的情况，且当某些数据缺少标签时模型取值范围，则会牺牲多核学习的优势，且没有从根本无法有效处理。上解决多核学习的问题。可以认为，在没有更好的本文认为要解决此问题需要同时考虑数据标签求解算法的情况下，在线学习对上述问题是一种较和数据的空间分布，使用增量学习的方法同步更新好的求解策略。模型，这也是在当前很多大数据学习算法中所采用 2.1在线多核学习的策略。如Qim等[1o]提出了一种适用于云计算增为了进行在线学习，需要重新考虑式(1)。Jin 量梯度下降算法，解决大数据环境下带线性约束的等的工作表明，当所学习的核函数为某个基本核凸优化问题。Yang等)提出了决策树的增量学习函数集合的线性组合时，式(1)的最优化问题可以近似算法，可以在没有历史训练数据的情况下通过转化为如下问题：先求出每个核函数k:在各自张成在线学习的方式直接更新决策树模型。但这些工作的希尔伯特空间H,上最优的f,然后寻找一组权均是直接针对学习器进行增量更新，其方法并不直值“，使这些f的组合最优，在寻找最优的过程中同接适用于本文的核函数学习问题。步更新权值和∫。换句话说，若核函数的组合为线

等［７］回顾了目前的主要多核学习算法，指出大多数算法所得到核函数组合对学习器的影响差别不大，但是在学习算法的时间复杂度及核函数组合的稀疏性方面却有很大差异，这种差异性在处理大数据的多核学习问题时必须考虑。他们的工作表明通过非线性和数据依赖的方式进行核函数的组合具有更好的性能，数据依赖的核函数修正方式适合于高速无标记的数据流，这是本文在线核学习方法的一个出发点。Ｏｒａｂｏｎａ等［８］提出了一种多核学习的快速算法，能够通过参数控制所生成核的稀疏程度，算法即使在待组合的核数量很大的情况下仍然能够快速收敛，且模型训练的时间复杂度仅是训练样本的线性函数。该工作大大减轻了核学习的算法复杂度，并能控制核的稀疏和与数据拟合的程度，有很重要的理论和应用价值。但该工作并不完全适用于大数据，特别是高速数据流，其原因是它并非一种增量更新算法，而是一种批处理的优化方法。此外，该方法是一种有监督的核学习方法，并不能处理无标记的数据样本，而在大数据流中数据样本的标记缺失十分常见，因此核学习器的无监督学习能力非常重要。针对数据流学习和模型的增量更新问题，研究者们对在线学习进行了深入研究，其中值得关注的研究工作是Ｊｉｎ等［９］提出的在线核学习框架，他们系统地提出了在线多核学习问题理论及其算法。针对核函数和核学习器的增量更新问题，他们提出了使用确定和随机２种方法进行更新，其中随机更新需要结合一定的采样策略进行。他们的工作对于基本核函数较多的情况下是有效的，但仅在有监督学习中进行研究，即遇到一个新的样本，若当前模型分类正确，则不进行更新动作，否则按照一定的策略更新模型。该方法并不直接适用于大数据流环境下的多核学习问题，其主要问题是它不能适应数据流产生规律变化的情况，且当某些数据缺少标签时模型无法有效处理。本文认为要解决此问题需要同时考虑数据标签和数据的空间分布，使用增量学习的方法同步更新模型，这也是在当前很多大数据学习算法中所采用的策略。如Ｑｉｎ等［１０］提出了一种适用于云计算增量梯度下降算法，解决大数据环境下带线性约束的凸优化问题。Ｙａｎｇ等［２］提出了决策树的增量学习近似算法，可以在没有历史训练数据的情况下通过在线学习的方式直接更新决策树模型。但这些工作均是直接针对学习器进行增量更新，其方法并不直接适用于本文的核函数学习问题。２面向大数据的多核学习算法首先形式化描述多核学习问题，然后再给出带有数据依赖的多核学习问题，并给出在线学习版本的算法。核学习所解决的问题是直接从训练数据集（有标记或无标记）中学习参数化或半参数化的核函数，使其能充分反映数据所蕴含的分布规律。给定一系列的训练样本ＤＬ＝｛（ｘｉ，ｙｉ）｜ｉ＝１，２，…，ｎ｝，其中ｘｉ为属性集，ｙｉ ∈｛－１，＋１｝为分类标记，给定一个包含ｍ个基本核函数的集合Ｋｍ＝｛ｋｊ（·， ·）：Ｘ × Ｘ → Ｒ，ｊ＝１，２，…，ｍ｝，学习一组非负权值ｕ＝｛ｕ１，ｕ２，…，ｕｍ，∑ｉｕｉ＝１｝，使核学习器在测试集上的分类错误最小化。由于权值非负，根据核函数的性质可知，核函数的凸组合仍为一个有效的核函数。该问题可以形式化描述为ｍｉｎｆ∈ＨＫ ‖ｆ‖２ＨＫ＋Ｃ∑ ｎｉ＝１ｌ（ｆ（ｘｉ），ｙｉ）（１）式中：ｌ为ＨｉｎｇｅＬｏｓｓ损失函数，定义为ｌ（ａ，ｂ）＝ｍａｘ（０，１－ａｂ），ＨＫ为核函数Ｋ所张成的希尔伯特空间，Ｃ控制模型复杂度与损失惩罚比重的参数。求解该优化问题的时间复杂度比较高，这是由于其中包含２步优化，第１步选择一个ｕ，确定一个核函数Ｋ＝∑ ｍｉ＝１ｕｉｋｉ，从而确定了ＨＫ；第２步在ＨＫ中寻找最简单的且在当前训练集中正确率最高（由Ｃ控制）的学习器ｆ，这２个目标分别对应式（１）中的２项。若核函数确定，则寻找满足２个条件的ｆ的问题可以直接求解，如ＳＶＭ模型则属于此种情况。但若核函数是通过参数ｕ来对若干基核函数进行加权组合，要求最优的ｕ和ｆ，则问题变得很有挑战性，特别是在大数据学习环境中，此类问题基本上不可能在可接受的时间内求得最优解。若通过限制基本核函数的个数或ｕ中各分量的取值范围，则会牺牲多核学习的优势，且没有从根本上解决多核学习的问题。可以认为，在没有更好的求解算法的情况下，在线学习对上述问题是一种较好的求解策略。２．１在线多核学习为了进行在线学习，需要重新考虑式（１）。Ｊｉｎ等［９］的工作表明，当所学习的核函数为某个基本核函数集合的线性组合时，式（１）的最优化问题可以转化为如下问题：先求出每个核函数ｋｉ在各自张成的希尔伯特空间Ｈｋｉ上最优的ｆｉ，然后寻找一组权值ｕ，使这些ｆｉ的组合最优，在寻找最优的过程中同步更新权值和ｆｉ。换句话说，若核函数的组合为线第３期张钢，等：面向大数据流的半监督在线多核学习算法 ·３５７·

.358 智能系统学报第9卷性时，在线多核学习问题可以两步求解，先使用基础有标记数据样本：(x,y) 的训练集为每一个核函数训练一个学习器，之后使输出：更新后的权重u 用这些学习器进行在线学习，每读入一个训练样本 1)y·=sign(w·F(x) 时，根据当前的加权组合学习器对当前训练样本的 2)ify'=y then 输出结果，使用一种策略更新该核函数的权值和所 3)p=0 对应的单个学习器，则最优的核函数为各个核函数 4)else 使用该最优权值的加权组合体。即式(1)可以转化 5)9=1 为以下问题： 6)end if 7)fori=1,2,…,mdo min max uJieHK,ac[0,C]Ti= ：fs+ 8)p=p(min(e,-yf(x)+0.5)) ∑a,(1-y∑uf(x)） (2) 9)u:=u:B”/更新u 10)f:=f+pyk(x,·) 11)end for 图1描述了上述求解过程的主要步骤。 12)return u 基本训练集算法1在输人有标记数据样本时，同时更新核权学习器训练 m个学习器权重u 重和每个核所对应的学习器。当样本被当前学习器分核函数集K 初始化类正确时，p为0，此时不执行更新动作：若分类错误，读入样本是否有标记 Y更新权重则减少该学习器的权重，见算法1的第8)和第9)行。输出核函数第lO)行根据Representer定理对每个核所对应的最优学习器进行调整。最大错误容忍水平e控制以多大的数据依赖更新组合学习器力度去惩罚被学习器错分的样本。由于仅对训练数据集进行一次扫描，算法1并多核在线学习不能达到离线批处理学习器的性能。但可依据感知图1多核在线学习算法的主要框架器训练过程对算法1的收敛性分析如下。算法第 Fig.1 The main framework of online multiple kernel 10)行对各个f进行更新，且各个f相互独立，相当 learning 于m个独立的感知器训练过程，当输入样本线性可对式(2)进行分析可知，由于各个f之间没有分时，各个f可以收敛于当前训练集下的最优学习关联，因此f的最优值可以单独求出，再用类似感知器，进而确定其最优组合：当输入样本线性不可分器的权值更新算法求解最优的组合权值u。由Re- 时，其收敛性依赖于各个学习器的核函数，一般情况 presenter定理可知，使式(2)最优的f方必定满足下并不收敛于最优解，但实验部分的第4组实验说 f)=(,) 明经过一段时间后学习器的性能会趋于稳定，逼近 (3) i=1 一个可接受的较优解。式(3)给出了一种在线学习f的方法，当读入一个 2.2基于数据依赖的核函数修改训练样本时，先判断f能否给出正确的标签，然后采数据依赖核[]是一种无监督的核函数学习方用f=f+yk,(x,·)更新，其中p为指示函数，当法，实质是对核函数在训练样本集上的值进行修改，对x正确分类时其值为1，反之为0。Jin等在文献使其所反映的在可见数据样本上的距离更加符合数 [9]中实现了上述思想。算法1描述了整个过程。据样本点的空间分布，而不考虑样本标签。它可以算法1在线多核学习对任意现有核函数根据可见的数据样本进行修改，输入实质是对由核函数所诱导的希尔伯特空间的内积进核函数集合：Kn={k1,k2,…,km} 行修改。首先给出数据依赖核的主要结论，然后初始化学习器：F={fif,…fm} 再提出针对大数据和高速数据流的数据依赖核在线更新因子：B∈(0,1) 核学习算法。最大分类错误的容忍水平：e 给定一个核函数k和一个数据集D={x1,x2, 当前的权重向量：u ,xn},记k=(k(x:,x),…,k(,xn)）,M=

性时，在线多核学习问题可以两步求解，先使用基础的训练集为每一个核函数训练一个学习器，之后使用这些学习器进行在线学习，每读入一个训练样本时，根据当前的加权组合学习器对当前训练样本的输出结果，使用一种策略更新该核函数的权值和所对应的单个学习器，则最优的核函数为各个核函数使用该最优权值的加权组合体。即式（１）可以转化为以下问题：ｍｉｎｕ，ｆｉ∈ＨＫｉｍａｘ α∈［０，Ｃ］Ｔ∑ ｍｉ＝１ｕｉ ‖ｆｉ‖２ＨＫｉ＋ ∑ Ｔｔ＝１ αｉ（１－ｙｔ∑ ｍｉ＝１ｕｉｆｉ（ｘｔ））（２）图１描述了上述求解过程的主要步骤。图１多核在线学习算法的主要框架Ｆｉｇ．１Ｔｈｅｍａｉｎｆｒａｍｅｗｏｒｋｏｆｏｎｌｉｎｅｍｕｌｔｉｐｌｅｋｅｒｎｅｌｌｅａｒｎｉｎｇ对式（２）进行分析可知，由于各个ｆｉ之间没有关联，因此ｆｉ的最优值可以单独求出，再用类似感知器的权值更新算法求解最优的组合权值ｕ。由Ｒｅ⁃ ｐｒｅｓｅｎｔｅｒ定理可知，使式（２）最优的ｆｉ必定满足ｆｉ（·）＝ ∑ ｎｊ＝１ αｊｙｊｋｉ（ｘｊ，·）（３）式（３）给出了一种在线学习ｆｉ的方法，当读入一个训练样本时，先判断ｆｉ能否给出正确的标签，然后采用ｆｉ＝ｆｉ＋ φｙｘｋｉ（ｘ，·）更新，其中 φ 为指示函数，当ｆｉ对ｘ正确分类时其值为１，反之为０。Ｊｉｎ等在文献［９］中实现了上述思想。算法１描述了整个过程。算法１在线多核学习输入：核函数集合：Ｋｍ＝｛ｋ１，ｋ２，…，ｋｍ｝初始化学习器：Ｆ＝｛ｆ１，ｆ２，…，ｆｍ｝更新因子： β ∈ （０，１）最大分类错误的容忍水平：ｅ当前的权重向量：ｕ有标记数据样本：（ｘ，ｙ）输出：更新后的权重ｕ１）ｙ ∗ ＝ｓｉｇｎ（ｗＴ·Ｆ（ｘ））２）ｉｆｙ ∗ ＝ｙｔｈｅｎ３） φ ＝０４）ｅｌｓｅ５） φ ＝１６）ｅｎｄｉｆ７）ｆｏｒｉ＝１，２，…，ｍｄｏ８）ｐ＝ φ（ｍｉｎ（ｅ，－ｙｆＴｉ（ｘ）＋０．５））９）ｕｉ＝ｕｉβ ｐ／／更新ｕ１０）ｆｉ＝ｆｉ＋ φｙｋｉ（ｘ，·）１１）ｅｎｄｆｏｒ１２）ｒｅｔｕｒｎｕ算法１在输入有标记数据样本时，同时更新核权重和每个核所对应的学习器。当样本被当前学习器分类正确时， φ 为０，此时不执行更新动作；若分类错误，则减少该学习器的权重，见算法１的第８）和第９）行。第１０）行根据Ｒｅｐｒｅｓｅｎｔｅｒ定理对每个核所对应的最优学习器进行调整。最大错误容忍水平ｅ控制以多大的力度去惩罚被学习器错分的样本。由于仅对训练数据集进行一次扫描，算法１并不能达到离线批处理学习器的性能。但可依据感知器训练过程对算法１的收敛性分析如下。算法第１０）行对各个ｆｉ进行更新，且各个ｆｉ相互独立，相当于ｍ个独立的感知器训练过程，当输入样本线性可分时，各个ｆｉ可以收敛于当前训练集下的最优学习器，进而确定其最优组合；当输入样本线性不可分时，其收敛性依赖于各个学习器的核函数，一般情况下并不收敛于最优解，但实验部分的第４组实验说明经过一段时间后学习器的性能会趋于稳定，逼近一个可接受的较优解。２．２基于数据依赖的核函数修改数据依赖核［１１］是一种无监督的核函数学习方法，实质是对核函数在训练样本集上的值进行修改，使其所反映的在可见数据样本上的距离更加符合数据样本点的空间分布，而不考虑样本标签。它可以对任意现有核函数根据可见的数据样本进行修改，实质是对由核函数所诱导的希尔伯特空间的内积进行修改［１２］。首先给出数据依赖核的主要结论，然后再提出针对大数据和高速数据流的数据依赖核在线核学习算法。给定一个核函数ｋ和一个数据集Ｄ＝｛ｘ１，ｘ２， …，ｘｎ｝，记ｋｘｉ＝（ｋ（ｘｉ，ｘ１），…，ｋ（ｘｉ，ｘｎ）），Ｍ＝ ·３５８· 智能系统学报第９卷

第3期张钢，等：面向大数据流的半监督在线多核学习算法 ·359· (∑，W,-W)',k关于D的Gam矩阵记为kn, 算M和k。的时间复杂度为O(N2)。 W,=RBF(x,x),x:,x∈D。则可以通过式(4)的一个重要问题是LRU和FIFO中对输入样本的方式对核函数k进行修改，使其等距线沿D进行分时间属性记录，对LRU还有聚类意义下最近被使用布：样本的判断。本文首先用聚类的方式产生数据集D kp(a,b)=k(a,b)-ki (I+MKp)Mk (4) 的r个簇，应用在线聚类的方式更新这r个簇，替换其中a和b为任意2个训练样本，M是一个在原点样本时每次从最久没有被更新过的簇中随机选取一对称的距离矩阵，按文献[12]的方法用图拉普拉斯个样本进行替换，使用一个长度为r优先队列记录矩阵计算得到。整个过程中并没有考虑数据的标每个簇最近被访问的情况。对于FIFO策略，不需签，仅是通过考虑数据的密度分布，对原有核函数的要优先队列，每次把新加入的样本放在最下行和最值进行修改。右列，然后去掉第1行第1列即可。算法2和算法3 式(4)的计算需要离线批量进行，且计算的时分别描述了静态大数据集和流数据集2种情况下的间复杂度较高，具体而言，式(4)在修改数据样本α 数据依赖核的在线学习过程。和b的核函数值时要计算k。和k。,即a和b与当前算法2使用一个优先队列记录样本簇最近被访可见数据集的核函数k值。当可见数据不变时，M 问的情况，认为一个簇中的样本被访问过一次，则该和k。这两项只需计算一次，但对数据流而言，M和簇最近被访问过，核矩阵的更新从第7至10行，需 k。是在不断变化的。但可以肯定的一点是，对于大要对所有样本扫描一次，时间复杂度是0(W2),优规模数据集和数据流，直接计算整个数据集的M和先队列的操作需要O(),其中r为簇的个数，判断 k。在计算资源上并不现实。 x。属于哪个簇的粗糙算法需要O()时间，整体的因此考虑M和k。的在线更新策略，采用限制时间复杂度为0(N2)。 M和k。的规模为N×N,则必须有D中的数据样本算法2大数据集的数据依赖核在线学习替换策略。借鉴操作系统中内存页面的调度算法，输入：对静态的大数据集应用类似近期最少使用(least re- 数据样本集：D={x1,x2,…,xx} cently used,LRU)的样本更新策略)，而对于高速当前输入样本：x。数据流应用先进先出(first in first out,FIFO)更新策核函数Gram矩阵和距离矩阵：K、M 略[3]，其中LRU是替换最近一段时间没有被使用样本空间聚类分布：Lc 过的样本，由于样本各不相同，本文采用聚类意义下记录簇最近访问的优先队列：Q 的样本使用统计。这两种策略的合理性基于以下分输出：更新后的核矩阵：K 析。对于静态大数据集，虽然数据是顺序地输入到 1)r=clus(Lc,xo）/查找样本xo的簇号学习器中，但其数据到达顺序和时序不相关，因此不 2)根据r更新优先队列Q 能使用与时间密切相关的FIFO策略，而采用LRU 3)把x。加到簇r中策略较为合理：对于数据流，其数据生成规律有可能 4)在优先队列Q的队尾所示的簇中随机去掉随时间变化而变化，因此替换存在时间最长样本的一个样本 FIFO策略是合理的。同时，数据依赖核是通过对数 5)初始化k。据的分布估计对核函数进行修改，计算这种分布需 6)令k1=(k(x0,x1),…,k(x0,xx)) 要对一定规模的数据点进行分析，因此维持一个工 7)forj=1,…,Ndo 作集M是必须的，它可被看作一个缓存，反映近一 8)k2=K(G,·) 段时间的数据分布规律。这种限制工作集大小的更 9)kko=k:-kI (I+MK)-Mk, 新策略有一定的局部性，但在有限的计算和存储资 10)end for 源下是折衷的策略。 11)用k,更新矩阵K中关于x的一行和一列算法维持一个不考虑标签的样本集D并进行 12)return K 在线更新。k。和k6的计算步聚是先查表k。,若不命算法3流数据集的数据依赖核在线学习中再计算，时间复杂度为O(N)。对于M和k。,替输入：换样本之后需要重新计算一行，然后更新一行和一数据样本集D={x1,xw 列，因此其时间复杂度也为O(N)。算法初始时计当前输入样本：xo

（∑ｉＷｉｊ－Ｗ）ｐ，ｋ关于Ｄ的Ｇｒａｍ矩阵记为ｋＤ，Ｗｉｊ＝ＲＢＦ（ｘｉ，ｘｊ），ｘｉ，ｘｊ ∈ Ｄ。则可以通过式（４）的方式对核函数ｋ进行修改，使其等距线沿Ｄ进行分布：ｋＤ（ａ，ｂ）＝ｋ（ａ，ｂ）－ｋＴａ（Ｉ＋ＭＫＤ）－１Ｍｋｂ（４）其中ａ和ｂ为任意２个训练样本， Μ 是一个在原点对称的距离矩阵，按文献［１２］的方法用图拉普拉斯矩阵计算得到。整个过程中并没有考虑数据的标签，仅是通过考虑数据的密度分布，对原有核函数的值进行修改。式（４）的计算需要离线批量进行，且计算的时间复杂度较高，具体而言，式（４）在修改数据样本ａ和ｂ的核函数值时要计算ｋａ和ｋｂ，即ａ和ｂ与当前可见数据集的核函数ｋ值。当可见数据不变时，Ｍ和ｋＤ这两项只需计算一次，但对数据流而言，Ｍ和ｋＤ是在不断变化的。但可以肯定的一点是，对于大规模数据集和数据流，直接计算整个数据集的Ｍ和ｋＤ在计算资源上并不现实。因此考虑Ｍ和ｋＤ的在线更新策略，采用限制Ｍ和ｋＤ的规模为Ｎ × Ｎ，则必须有Ｄ中的数据样本替换策略。借鉴操作系统中内存页面的调度算法，对静态的大数据集应用类似近期最少使用（ｌｅａｓｔｒｅ⁃ ｃｅｎｔｌｙｕｓｅｄ，ＬＲＵ）的样本更新策略［１３］，而对于高速数据流应用先进先出（ｆｉｒｓｔｉｎｆｉｒｓｔｏｕｔ，ＦＩＦＯ）更新策略［１３］，其中ＬＲＵ是替换最近一段时间没有被使用过的样本，由于样本各不相同，本文采用聚类意义下的样本使用统计。这两种策略的合理性基于以下分析。对于静态大数据集，虽然数据是顺序地输入到学习器中，但其数据到达顺序和时序不相关，因此不能使用与时间密切相关的ＦＩＦＯ策略，而采用ＬＲＵ策略较为合理；对于数据流，其数据生成规律有可能随时间变化而变化，因此替换存在时间最长样本的ＦＩＦＯ策略是合理的。同时，数据依赖核是通过对数据的分布估计对核函数进行修改，计算这种分布需要对一定规模的数据点进行分析，因此维持一个工作集Ｍ是必须的，它可被看作一个缓存，反映近一段时间的数据分布规律。这种限制工作集大小的更新策略有一定的局部性，但在有限的计算和存储资源下是折衷的策略。算法维持一个不考虑标签的样本集Ｄ并进行在线更新。ｋａ和ｋｂ的计算步聚是先查表ｋＤ，若不命中再计算，时间复杂度为Ｏ（Ｎ）。对于Ｍ和ｋＤ，替换样本之后需要重新计算一行，然后更新一行和一列，因此其时间复杂度也为Ｏ（Ｎ）。算法初始时计算Ｍ和ｋＤ的时间复杂度为Ｏ（Ｎ２）。一个重要问题是ＬＲＵ和ＦＩＦＯ中对输入样本的时间属性记录，对ＬＲＵ还有聚类意义下最近被使用样本的判断。本文首先用聚类的方式产生数据集Ｄ的ｒ个簇，应用在线聚类的方式更新这ｒ个簇，替换样本时每次从最久没有被更新过的簇中随机选取一个样本进行替换，使用一个长度为ｒ优先队列记录每个簇最近被访问的情况。对于ＦＩＦＯ策略，不需要优先队列，每次把新加入的样本放在最下行和最右列，然后去掉第１行第１列即可。算法２和算法３分别描述了静态大数据集和流数据集２种情况下的数据依赖核的在线学习过程。算法２使用一个优先队列记录样本簇最近被访问的情况，认为一个簇中的样本被访问过一次，则该簇最近被访问过，核矩阵的更新从第７至１０行，需要对所有样本扫描一次，时间复杂度是Ｏ（Ｎ２），优先队列的操作需要Ｏ（ｒ），其中ｒ为簇的个数，判断ｘ０属于哪个簇的粗糙算法需要Ｏ（ｒ）时间，整体的时间复杂度为Ｏ（Ｎ２）。算法２大数据集的数据依赖核在线学习输入：数据样本集：Ｄ＝｛ｘ１，ｘ２，…，ｘＮ｝当前输入样本：ｘ０核函数Ｇｒａｍ矩阵和距离矩阵：Ｋ、Μ 样本空间聚类分布：ＬＣ记录簇最近访问的优先队列：Ｑ输出：更新后的核矩阵：Ｋ１）ｒ＝ｃｌｕｓ（ＬＣ，ｘ０）／／查找样本ｘ０的簇号２）根据ｒ更新优先队列Ｑ３）把ｘ０加到簇ｒ中４）在优先队列Ｑ的队尾所示的簇中随机去掉一个样本５）初始化ｋｘ０６）令ｋ１＝（ｋ（ｘ０，ｘ１），…，ｋ（ｘ０，ｘＮ））７）ｆｏｒｊ＝１，…，Ｎｄｏ８）ｋ２＝Ｋ（ｊ，·）９）ｋｋ０＝ｋ１－ｋＴ１（Ｉ＋ ΜＫ）－１Μｋ２１０）ｅｎｄｆｏｒ１１）用ｋｘ０更新矩阵Ｋ中关于ｘ０的一行和一列１２）ｒｅｔｕｒｎＫ算法３流数据集的数据依赖核在线学习输入：数据样本集Ｄ＝｛ｘ１，…ｘＮ｝当前输入样本：ｘ０第３期张钢，等：面向大数据流的半监督在线多核学习算法 ·３５９·

·360· 智能系统学报第9卷核函数Gram矩阵和距离矩阵：K、M 由MOA所生成的人工数据集被广泛用于大数据算输出：更新后的核矩阵K 法有效性的评估工作中[56。基准数据集采用 1)初始化k。 UCI数据集[)中的数据集。实验中选取MOA提供 2)k1=(k(xo,x1),…,k(xo,xw) 的其中3个生成器生成不同的人工数据集，蕴含不 3)forj=1,…,Ndo 同的数据生成规律。表1和2分别展示了人工数据 4)k2=KG,·) 集和UCI基准数据集的主要信息。MOA序列生成 5)k=k-k (I+MK)Mk2 器生成的3个人工数据集，以数据记录生成时间顺 6)end for 序保存在3个单独的数据文件中，在线多核学习时 7)用k。更新矩阵K中的最后一行和最后一列顺序读取文件中的数据进行训练和测试。2个UCI 8)return K 数据集中的数据随机重排之后按顺序读入。其中数对于数据流在线核学习问题，采用FFO策略，据集M1生成20份，规模从10°~2×10'，用于评估即每次把当前的数据样本替换时间最长的数据样数据集规模与CPU处理时间的增长关系。本，因此算法3中不需要优先队列。表1MOA实验数据集的主要信息算法4半监督在线多核学习SSL-MKL Table 1 Details of MOA data sets 输入：编号生成器类型大小属性个数初始训练数据集D。输入数据样本集，D={x,y:}, MI WaveForm 10°-2×10 21 x:是样本，y:是其标签 M2 RandomRBF 10 37 输出：更新后的核矩阵K M3 SEA Concepts 10° 3 1)初始化K 表2UCl实验数据集的主要信息 2)使用批处理算法由D。学习K Table 2 Details of UCI data sets 3)for each (x;,y;)in D 编号数据集描述大小属性个数 4)if L;is not NULL then 5)Call算法1(x,y:) M4 Forest CoverType 581012 54 6)更新K M5 Poker-Hand 10 11 7)end if 在上述5个数据集上进行3组实验。第1组实 8)f静态大数据集then 验评估本文的半监督在线多核学习算法(semi-su- 9)Call算法2(K,D。,M,x,Lc,Q) pervised learning -multiple kernel learning,SSL- l0)else if数据流then MKL)的有效性，并与文献[17]中的批处理多核学 11)Cal算法3(K,Do,M,x:) 习算法及文献[9]、[18]中的有监督在线多核学习 12)end if 算法进行比较。第2组实验分析本文算法对不同规 13)更新K 模数据集处理的CPU运算时间增长与数据集大小 14)end for 之间的关系。第3组实验评估本文算法的迭代次数 15)return K 与学习器性能的变化关系，从而说明其收敛性能。为了把在线多核学习和数据依赖进行结合，算在3组实验中均采用参数随机的RBF核、多项法每读入一个数据样本x,判断是否有标签，若有标式核和三角函数核函数各100个，即m=300。第1 签，则先执行多核学习的权重值更新，再执行基于数组实验采用如下设置：对比的一般核函数采用参数据依赖的核修改：若没有标签，则仅执行核修改（算随机的RBF核和多项式核，核学习器使用标准的法2和算法3)。核修改是针对加权之后的核函数 SVM,只进行二类分类，并采用0-1损失函数评估进行。算法4描述了2部分核学习的结合过程。分类错误率。其中数据集M1的规模为10。在M 3实验结果及分析和k。的更新算法中，限制其规模N为1000个样本。在人工数据集和大数据学习的基准数据集上对第1组实验评估SSL-MKL算法有效性并与有本文算法进行有效性评估，并与现有的算法进行比监督的在线核学习算法进行比较，同时引入一个非较。人工数据集使用MOA[14的序列生成器自动生在线学习的多核学习算法作为算法有效性的基线。成，在实验中共生成了3个规模不同的人工数据集，表3给出了对比算法的基本信息

核函数Ｇｒａｍ矩阵和距离矩阵：Ｋ、 Μ 输出：更新后的核矩阵Ｋ１）初始化ｋｘ０２）ｋ１＝（ｋ（ｘ０，ｘ１），…，ｋ（ｘ０，ｘＮ））３）ｆｏｒｊ＝１，…，Ｎｄｏ４）ｋ２＝Ｋ（ｊ，·）５）ｋｘ０＝ｋ１－ｋＴ１（Ｉ＋ＭＫ）－１Ｍｋ２６）ｅｎｄｆｏｒ７）用ｋｘ０更新矩阵Ｋ中的最后一行和最后一列８）ｒｅｔｕｒｎＫ对于数据流在线核学习问题，采用ＦＩＦＯ策略，即每次把当前的数据样本替换时间最长的数据样本，因此算法３中不需要优先队列。算法４半监督在线多核学习ＳＳＬ⁃ＭＫＬ输入：初始训练数据集Ｄ０输入数据样本集，Ｄ＝｛ｘｉ，ｙｉ｝，ｘｉ是样本，ｙｉ是其标签输出：更新后的核矩阵Ｋ１）初始化Ｋ２）使用批处理算法由Ｄ０学习Ｋ３）ｆｏｒｅａｃｈ（ｘｉ，ｙｉ）ｉｎＤ４）ｉｆＬｉｉｓｎｏｔＮＵＬＬｔｈｅｎ５）Ｃａｌｌ算法１（ｘｉ，ｙｉ）６）更新Ｋ７）ｅｎｄｉｆ８）ｉｆ静态大数据集ｔｈｅｎ９）Ｃａｌｌ算法２（Ｋ，Ｄ０，Ｍ，ｘｉ，ＬＣ，Ｑ）１０）ｅｌｓｅｉｆ数据流ｔｈｅｎ１１）Ｃａｌｌ算法３（Ｋ，Ｄ０，Ｍ，ｘｉ）１２）ｅｎｄｉｆ１３）更新Ｋ１４）ｅｎｄｆｏｒ１５）ｒｅｔｕｒｎＫ为了把在线多核学习和数据依赖进行结合，算法每读入一个数据样本ｘ，判断是否有标签，若有标签，则先执行多核学习的权重值更新，再执行基于数据依赖的核修改；若没有标签，则仅执行核修改（算法２和算法３）。核修改是针对加权之后的核函数进行。算法４描述了２部分核学习的结合过程。３实验结果及分析在人工数据集和大数据学习的基准数据集上对本文算法进行有效性评估，并与现有的算法进行比较。人工数据集使用ＭＯＡ［１４］的序列生成器自动生成，在实验中共生成了３个规模不同的人工数据集，由ＭＯＡ所生成的人工数据集被广泛用于大数据算法有效性的评估工作中［１５ ⁃ １６］。基准数据集采用ＵＣＩ数据集［１９］中的数据集。实验中选取ＭＯＡ提供的其中３个生成器生成不同的人工数据集，蕴含不同的数据生成规律。表１和２分别展示了人工数据集和ＵＣＩ基准数据集的主要信息。ＭＯＡ序列生成器生成的３个人工数据集，以数据记录生成时间顺序保存在３个单独的数据文件中，在线多核学习时顺序读取文件中的数据进行训练和测试。２个ＵＣＩ数据集中的数据随机重排之后按顺序读入。其中数据集Ｍ１生成２０份，规模从１０６～２ × １０７，用于评估数据集规模与ＣＰＵ处理时间的增长关系。表１ＭＯＡ实验数据集的主要信息Ｔａｂｌｅ１ＤｅｔａｉｌｓｏｆＭＯＡｄａｔａｓｅｔｓ编号生成器类型大小属性个数Ｍ１ＷａｖｅＦｏｒｍ１０６～２×１０７２１Ｍ２ＲａｎｄｏｍＲＢＦ１０６３７Ｍ３ＳＥＡＣｏｎｃｅｐｔｓ１０６２５表２ＵＣＩ实验数据集的主要信息Ｔａｂｌｅ２ＤｅｔａｉｌｓｏｆＵＣＩｄａｔａｓｅｔｓ编号数据集描述大小属性个数Ｍ４ＦｏｒｅｓｔＣｏｖｅｒＴｙｐｅ５８１０１２５４Ｍ５Ｐｏｋｅｒ⁃Ｈａｎｄ１０７１１在上述５个数据集上进行３组实验。第１组实验评估本文的半监督在线多核学习算法（ｓｅｍｉ⁃ｓｕ⁃ ｐｅｒｖｉｓｅｄｌｅａｒｎｉｎｇ ⁃ ｍｕｌｔｉｐｌｅｋｅｒｎｅｌｌｅａｒｎｉｎｇ，ＳＳＬ⁃ ＭＫＬ）的有效性，并与文献［１７］中的批处理多核学习算法及文献［９］、［１８］中的有监督在线多核学习算法进行比较。第２组实验分析本文算法对不同规模数据集处理的ＣＰＵ运算时间增长与数据集大小之间的关系。第３组实验评估本文算法的迭代次数与学习器性能的变化关系，从而说明其收敛性能。在３组实验中均采用参数随机的ＲＢＦ核、多项式核和三角函数核函数各１００个，即ｍ＝３００。第１组实验采用如下设置：对比的一般核函数采用参数随机的ＲＢＦ核和多项式核，核学习器使用标准的ＳＶＭ，只进行二类分类，并采用０－１损失函数评估分类错误率。其中数据集Ｍ１的规模为１０６。在 Μ 和ｋＤ的更新算法中，限制其规模Ｎ为１０００个样本。第１组实验评估ＳＳＬ⁃ＭＫＬ算法有效性并与有监督的在线核学习算法进行比较，同时引入一个非在线学习的多核学习算法作为算法有效性的基线。表３给出了对比算法的基本信息。 ·３６０· 智能系统学报第９卷

第3期张钢，等：面向大数据流的半监督在线多核学习算法 ·361. 表3实验对比算法的基本信息训练数据。因此可以接受在线学习方法性能稍差于 Table 3 Details of evaluation methods for comparison 批处理方法。但批处理方法难以处理大规模的数据编号参考文献数据集描述集，正如本组实验的第2部分即将展示的（图3），这采用感知器与Hedge算正是在线学习方法的优势[02]。下面给出F1、2 法融合的在线核学习算与SSL-MKL在M4和M5整个数据集上的结果。训 [17] 全部法，优化过程采用随机练集与测试集的规模按原数据集大小的3：7，对于梯度下降法 SSL-MKL采用转导学习的方式[22】，即把整个测试在线多核学习算法，其集作为无标记集。同样对数据集进行10次随机划 F2 [9] 全部基本原理同算法1，但分，记录每次分类正确率并计算方差，图3给出了在权重更新策略不同数据集M4和M5上算法正确率的比较结果。 3 [18] M4、M5 批处理多核学习算法 0.8i F1与F2可以在5个实验数据集上运行，F3不 0.6 能运行在数据流集上，即只能在M4和M5上运行， F 因此可以把M1、M2、M3与M4、M5分别进行比较。 SSL-MKL 由于算法F3无法直接处理M4和M5这样大规 0.2 模的数据集，只能采用随机抽样的方法，限制训练集的大小才可以使用批处理算法。本组实验对训练数 M M 据集进行无回放抽样，抽样规模为10000。其余2 数据集个算法也在此抽样数据集上进行性能测试，对本文图3M4和M5的实验结果（完整数据集）的SSL-MKL算法，从测试数据集中抽取同样规模的 Fig.3 Evaluation results of M4 and M5(full data set size) 数据集作为算法的无标记数据。考虑到抽样的随机从图3中可看出，由于有完整的训练集，各个算性，对批处理核学习进行10次抽样训练并记录10 法的正确率相比图2有所提升。SSL-MKL算法相次的分类正确率的平均值。图2展示了在M4和比F1和F2的提升幅度比限制规模数据集时更大， M5上的实验结果。表明数据依赖核对于数据分布的估计能够提升核函 0.8f 数的性能。最后给出数据流集(M1、M2、M3)的测试结果。 0.6 F 测试过程是把训练样本按其顺序号依次输入学习模解 ■F2 0.4 ■F 型进行训练：在接受测试样本时，SSL-MKL同时进 ■SSL-MKL 行无监督学习，而1和F2,则仅输出测试结果。由 0.2 于数据集有顺序，截取前面的30%作为训练集，后面70%作为测试集。表4给出了实验中各算法在数 M M 数据集据集上正确率的比较。图2M4和M5的实验结果（限制数据集规模）表4各算法在流数据集上正确率的比较 Fig.2 The main framework of online multiple kernel Table 4 Accuracy comparison on stream data sets learning M1 M2 M3 从图2中可以看到，SSL-MKL不比F3差太多， F1 0.731 0.788 0.775 但比F1和F2好，表明SSL-MKL对于规模受限制的 F2 0.742 0.781 0.770 数据集的性能较有监督的在线核学习算法(F1和 SSL-MKL 0.768 0.796 0.802 F2)好，归功于SSL-MKL算法中的无监督学习对最终学习器性能提升的贡献，说明整个半监督学习框从表4中可知SSL-MKL算法在3个数据集上架的有效性。另一方面，注意到3个在线算法的性都有最好的表现。第2组实验分析本文算法对不同能均不如批处理算法F3,这是可以理解的，因为在规模数据集处理的CPU运算时间增长与数据集大线学习算法每次仅能“看到”当前的训练样本，且基小之间的关系。为了精确控制实验数据集的规模，本上不存储(SSL-MKL算法中的工作集仅是有限度本组实验使用了20种规模依次等距递增的M1数存储)，批处理方法在整个训练期间能访问所有的据集（以10为递增单位），记录了F2和SSL-MKL

表３实验对比算法的基本信息Ｔａｂｌｅ３Ｄｅｔａｉｌｓｏｆｅｖａｌｕａｔｉｏｎｍｅｔｈｏｄｓｆｏｒｃｏｍｐａｒｉｓｏｎ编号参考文献数据集描述Ｆ１［１７］全部采用感知器与Ｈｅｄｇｅ算法融合的在线核学习算法，优化过程采用随机梯度下降法Ｆ２［９］全部在线多核学习算法，其基本原理同算法１，但权重更新策略不同Ｆ３［１８］Ｍ４、Ｍ５批处理多核学习算法Ｆ１与Ｆ２可以在５个实验数据集上运行，Ｆ３不能运行在数据流集上，即只能在Ｍ４和Ｍ５上运行，因此可以把Ｍ１、Ｍ２、Ｍ３与Ｍ４、Ｍ５分别进行比较。由于算法Ｆ３无法直接处理Ｍ４和Ｍ５这样大规模的数据集，只能采用随机抽样的方法，限制训练集的大小才可以使用批处理算法。本组实验对训练数据集进行无回放抽样，抽样规模为１００００。其余２个算法也在此抽样数据集上进行性能测试，对本文的ＳＳＬ⁃ＭＫＬ算法，从测试数据集中抽取同样规模的数据集作为算法的无标记数据。考虑到抽样的随机性，对批处理核学习进行１０次抽样训练并记录１０次的分类正确率的平均值。图２展示了在Ｍ４和Ｍ５上的实验结果。图２Ｍ４和Ｍ５的实验结果（限制数据集规模）Ｆｉｇ．２Ｔｈｅｍａｉｎｆｒａｍｅｗｏｒｋｏｆｏｎｌｉｎｅｍｕｌｔｉｐｌｅｋｅｒｎｅｌｌｅａｒｎｉｎｇ从图２中可以看到，ＳＳＬ⁃ＭＫＬ不比Ｆ３差太多，但比Ｆ１和Ｆ２好，表明ＳＳＬ⁃ＭＫＬ对于规模受限制的数据集的性能较有监督的在线核学习算法（Ｆ１和Ｆ２）好，归功于ＳＳＬ⁃ＭＫＬ算法中的无监督学习对最终学习器性能提升的贡献，说明整个半监督学习框架的有效性。另一方面，注意到３个在线算法的性能均不如批处理算法Ｆ３，这是可以理解的，因为在线学习算法每次仅能“看到”当前的训练样本，且基本上不存储（ＳＳＬ⁃ＭＫＬ算法中的工作集仅是有限度存储），批处理方法在整个训练期间能访问所有的训练数据。因此可以接受在线学习方法性能稍差于批处理方法。但批处理方法难以处理大规模的数据集，正如本组实验的第２部分即将展示的（图３），这正是在线学习方法的优势［２０⁃２１］。下面给出Ｆ１、Ｆ２与ＳＳＬ⁃ＭＫＬ在Ｍ４和Ｍ５整个数据集上的结果。训练集与测试集的规模按原数据集大小的３：７，对于ＳＳＬ⁃ＭＫＬ采用转导学习的方式［２２⁃２３］，即把整个测试集作为无标记集。同样对数据集进行１０次随机划分，记录每次分类正确率并计算方差，图３给出了在数据集Ｍ４和Ｍ５上算法正确率的比较结果。图３Ｍ４和Ｍ５的实验结果（完整数据集）Ｆｉｇ．３ＥｖａｌｕａｔｉｏｎｒｅｓｕｌｔｓｏｆＭ４ａｎｄＭ５（ｆｕｌｌｄａｔａｓｅｔｓｉｚｅ）从图３中可看出，由于有完整的训练集，各个算法的正确率相比图２有所提升。ＳＳＬ⁃ＭＫＬ算法相比Ｆ１和Ｆ２的提升幅度比限制规模数据集时更大，表明数据依赖核对于数据分布的估计能够提升核函数的性能。最后给出数据流集（Ｍ１、Ｍ２、Ｍ３）的测试结果。测试过程是把训练样本按其顺序号依次输入学习模型进行训练；在接受测试样本时，ＳＳＬ⁃ＭＫＬ同时进行无监督学习，而Ｆ１和Ｆ２，则仅输出测试结果。由于数据集有顺序，截取前面的３０％作为训练集，后面７０％作为测试集。表４给出了实验中各算法在数据集上正确率的比较。表４各算法在流数据集上正确率的比较Ｔａｂｌｅ４ＡｃｃｕｒａｃｙｃｏｍｐａｒｉｓｏｎｏｎｓｔｒｅａｍｄａｔａｓｅｔｓＭ１Ｍ２Ｍ３Ｆ１０．７３１０．７８８０．７７５Ｆ２０．７４２０．７８１０．７７０ＳＳＬ⁃ＭＫＬ０．７６８０．７９６０．８０２从表４中可知ＳＳＬ⁃ＭＫＬ算法在３个数据集上都有最好的表现。第２组实验分析本文算法对不同规模数据集处理的ＣＰＵ运算时间增长与数据集大小之间的关系。为了精确控制实验数据集的规模，本组实验使用了２０种规模依次等距递增的Ｍ１数据集（以１０６为递增单位），记录了Ｆ２和ＳＳＬ⁃ＭＫＬ第３期张钢，等：面向大数据流的半监督在线多核学习算法 ·３６１·

·362· 智能系统学报第9卷算法的核学习时间，图4给出了运行时间对比。结束语 30*10 SSL-MKL 大数据环境下的多核学习问题是大数据机器学 20 习的一个基础性问题，比单纯通过改进训练算法效率构建学习器有更重要的意义。本文提出了一种适用于大数据环境下的在线多核学习算法，考虑了数 10 15 20*10 据的有监督信息以及数据的空间分布，并应用数据依赖核的构建方法，对所学习得到的核函数进行无数据集规模监督修正，使其具有更好的泛化能力。算法基于在图4不同数据集规模下的算法运行时间比较线学习的框架进行增量学习，仅需对训练数据进行 Fig4 CPU Time comparison for different data set sizes 一次扫描，就可以更新核函数，并不需要对历史数据从图4中可以看出，SSL-MKL算法的运算时间进行保存。算法适用于高速数据流，以及训练数据与数据集的规模成线性关系，并且SSL-MKL算法的规模很大以致不能全部加载到内存中的情形。在由有监督学习部分的复杂性与算法F2同阶，从图4中著名的大数据流分析工具MOA生成的人工数据集可以看出其运算时间的增长率与数据集规模有较好和UCI的大数据集上进行算法有效性评估，表明了的线性关系，具有较好的可扩展性，能适用于更大规本文方法能学习得到与数据集规律相一致的核函模的数据集的分析和应用问题。数，在分类器上有较好的效果，且本文算法是一种在第3组实验评估算法SSL-MKL的迭代次数与线学习算法，支持数据增量更新。此外，本文的算法学习器性能的变化关系，从而说明其收敛性。设置能同时处理有标记和无标记数据，对于数据概念标测试集为整个数据集的5%，通过随机有回放抽取记稀疏的高速数据流可以进行半监督学习，有很好的方式生成。训练集为整个数据集的30%，与第1 的扩展性。组实验相同。每输入5%的训练数据，运行一次测试并记录结果。上述过程重复10次取平均正确率。参考文献：并以F3在限制数据集规模的实验（第1组）中的正 [1]GOPALKRISHNAN V,STEIER D,LEWIS H,et al.Big 确率作为基线进行对比。图5给出了在M4数据集 data,big business:bridging the gap[C]//Proceedings of 上算法正确率迭代收敛性的实验结果。 the Ist International Workshop on Big Data,Streams and 0.8 Heterogeneous Source Mining:Algorithms,Systems,Pro- gramming Models and Applications.Beijing,China,2012: 0.6 7-11. 0.4 SSL-MKL [2]YANG H,FONG S.Incrementally optimized decision tree 0.2 for noisy big data[C]//Proceedings of the Ist International Workshop on Big Data,Streams and Heterogeneous Source 00.050.100.150.200.250.300.35 Mining:Algorithms,Systems,Programming Models and 输入训练样本比例 Applications.Beijing,China,2012:36-44. 图5算法正确率的收敛性 [3]JORDAN M I.Divide-and-conquer and statistical inference Fig.5 The convergence of accuracy of the proposed al- for big data C//Proceedings of the 18th ACM SIGKDD in- gorithm ternational conference on Knowledge discovery and data 在图5中，F3表示离线批处理核学习方法得到 mining.Beijing,China,2012:4-4. 的核函数在SVM上的测试正确率曲线，SSL-MKL代 [4]ACAR U A,CHEN Y.Streaming big data with self-adjus- 表本文方法。每输入一个样本算法1就会运行一 ting computation[C]//Proceedings of the 2013 Proceedings 次，核函数同时更新一次。从图5中可以看出，在开 of the 2013 Workshop on Data driven Functional Program- 始阶段，仅需读入少量样本(5%)，SSL-MKL的正确 ming.Rome,Italy,2013:15-18. 率会大幅上升，随后会比较稳定收敛于一个较优的 [5]ARI I,CELEBI O F,OLMEZOGULLARI E.Data stream analytics and mining in the cloud [C]//Proceedings of the 值。当输入数据的内在生成规律相对稳定时，SSL- 2012 IEEE 4th International Conference on Cloud Compu- MKL对核函数的更新会在一段时间内（如图5中输 ting Technology and Science.Washington,DC,USA, 入15%数据之后)稳定下来，从而产生较稳定的测 2012:857-862. 试结果。 [6]AGMON S.The relaxation method for linear inequalities

算法的核学习时间，图４给出了运行时间对比。图４不同数据集规模下的算法运行时间比较Ｆｉｇ．４ＣＰＵＴｉｍｅｃｏｍｐａｒｉｓｏｎｆｏｒｄｉｆｆｅｒｅｎｔｄａｔａｓｅｔｓｉｚｅｓ从图４中可以看出，ＳＳＬ⁃ＭＫＬ算法的运算时间与数据集的规模成线性关系，并且ＳＳＬ⁃ＭＫＬ算法的有监督学习部分的复杂性与算法Ｆ２同阶，从图４中可以看出其运算时间的增长率与数据集规模有较好的线性关系，具有较好的可扩展性，能适用于更大规模的数据集的分析和应用问题。第３组实验评估算法ＳＳＬ⁃ＭＫＬ的迭代次数与学习器性能的变化关系，从而说明其收敛性。设置测试集为整个数据集的５％，通过随机有回放抽取的方式生成。训练集为整个数据集的３０％，与第１组实验相同。每输入５％的训练数据，运行一次测试并记录结果。上述过程重复１０次取平均正确率。并以Ｆ３在限制数据集规模的实验（第１组）中的正确率作为基线进行对比。图５给出了在Ｍ４数据集上算法正确率迭代收敛性的实验结果。图５算法正确率的收敛性Ｆｉｇ．５Ｔｈｅｃｏｎｖｅｒｇｅｎｃｅｏｆａｃｃｕｒａｃｙｏｆｔｈｅｐｒｏｐｏｓｅｄａｌ⁃ ｇｏｒｉｔｈｍ在图５中，Ｆ３表示离线批处理核学习方法得到的核函数在ＳＶＭ上的测试正确率曲线，ＳＳＬ⁃ＭＫＬ代表本文方法。每输入一个样本算法１就会运行一次，核函数同时更新一次。从图５中可以看出，在开始阶段，仅需读入少量样本（５％），ＳＳＬ⁃ＭＫＬ的正确率会大幅上升，随后会比较稳定收敛于一个较优的值。当输入数据的内在生成规律相对稳定时，ＳＳＬ⁃ ＭＫＬ对核函数的更新会在一段时间内（如图５中输入１５％数据之后）稳定下来，从而产生较稳定的测试结果。４结束语大数据环境下的多核学习问题是大数据机器学习的一个基础性问题，比单纯通过改进训练算法效率构建学习器有更重要的意义。本文提出了一种适用于大数据环境下的在线多核学习算法，考虑了数据的有监督信息以及数据的空间分布，并应用数据依赖核的构建方法，对所学习得到的核函数进行无监督修正，使其具有更好的泛化能力。算法基于在线学习的框架进行增量学习，仅需对训练数据进行一次扫描，就可以更新核函数，并不需要对历史数据进行保存。算法适用于高速数据流，以及训练数据规模很大以致不能全部加载到内存中的情形。在由著名的大数据流分析工具ＭＯＡ生成的人工数据集和ＵＣＩ的大数据集上进行算法有效性评估，表明了本文方法能学习得到与数据集规律相一致的核函数，在分类器上有较好的效果，且本文算法是一种在线学习算法，支持数据增量更新。此外，本文的算法能同时处理有标记和无标记数据，对于数据概念标记稀疏的高速数据流可以进行半监督学习，有很好的扩展性。参考文献：［１］ＧＯＰＡＬＫＲＩＳＨＮＡＮＶ，ＳＴＥＩＥＲＤ，ＬＥＷＩＳＨ，ｅｔａｌ．Ｂｉｇｄａｔａ，ｂｉｇｂｕｓｉｎｅｓｓ：ｂｒｉｄｇｉｎｇｔｈｅｇａｐ［Ｃ］／／Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ１ｓｔＩｎｔｅｒｎａｔｉｏｎａｌＷｏｒｋｓｈｏｐｏｎＢｉｇＤａｔａ，ＳｔｒｅａｍｓａｎｄＨｅｔｅｒｏｇｅｎｅｏｕｓＳｏｕｒｃｅＭｉｎｉｎｇ：Ａｌｇｏｒｉｔｈｍｓ，Ｓｙｓｔｅｍｓ，Ｐｒｏ⁃ ｇｒａｍｍｉｎｇＭｏｄｅｌｓａｎｄＡｐｐｌｉｃａｔｉｏｎｓ．Ｂｅｉｊｉｎｇ，Ｃｈｉｎａ，２０１２：７⁃１１．［２］ＹＡＮＧＨ，ＦＯＮＧＳ．Ｉｎｃｒｅｍｅｎｔａｌｌｙｏｐｔｉｍｉｚｅｄｄｅｃｉｓｉｏｎｔｒｅｅｆｏｒｎｏｉｓｙｂｉｇｄａｔａ［Ｃ］／／Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ１ｓｔＩｎｔｅｒｎａｔｉｏｎａｌＷｏｒｋｓｈｏｐｏｎＢｉｇＤａｔａ，ＳｔｒｅａｍｓａｎｄＨｅｔｅｒｏｇｅｎｅｏｕｓＳｏｕｒｃｅＭｉｎｉｎｇ：Ａｌｇｏｒｉｔｈｍｓ，Ｓｙｓｔｅｍｓ，ＰｒｏｇｒａｍｍｉｎｇＭｏｄｅｌｓａｎｄＡｐｐｌｉｃａｔｉｏｎｓ．Ｂｅｉｊｉｎｇ，Ｃｈｉｎａ，２０１２：３６⁃４４．［３］ＪＯＲＤＡＮＭＩ．Ｄｉｖｉｄｅ⁃ａｎｄ⁃ｃｏｎｑｕｅｒａｎｄｓｔａｔｉｓｔｉｃａｌｉｎｆｅｒｅｎｃｅｆｏｒｂｉｇｄａｔａ［Ｃ］／／Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ１８ｔｈＡＣＭＳＩＧＫＤＤｉｎ⁃ ｔｅｒｎａｔｉｏｎａｌｃｏｎｆｅｒｅｎｃｅｏｎＫｎｏｗｌｅｄｇｅｄｉｓｃｏｖｅｒｙａｎｄｄａｔａｍｉｎｉｎｇ．Ｂｅｉｊｉｎｇ，Ｃｈｉｎａ，２０１２：４⁃４．［４］ＡＣＡＲＵＡ，ＣＨＥＮＹ．Ｓｔｒｅａｍｉｎｇｂｉｇｄａｔａｗｉｔｈｓｅｌｆ⁃ａｄｊｕｓ⁃ ｔｉｎｇｃｏｍｐｕｔａｔｉｏｎ［Ｃ］／／Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ２０１３Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ２０１３ＷｏｒｋｓｈｏｐｏｎＤａｔａｄｒｉｖｅｎＦｕｎｃｔｉｏｎａｌＰｒｏｇｒａｍ⁃ ｍｉｎｇ．Ｒｏｍｅ，Ｉｔａｌｙ，２０１３：１５⁃１８．［５］ＡＲＩＩ，ＣＥＬＥＢＩＯＦ，ＯＬＭＥＺＯＧＵＬＬＡＲＩＥ．Ｄａｔａｓｔｒｅａｍａｎａｌｙｔｉｃｓａｎｄｍｉｎｉｎｇｉｎｔｈｅｃｌｏｕｄ［Ｃ］／／Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ２０１２ＩＥＥＥ４ｔｈＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＣｌｏｕｄＣｏｍｐｕ⁃ ｔｉｎｇＴｅｃｈｎｏｌｏｇｙａｎｄＳｃｉｅｎｃｅ．Ｗａｓｈｉｎｇｔｏｎ，ＤＣ，ＵＳＡ，２０１２：８５７⁃８６２．［６］ＡＧＭＯＮＳ．Ｔｈｅｒｅｌａｘａｔｉｏｎｍｅｔｈｏｄｆｏｒｌｉｎｅａｒｉｎｅｑｕａｌｉｔｉｅｓ ·３６２· 智能系统学报第９卷

第3期张钢，等：面向大数据流的半监督在线多核学习算法 ·363. [J].Canadian Journal of Mathematics,1954,6(3):393- USA,2011:591-599. 404」 [17]FRANCESCO O,LUO Jie,BARBARA C.Multi kerel [7]GONEN M,ALPAYD E.Multiple kernel learning algo- learning with online-batch optimization[J].Joural of Ma- rithms [J].Journal of Machine Learning Research,2011 chine Learning Research,2012(13):227-253. (12):2211-2268. [18]STEVEN C H,RONG Jin,ZHAO Peilin,et al.Online [8 ORABONA F,JIE L,CAPUTO B.Multi kernel learning multiple kernel classification [J].Machine Learning, with online-batch optimization [J].Journal of Machine 2013,90(2):289-316. Learning Research,2012(13):227-253. [l9]UCI数据集：htp:/archive.ics.uci.edu/ml/[EB/OL]. [9]JIN R,HOI S C H,YANG T,et al.Online multiple kernel [2014-03-18]. learning:algorithms and mistake bounds[J].Algorithmic [20]YANG Haiqin,MICHAEL R L,IRWIN K.Efficient online Learning Theory,2010(6331):390-404. learning for multitask feature selection[J].ACM Transac- [10]QIN C,RUSU F.Scalable I/O-bound parallel incremental tions on Knowledge Discovery from Data,2013,7(2):6- gradient descent for big data analytics in GLADE[C]// 27. Proceedings of the Second Workshop on Data Analytics in [21]CHEN Jianhui,LIU Ji,YE Jieping.Learning incoherent the Cloud.New York,USA.2013:16-20. sparse and low-rank patterns from multiple tasks[J].ACM [11 SINDHWANI V,NIYOGI P,BELKIN M.Beyond the Transactions on Knowledge Discovery from Data,2012,5 point cloud:from transductive to semi-supervised learning (4):22-31. [C]//Proceedings of the 22nd International Conference [22]HONG Chaoqun,ZHU Jianke.Hypergraph-based multi-ex- on Machine Learning.Bonn,Germany,2005:824-831. ample ranking with sparse representation for transductive [12]李宏伟，刘扬，卢汉清，等.结合半监督核的高斯过程 learning image retrieval [J].Neurocomputing,2013 分[J].自动化学报，2009,35(7)：888-895. (101):94-103. LI Hongwei,LIU Yang,LU Hanqing,et al.Gaussian [23]YU Jun,BIAN Wei,SONG Mingli,et al.Graph based processes classification combined with semi-supervised ker- transductive learning for cartoon correspondence construc- nels[J].Acta Automatica Sinica,2009,35(7):888-895. tion[J].Neurocomputing,2012(79):105-114. [13]邹恒明.计算机的心智：操作系统之哲学原理[M].北作者简介：京：机械工业出版社，2012：100-102. 张钢，男，1979年生，讲师，博士研 [14]BIFET A,HOLMES G,KIRKBY R,et al.MOA:massive 究生，CCF会员。主要研究方向为机器 online analysis[J].Journal of Machine Learning Research, 学习、数据挖掘和生物信息学，参与国 2010(11):1601-1604. 家自然科学基金项目1项，广东省自然 [15]KREMER H,KRANEN P,JANSEN T,et al.An effective 科学基金团队项目1项，获得软件著作 evaluation measure for clustering on evolving data streams 权2项，专利4项。发表学术论文40余 [C]//Proceedings of the 17th ACM SIGKDD International 篇，其中被SCI检索3篇，EI检索20余篇， Conference on Knowledge Discovery and Data Mining.San Diego,California,USA,2011:868-876. [16]BIFET A,HOLMES G,PFAHRINGER B,et al.Mining 谢晓珊，女，1990年生，硕士研究 frequent closed graphs on evolving data streams[C]//Pro- 生，发表学术论文3篇，主要研究方向 ceedings of the 17th ACM SIGKDD International Confer- 为机器学习、数据挖掘、模式识别和生 ence on Knowledge Discovery and Data Mining.San Diego, 物医学图像处理

［Ｊ］．ＣａｎａｄｉａｎＪｏｕｒｎａｌｏｆＭａｔｈｅｍａｔｉｃｓ，１９５４，６（３）：３９３⁃ ４０４．［７］ＧＯＮＥＮＭ，ＡＬＰＡＹＤＥ．Ｍｕｌｔｉｐｌｅｋｅｒｎｅｌｌｅａｒｎｉｎｇａｌｇｏ⁃ ｒｉｔｈｍｓ［Ｊ］．ＪｏｕｒｎａｌｏｆＭａｃｈｉｎｅＬｅａｒｎｉｎｇＲｅｓｅａｒｃｈ，２０１１（１２）：２２１１⁃２２６８．［８］ＯＲＡＢＯＮＡＦ，ＪＩＥＬ，ＣＡＰＵＴＯＢ．Ｍｕｌｔｉｋｅｒｎｅｌｌｅａｒｎｉｎｇｗｉｔｈｏｎｌｉｎｅ⁃ｂａｔｃｈｏｐｔｉｍｉｚａｔｉｏｎ［Ｊ］．ＪｏｕｒｎａｌｏｆＭａｃｈｉｎｅＬｅａｒｎｉｎｇＲｅｓｅａｒｃｈ，２０１２（１３）：２２７⁃２５３．［９］ＪＩＮＲ，ＨＯＩＳＣＨ，ＹＡＮＧＴ，ｅｔａｌ．Ｏｎｌｉｎｅｍｕｌｔｉｐｌｅｋｅｒｎｅｌｌｅａｒｎｉｎｇ：ａｌｇｏｒｉｔｈｍｓａｎｄｍｉｓｔａｋｅｂｏｕｎｄｓ［Ｊ］．ＡｌｇｏｒｉｔｈｍｉｃＬｅａｒｎｉｎｇＴｈｅｏｒｙ，２０１０（６３３１）：３９０⁃４０４．［１０］ＱＩＮＣ，ＲＵＳＵＦ．ＳｃａｌａｂｌｅＩ／Ｏ⁃ｂｏｕｎｄｐａｒａｌｌｅｌｉｎｃｒｅｍｅｎｔａｌｇｒａｄｉｅｎｔｄｅｓｃｅｎｔｆｏｒｂｉｇｄａｔａａｎａｌｙｔｉｃｓｉｎＧＬＡＤＥ［Ｃ］／／ＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅＳｅｃｏｎｄＷｏｒｋｓｈｏｐｏｎＤａｔａＡｎａｌｙｔｉｃｓｉｎｔｈｅＣｌｏｕｄ．ＮｅｗＹｏｒｋ，ＵＳＡ，２０１３：１６⁃２０．［１１］ＳＩＮＤＨＷＡＮＩＶ，ＮＩＹＯＧＩＰ，ＢＥＬＫＩＮＭ．Ｂｅｙｏｎｄｔｈｅｐｏｉｎｔｃｌｏｕｄ：ｆｒｏｍｔｒａｎｓｄｕｃｔｉｖｅｔｏｓｅｍｉ⁃ｓｕｐｅｒｖｉｓｅｄｌｅａｒｎｉｎｇ［Ｃ］／／Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ２２ｎｄＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＭａｃｈｉｎｅＬｅａｒｎｉｎｇ．Ｂｏｎｎ，Ｇｅｒｍａｎｙ，２００５：８２４⁃８３１．［１２］李宏伟，刘扬，卢汉清，等．结合半监督核的高斯过程分［Ｊ］．自动化学报，２００９，３５（７）：８８８⁃８９５．ＬＩＨｏｎｇｗｅｉ，ＬＩＵＹａｎｇ，ＬＵＨａｎｑｉｎｇ，ｅｔａｌ．Ｇａｕｓｓｉａｎｐｒｏｃｅｓｓｅｓｃｌａｓｓｉｆｉｃａｔｉｏｎｃｏｍｂｉｎｅｄｗｉｔｈｓｅｍｉ⁃ｓｕｐｅｒｖｉｓｅｄｋｅｒ⁃ ｎｅｌｓ［Ｊ］．ＡｃｔａＡｕｔｏｍａｔｉｃａＳｉｎｉｃａ，２００９，３５（７）：８８８⁃８９５．［１３］邹恒明．计算机的心智：操作系统之哲学原理［Ｍ］．北京：机械工业出版社，２０１２：１００⁃１０２．［１４］ＢＩＦＥＴＡ，ＨＯＬＭＥＳＧ，ＫＩＲＫＢＹＲ，ｅｔａｌ．ＭＯＡ：ｍａｓｓｉｖｅｏｎｌｉｎｅａｎａｌｙｓｉｓ［Ｊ］．ＪｏｕｒｎａｌｏｆＭａｃｈｉｎｅＬｅａｒｎｉｎｇＲｅｓｅａｒｃｈ，２０１０（１１）：１６０１⁃１６０４．［１５］ＫＲＥＭＥＲＨ，ＫＲＡＮＥＮＰ，ＪＡＮＳＥＮＴ，ｅｔａｌ．Ａｎｅｆｆｅｃｔｉｖｅｅｖａｌｕａｔｉｏｎｍｅａｓｕｒｅｆｏｒｃｌｕｓｔｅｒｉｎｇｏｎｅｖｏｌｖｉｎｇｄａｔａｓｔｒｅａｍｓ［Ｃ］／／Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ１７ｔｈＡＣＭＳＩＧＫＤＤＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＫｎｏｗｌｅｄｇｅＤｉｓｃｏｖｅｒｙａｎｄＤａｔａＭｉｎｉｎｇ．ＳａｎＤｉｅｇｏ，Ｃａｌｉｆｏｒｎｉａ，ＵＳＡ，２０１１：８６８⁃８７６．［１６］ＢＩＦＥＴＡ，ＨＯＬＭＥＳＧ，ＰＦＡＨＲＩＮＧＥＲＢ，ｅｔａｌ．Ｍｉｎｉｎｇｆｒｅｑｕｅｎｔｃｌｏｓｅｄｇｒａｐｈｓｏｎｅｖｏｌｖｉｎｇｄａｔａｓｔｒｅａｍｓ［Ｃ］／／Ｐｒｏ⁃ ｃｅｅｄｉｎｇｓｏｆｔｈｅ１７ｔｈＡＣＭＳＩＧＫＤＤＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒ⁃ ｅｎｃｅｏｎＫｎｏｗｌｅｄｇｅＤｉｓｃｏｖｅｒｙａｎｄＤａｔａＭｉｎｉｎｇ．ＳａｎＤｉｅｇｏ，ＵＳＡ，２０１１：５９１⁃５９９．［１７］ＦＲＡＮＣＥＳＣＯＯ，ＬＵＯＪｉｅ，ＢＡＲＢＡＲＡＣ．Ｍｕｌｔｉｋｅｒｎｅｌｌｅａｒｎｉｎｇｗｉｔｈｏｎｌｉｎｅ⁃ｂａｔｃｈｏｐｔｉｍｉｚａｔｉｏｎ［Ｊ］．ＪｏｕｒｎａｌｏｆＭａ⁃ ｃｈｉｎｅＬｅａｒｎｉｎｇＲｅｓｅａｒｃｈ，２０１２（１３）：２２７⁃２５３．［１８］ＳＴＥＶＥＮＣＨ，ＲＯＮＧＪｉｎ，ＺＨＡＯＰｅｉｌｉｎ，ｅｔａｌ．Ｏｎｌｉｎｅｍｕｌｔｉｐｌｅｋｅｒｎｅｌｃｌａｓｓｉｆｉｃａｔｉｏｎ［Ｊ］．ＭａｃｈｉｎｅＬｅａｒｎｉｎｇ，２０１３，９０（２）：２８９⁃３１６．［１９］ＵＣＩ数据集：ｈｔｔｐ：／／ａｒｃｈｉｖｅ．ｉｃｓ．ｕｃｉ．ｅｄｕ／ｍｌ／［ＥＢ／ＯＬ］．［２０１４⁃０３⁃１８］．［２０］ＹＡＮＧＨａｉｑｉｎ，ＭＩＣＨＡＥＬＲＬ，ＩＲＷＩＮＫ．Ｅｆｆｉｃｉｅｎｔｏｎｌｉｎｅｌｅａｒｎｉｎｇｆｏｒｍｕｌｔｉｔａｓｋｆｅａｔｕｒｅｓｅｌｅｃｔｉｏｎ［Ｊ］．ＡＣＭＴｒａｎｓａｃ⁃ ｔｉｏｎｓｏｎＫｎｏｗｌｅｄｇｅＤｉｓｃｏｖｅｒｙｆｒｏｍＤａｔａ，２０１３，７（２）：６⁃ ２７．［２１］ＣＨＥＮＪｉａｎｈｕｉ，ＬＩＵＪｉ，ＹＥＪｉｅｐｉｎｇ．Ｌｅａｒｎｉｎｇｉｎｃｏｈｅｒｅｎｔｓｐａｒｓｅａｎｄｌｏｗ⁃ｒａｎｋｐａｔｔｅｒｎｓｆｒｏｍｍｕｌｔｉｐｌｅｔａｓｋｓ［Ｊ］．ＡＣＭＴｒａｎｓａｃｔｉｏｎｓｏｎＫｎｏｗｌｅｄｇｅＤｉｓｃｏｖｅｒｙｆｒｏｍＤａｔａ，２０１２，５（４）：２２⁃３１．［２２］ＨＯＮＧＣｈａｏｑｕｎ，ＺＨＵＪｉａｎｋｅ．Ｈｙｐｅｒｇｒａｐｈ⁃ｂａｓｅｄｍｕｌｔｉ⁃ｅｘ⁃ ａｍｐｌｅｒａｎｋｉｎｇｗｉｔｈｓｐａｒｓｅｒｅｐｒｅｓｅｎｔａｔｉｏｎｆｏｒｔｒａｎｓｄｕｃｔｉｖｅｌｅａｒｎｉｎｇｉｍａｇｅｒｅｔｒｉｅｖａｌ［Ｊ］．Ｎｅｕｒｏｃｏｍｐｕｔｉｎｇ，２０１３（１０１）：９４⁃１０３．［２３］ＹＵＪｕｎ，ＢＩＡＮＷｅｉ，ＳＯＮＧＭｉｎｇｌｉ，ｅｔａｌ．Ｇｒａｐｈｂａｓｅｄｔｒａｎｓｄｕｃｔｉｖｅｌｅａｒｎｉｎｇｆｏｒｃａｒｔｏｏｎｃｏｒｒｅｓｐｏｎｄｅｎｃｅｃｏｎｓｔｒｕｃ⁃ ｔｉｏｎ［Ｊ］．Ｎｅｕｒｏｃｏｍｐｕｔｉｎｇ，２０１２（７９）：１０５⁃１１４．作者简介：张钢，男，１９７９年生，讲师，博士研究生，ＣＣＦ会员。主要研究方向为机器学习、数据挖掘和生物信息学，参与国家自然科学基金项目１项，广东省自然科学基金团队项目１项，获得软件著作权２项，专利４项。发表学术论文４０余篇，其中被ＳＣＩ检索３篇，ＥＩ检索２０余篇，谢晓珊，女，１９９０年生，硕士研究生，发表学术论文３篇，主要研究方向为机器学习、数据挖掘、模式识别和生物医学图像处理。第３期张钢，等：面向大数据流的半监督在线多核学习算法 ·３６３·

点击进入文档下载页（PDF格式）

已到末页，全文结束

点击下载（PDF格式）

浏览记录