等［７］回顾了目前的主要多核学习算法，指出大多数算法所得到核函数组合对学

正在加载图片...

第3期张钢，等：面向大数据流的半监督在线多核学习算法 ·357. 等)回顾了目前的主要多核学习算法，指出大多数算面向大数据的多核学习算法法所得到核函数组合对学习器的影响差别不大，但是在学习算法的时间复杂度及核函数组合的稀疏性方面首先形式化描述多核学习问题，然后再给出带却有很大差异，这种差异性在处理大数据的多核学习有数据依赖的多核学习问题，并给出在线学习版本问题时必须考虑。他们的工作表明通过非线性和数据的算法。核学习所解决的问题是直接从训练数据集依赖的方式进行核函数的组合具有更好的性能，数据 (有标记或无标记)中学习参数化或半参数化的核依赖的核函数修正方式适合于高速无标记的数据流，函数，使其能充分反映数据所蕴含的分布规律。给这是本文在线核学习方法的一个出发点。Orabona 定一系列的训练样本D,={(x,y:)Ii=1,2,…, 等[劉提出了一种多核学习的快速算法，能够通过参数 n},其中x:为属性集，y:∈{-1，+1}为分类标记控制所生成核的稀疏程度，算法即使在待组合的核数给定一个包含m个基本核函数的集合K={k(·, 量很大的情况下仍然能够快速收敛，且模型训练的时 ·):X×X→R,j=1,2,…,m,学习一组非负权值间复杂度仅是训练样本的线性函数。该工作大大减轻 u=山1，山2，…，山，∑4=1，使核学习器在测试了核学习的算法复杂度，并能控制核的稀疏和与数据集上的分类错误最小化。由于权值非负，根据核函拟合的程度，有很重要的理论和应用价值。但该工作数的性质可知，核函数的凸组合仍为一个有效的核并不完全适用于大数据，特别是高速数据流，其原因是函数。该问题可以形式化描述为它并非一种增量更新算法，而是一种批处理的优化方 min::fIa+C∑fx,)) (1) 法。此外，该方法是一种有监督的核学习方法，并不能式中：l为Hinge Loss损失函数，定义为l(a,b)= 处理无标记的数据样本，而在大数据流中数据样本的 max(0,1-ab),Hx为核函数K所张成的希尔伯特标记缺失十分常见，因此核学习器的无监督学习能力空间，C控制模型复杂度与损失惩罚比重的参数。非常重要。求解该优化问题的时间复杂度比较高，这是由于其针对数据流学习和模型的增量更新问题，研究中包含2步优化，第1步选择一个“，确定一个核函者们对在线学习进行了深入研究，其中值得关注的研究工作是Jim等)提出的在线核学习框架，他们数K=∑uk,从而确定了H:第2步在H,中寻找 i=1 系统地提出了在线多核学习问题理论及其算法。针最简单的且在当前训练集中正确率最高（由C控对核函数和核学习器的增量更新问题，他们提出了制)的学习器f,这2个目标分别对应式(1)中的2 使用确定和随机2种方法进行更新，其中随机更新项。若核函数确定，则寻找满足2个条件的f的问需要结合一定的采样策略进行。他们的工作对于基题可以直接求解，如SVM模型则属于此种情况。但本核函数较多的情况下是有效的，但仅在有监督学若核函数是通过参数“来对若干基核函数进行加权习中进行研究，即遇到一个新的样本，若当前模型分组合，要求最优的“和f,则问题变得很有挑战性，类正确，则不进行更新动作，否则按照一定的策略更特别是在大数据学习环境中，此类问题基本上不可新模型。该方法并不直接适用于大数据流环境下的能在可接受的时间内求得最优解。多核学习问题，其主要问题是它不能适应数据流产若通过限制基本核函数的个数或“中各分量的生规律变化的情况，且当某些数据缺少标签时模型取值范围，则会牺牲多核学习的优势，且没有从根本无法有效处理。上解决多核学习的问题。可以认为，在没有更好的本文认为要解决此问题需要同时考虑数据标签求解算法的情况下，在线学习对上述问题是一种较和数据的空间分布，使用增量学习的方法同步更新好的求解策略。模型，这也是在当前很多大数据学习算法中所采用 2.1在线多核学习的策略。如Qim等[1o]提出了一种适用于云计算增为了进行在线学习，需要重新考虑式(1)。Jin 量梯度下降算法，解决大数据环境下带线性约束的等的工作表明，当所学习的核函数为某个基本核凸优化问题。Yang等)提出了决策树的增量学习函数集合的线性组合时，式(1)的最优化问题可以近似算法，可以在没有历史训练数据的情况下通过转化为如下问题：先求出每个核函数k:在各自张成在线学习的方式直接更新决策树模型。但这些工作的希尔伯特空间H,上最优的f,然后寻找一组权均是直接针对学习器进行增量更新，其方法并不直值“，使这些f的组合最优，在寻找最优的过程中同接适用于本文的核函数学习问题。步更新权值和∫。换句话说，若核函数的组合为线等［７］回顾了目前的主要多核学习算法，指出大多数算法所得到核函数组合对学习器的影响差别不大，但是在学习算法的时间复杂度及核函数组合的稀疏性方面却有很大差异，这种差异性在处理大数据的多核学习问题时必须考虑。他们的工作表明通过非线性和数据依赖的方式进行核函数的组合具有更好的性能，数据依赖的核函数修正方式适合于高速无标记的数据流，这是本文在线核学习方法的一个出发点。Ｏｒａｂｏｎａ等［８］提出了一种多核学习的快速算法，能够通过参数控制所生成核的稀疏程度，算法即使在待组合的核数量很大的情况下仍然能够快速收敛，且模型训练的时间复杂度仅是训练样本的线性函数。该工作大大减轻了核学习的算法复杂度，并能控制核的稀疏和与数据拟合的程度，有很重要的理论和应用价值。但该工作并不完全适用于大数据，特别是高速数据流，其原因是它并非一种增量更新算法，而是一种批处理的优化方法。此外，该方法是一种有监督的核学习方法，并不能处理无标记的数据样本，而在大数据流中数据样本的标记缺失十分常见，因此核学习器的无监督学习能力非常重要。针对数据流学习和模型的增量更新问题，研究者们对在线学习进行了深入研究，其中值得关注的研究工作是Ｊｉｎ等［９］提出的在线核学习框架，他们系统地提出了在线多核学习问题理论及其算法。针对核函数和核学习器的增量更新问题，他们提出了使用确定和随机２种方法进行更新，其中随机更新需要结合一定的采样策略进行。他们的工作对于基本核函数较多的情况下是有效的，但仅在有监督学习中进行研究，即遇到一个新的样本，若当前模型分类正确，则不进行更新动作，否则按照一定的策略更新模型。该方法并不直接适用于大数据流环境下的多核学习问题，其主要问题是它不能适应数据流产生规律变化的情况，且当某些数据缺少标签时模型无法有效处理。本文认为要解决此问题需要同时考虑数据标签和数据的空间分布，使用增量学习的方法同步更新模型，这也是在当前很多大数据学习算法中所采用的策略。如Ｑｉｎ等［１０］提出了一种适用于云计算增量梯度下降算法，解决大数据环境下带线性约束的凸优化问题。Ｙａｎｇ等［２］提出了决策树的增量学习近似算法，可以在没有历史训练数据的情况下通过在线学习的方式直接更新决策树模型。但这些工作均是直接针对学习器进行增量更新，其方法并不直接适用于本文的核函数学习问题。２面向大数据的多核学习算法首先形式化描述多核学习问题，然后再给出带有数据依赖的多核学习问题，并给出在线学习版本的算法。核学习所解决的问题是直接从训练数据集（有标记或无标记）中学习参数化或半参数化的核函数，使其能充分反映数据所蕴含的分布规律。给定一系列的训练样本ＤＬ＝｛（ｘｉ，ｙｉ）｜ｉ＝１，２，…，ｎ｝，其中ｘｉ为属性集，ｙｉ ∈｛－１，＋１｝为分类标记，给定一个包含ｍ个基本核函数的集合Ｋｍ＝｛ｋｊ（·， ·）：Ｘ × Ｘ → Ｒ，ｊ＝１，２，…，ｍ｝，学习一组非负权值ｕ＝｛ｕ１，ｕ２，…，ｕｍ，∑ｉｕｉ＝１｝，使核学习器在测试集上的分类错误最小化。由于权值非负，根据核函数的性质可知，核函数的凸组合仍为一个有效的核函数。该问题可以形式化描述为ｍｉｎｆ∈ＨＫ ‖ｆ‖２ＨＫ＋Ｃ∑ ｎｉ＝１ｌ（ｆ（ｘｉ），ｙｉ）（１）式中：ｌ为ＨｉｎｇｅＬｏｓｓ损失函数，定义为ｌ（ａ，ｂ）＝ｍａｘ（０，１－ａｂ），ＨＫ为核函数Ｋ所张成的希尔伯特空间，Ｃ控制模型复杂度与损失惩罚比重的参数。求解该优化问题的时间复杂度比较高，这是由于其中包含２步优化，第１步选择一个ｕ，确定一个核函数Ｋ＝∑ ｍｉ＝１ｕｉｋｉ，从而确定了ＨＫ；第２步在ＨＫ中寻找最简单的且在当前训练集中正确率最高（由Ｃ控制）的学习器ｆ，这２个目标分别对应式（１）中的２项。若核函数确定，则寻找满足２个条件的ｆ的问题可以直接求解，如ＳＶＭ模型则属于此种情况。但若核函数是通过参数ｕ来对若干基核函数进行加权组合，要求最优的ｕ和ｆ，则问题变得很有挑战性，特别是在大数据学习环境中，此类问题基本上不可能在可接受的时间内求得最优解。若通过限制基本核函数的个数或ｕ中各分量的取值范围，则会牺牲多核学习的优势，且没有从根本上解决多核学习的问题。可以认为，在没有更好的求解算法的情况下，在线学习对上述问题是一种较好的求解策略。２．１在线多核学习为了进行在线学习，需要重新考虑式（１）。Ｊｉｎ等［９］的工作表明，当所学习的核函数为某个基本核函数集合的线性组合时，式（１）的最优化问题可以转化为如下问题：先求出每个核函数ｋｉ在各自张成的希尔伯特空间Ｈｋｉ上最优的ｆｉ，然后寻找一组权值ｕ，使这些ｆｉ的组合最优，在寻找最优的过程中同步更新权值和ｆｉ。换句话说，若核函数的组合为线第３期张钢，等：面向大数据流的半监督在线多核学习算法 ·３５７·

<<向上翻页向下翻页>>

点击下载：机器学习：面向大数据流的半监督在线多核学习算法