性时，在线多核学习问题可以两步求解，先使用基础的训练集为每一个核函数训练

正在加载图片...

.358 智能系统学报第9卷性时，在线多核学习问题可以两步求解，先使用基础有标记数据样本：(x,y) 的训练集为每一个核函数训练一个学习器，之后使输出：更新后的权重u 用这些学习器进行在线学习，每读入一个训练样本 1)y·=sign(w·F(x) 时，根据当前的加权组合学习器对当前训练样本的 2)ify'=y then 输出结果，使用一种策略更新该核函数的权值和所 3)p=0 对应的单个学习器，则最优的核函数为各个核函数 4)else 使用该最优权值的加权组合体。即式(1)可以转化 5)9=1 为以下问题： 6)end if 7)fori=1,2,…,mdo min max uJieHK,ac[0,C]Ti= ：fs+ 8)p=p(min(e,-yf(x)+0.5)) ∑a,(1-y∑uf(x)） (2) 9)u:=u:B”/更新u 10)f:=f+pyk(x,·) 11)end for 图1描述了上述求解过程的主要步骤。 12)return u 基本训练集算法1在输人有标记数据样本时，同时更新核权学习器训练 m个学习器权重u 重和每个核所对应的学习器。当样本被当前学习器分核函数集K 初始化类正确时，p为0，此时不执行更新动作：若分类错误，读入样本是否有标记 Y更新权重则减少该学习器的权重，见算法1的第8)和第9)行。输出核函数第lO)行根据Representer定理对每个核所对应的最优学习器进行调整。最大错误容忍水平e控制以多大的数据依赖更新组合学习器力度去惩罚被学习器错分的样本。由于仅对训练数据集进行一次扫描，算法1并多核在线学习不能达到离线批处理学习器的性能。但可依据感知图1多核在线学习算法的主要框架器训练过程对算法1的收敛性分析如下。算法第 Fig.1 The main framework of online multiple kernel 10)行对各个f进行更新，且各个f相互独立，相当 learning 于m个独立的感知器训练过程，当输入样本线性可对式(2)进行分析可知，由于各个f之间没有分时，各个f可以收敛于当前训练集下的最优学习关联，因此f的最优值可以单独求出，再用类似感知器，进而确定其最优组合：当输入样本线性不可分器的权值更新算法求解最优的组合权值u。由Re- 时，其收敛性依赖于各个学习器的核函数，一般情况 presenter定理可知，使式(2)最优的f方必定满足下并不收敛于最优解，但实验部分的第4组实验说 f)=(,) 明经过一段时间后学习器的性能会趋于稳定，逼近 (3) i=1 一个可接受的较优解。式(3)给出了一种在线学习f的方法，当读入一个 2.2基于数据依赖的核函数修改训练样本时，先判断f能否给出正确的标签，然后采数据依赖核[]是一种无监督的核函数学习方用f=f+yk,(x,·)更新，其中p为指示函数，当法，实质是对核函数在训练样本集上的值进行修改，对x正确分类时其值为1，反之为0。Jin等在文献使其所反映的在可见数据样本上的距离更加符合数 [9]中实现了上述思想。算法1描述了整个过程。据样本点的空间分布，而不考虑样本标签。它可以算法1在线多核学习对任意现有核函数根据可见的数据样本进行修改，输入实质是对由核函数所诱导的希尔伯特空间的内积进核函数集合：Kn={k1,k2,…,km} 行修改。首先给出数据依赖核的主要结论，然后初始化学习器：F={fif,…fm} 再提出针对大数据和高速数据流的数据依赖核在线更新因子：B∈(0,1) 核学习算法。最大分类错误的容忍水平：e 给定一个核函数k和一个数据集D={x1,x2, 当前的权重向量：u ,xn},记k=(k(x:,x),…,k(,xn)）,M=性时，在线多核学习问题可以两步求解，先使用基础的训练集为每一个核函数训练一个学习器，之后使用这些学习器进行在线学习，每读入一个训练样本时，根据当前的加权组合学习器对当前训练样本的输出结果，使用一种策略更新该核函数的权值和所对应的单个学习器，则最优的核函数为各个核函数使用该最优权值的加权组合体。即式（１）可以转化为以下问题：ｍｉｎｕ，ｆｉ∈ＨＫｉｍａｘ α∈［０，Ｃ］Ｔ∑ ｍｉ＝１ｕｉ ‖ｆｉ‖２ＨＫｉ＋ ∑ Ｔｔ＝１ αｉ（１－ｙｔ∑ ｍｉ＝１ｕｉｆｉ（ｘｔ））（２）图１描述了上述求解过程的主要步骤。图１多核在线学习算法的主要框架Ｆｉｇ．１Ｔｈｅｍａｉｎｆｒａｍｅｗｏｒｋｏｆｏｎｌｉｎｅｍｕｌｔｉｐｌｅｋｅｒｎｅｌｌｅａｒｎｉｎｇ对式（２）进行分析可知，由于各个ｆｉ之间没有关联，因此ｆｉ的最优值可以单独求出，再用类似感知器的权值更新算法求解最优的组合权值ｕ。由Ｒｅ⁃ ｐｒｅｓｅｎｔｅｒ定理可知，使式（２）最优的ｆｉ必定满足ｆｉ（·）＝ ∑ ｎｊ＝１ αｊｙｊｋｉ（ｘｊ，·）（３）式（３）给出了一种在线学习ｆｉ的方法，当读入一个训练样本时，先判断ｆｉ能否给出正确的标签，然后采用ｆｉ＝ｆｉ＋ φｙｘｋｉ（ｘ，·）更新，其中 φ 为指示函数，当ｆｉ对ｘ正确分类时其值为１，反之为０。Ｊｉｎ等在文献［９］中实现了上述思想。算法１描述了整个过程。算法１在线多核学习输入：核函数集合：Ｋｍ＝｛ｋ１，ｋ２，…，ｋｍ｝初始化学习器：Ｆ＝｛ｆ１，ｆ２，…，ｆｍ｝更新因子： β ∈ （０，１）最大分类错误的容忍水平：ｅ当前的权重向量：ｕ有标记数据样本：（ｘ，ｙ）输出：更新后的权重ｕ１）ｙ ∗ ＝ｓｉｇｎ（ｗＴ·Ｆ（ｘ））２）ｉｆｙ ∗ ＝ｙｔｈｅｎ３） φ ＝０４）ｅｌｓｅ５） φ ＝１６）ｅｎｄｉｆ７）ｆｏｒｉ＝１，２，…，ｍｄｏ８）ｐ＝ φ（ｍｉｎ（ｅ，－ｙｆＴｉ（ｘ）＋０．５））９）ｕｉ＝ｕｉβ ｐ／／更新ｕ１０）ｆｉ＝ｆｉ＋ φｙｋｉ（ｘ，·）１１）ｅｎｄｆｏｒ１２）ｒｅｔｕｒｎｕ算法１在输入有标记数据样本时，同时更新核权重和每个核所对应的学习器。当样本被当前学习器分类正确时， φ 为０，此时不执行更新动作；若分类错误，则减少该学习器的权重，见算法１的第８）和第９）行。第１０）行根据Ｒｅｐｒｅｓｅｎｔｅｒ定理对每个核所对应的最优学习器进行调整。最大错误容忍水平ｅ控制以多大的力度去惩罚被学习器错分的样本。由于仅对训练数据集进行一次扫描，算法１并不能达到离线批处理学习器的性能。但可依据感知器训练过程对算法１的收敛性分析如下。算法第１０）行对各个ｆｉ进行更新，且各个ｆｉ相互独立，相当于ｍ个独立的感知器训练过程，当输入样本线性可分时，各个ｆｉ可以收敛于当前训练集下的最优学习器，进而确定其最优组合；当输入样本线性不可分时，其收敛性依赖于各个学习器的核函数，一般情况下并不收敛于最优解，但实验部分的第４组实验说明经过一段时间后学习器的性能会趋于稳定，逼近一个可接受的较优解。２．２基于数据依赖的核函数修改数据依赖核［１１］是一种无监督的核函数学习方法，实质是对核函数在训练样本集上的值进行修改，使其所反映的在可见数据样本上的距离更加符合数据样本点的空间分布，而不考虑样本标签。它可以对任意现有核函数根据可见的数据样本进行修改，实质是对由核函数所诱导的希尔伯特空间的内积进行修改［１２］。首先给出数据依赖核的主要结论，然后再提出针对大数据和高速数据流的数据依赖核在线核学习算法。给定一个核函数ｋ和一个数据集Ｄ＝｛ｘ１，ｘ２， …，ｘｎ｝，记ｋｘｉ＝（ｋ（ｘｉ，ｘ１），…，ｋ（ｘｉ，ｘｎ）），Ｍ＝ ·３５８· 智能系统学报第９卷

<<向上翻页向下翻页>>

点击下载：机器学习：面向大数据流的半监督在线多核学习算法