核函数Ｇｒａｍ矩阵和距离矩阵：Ｋ、 Μ 输出：更新后的核矩阵Ｋ１

正在加载图片...

·360· 智能系统学报第9卷核函数Gram矩阵和距离矩阵：K、M 由MOA所生成的人工数据集被广泛用于大数据算输出：更新后的核矩阵K 法有效性的评估工作中[56。基准数据集采用 1)初始化k。 UCI数据集[)中的数据集。实验中选取MOA提供 2)k1=(k(xo,x1),…,k(xo,xw) 的其中3个生成器生成不同的人工数据集，蕴含不 3)forj=1,…,Ndo 同的数据生成规律。表1和2分别展示了人工数据 4)k2=KG,·) 集和UCI基准数据集的主要信息。MOA序列生成 5)k=k-k (I+MK)Mk2 器生成的3个人工数据集，以数据记录生成时间顺 6)end for 序保存在3个单独的数据文件中，在线多核学习时 7)用k。更新矩阵K中的最后一行和最后一列顺序读取文件中的数据进行训练和测试。2个UCI 8)return K 数据集中的数据随机重排之后按顺序读入。其中数对于数据流在线核学习问题，采用FFO策略，据集M1生成20份，规模从10°~2×10'，用于评估即每次把当前的数据样本替换时间最长的数据样数据集规模与CPU处理时间的增长关系。本，因此算法3中不需要优先队列。表1MOA实验数据集的主要信息算法4半监督在线多核学习SSL-MKL Table 1 Details of MOA data sets 输入：编号生成器类型大小属性个数初始训练数据集D。输入数据样本集，D={x,y:}, MI WaveForm 10°-2×10 21 x:是样本，y:是其标签 M2 RandomRBF 10 37 输出：更新后的核矩阵K M3 SEA Concepts 10° 3 1)初始化K 表2UCl实验数据集的主要信息 2)使用批处理算法由D。学习K Table 2 Details of UCI data sets 3)for each (x;,y;)in D 编号数据集描述大小属性个数 4)if L;is not NULL then 5)Call算法1(x,y:) M4 Forest CoverType 581012 54 6)更新K M5 Poker-Hand 10 11 7)end if 在上述5个数据集上进行3组实验。第1组实 8)f静态大数据集then 验评估本文的半监督在线多核学习算法(semi-su- 9)Call算法2(K,D。,M,x,Lc,Q) pervised learning -multiple kernel learning,SSL- l0)else if数据流then MKL)的有效性，并与文献[17]中的批处理多核学 11)Cal算法3(K,Do,M,x:) 习算法及文献[9]、[18]中的有监督在线多核学习 12)end if 算法进行比较。第2组实验分析本文算法对不同规 13)更新K 模数据集处理的CPU运算时间增长与数据集大小 14)end for 之间的关系。第3组实验评估本文算法的迭代次数 15)return K 与学习器性能的变化关系，从而说明其收敛性能。为了把在线多核学习和数据依赖进行结合，算在3组实验中均采用参数随机的RBF核、多项法每读入一个数据样本x,判断是否有标签，若有标式核和三角函数核函数各100个，即m=300。第1 签，则先执行多核学习的权重值更新，再执行基于数组实验采用如下设置：对比的一般核函数采用参数据依赖的核修改：若没有标签，则仅执行核修改（算随机的RBF核和多项式核，核学习器使用标准的法2和算法3)。核修改是针对加权之后的核函数 SVM,只进行二类分类，并采用0-1损失函数评估进行。算法4描述了2部分核学习的结合过程。分类错误率。其中数据集M1的规模为10。在M 3实验结果及分析和k。的更新算法中，限制其规模N为1000个样本。在人工数据集和大数据学习的基准数据集上对第1组实验评估SSL-MKL算法有效性并与有本文算法进行有效性评估，并与现有的算法进行比监督的在线核学习算法进行比较，同时引入一个非较。人工数据集使用MOA[14的序列生成器自动生在线学习的多核学习算法作为算法有效性的基线。成，在实验中共生成了3个规模不同的人工数据集，表3给出了对比算法的基本信息。核函数Ｇｒａｍ矩阵和距离矩阵：Ｋ、 Μ 输出：更新后的核矩阵Ｋ１）初始化ｋｘ０２）ｋ１＝（ｋ（ｘ０，ｘ１），…，ｋ（ｘ０，ｘＮ））３）ｆｏｒｊ＝１，…，Ｎｄｏ４）ｋ２＝Ｋ（ｊ，·）５）ｋｘ０＝ｋ１－ｋＴ１（Ｉ＋ＭＫ）－１Ｍｋ２６）ｅｎｄｆｏｒ７）用ｋｘ０更新矩阵Ｋ中的最后一行和最后一列８）ｒｅｔｕｒｎＫ对于数据流在线核学习问题，采用ＦＩＦＯ策略，即每次把当前的数据样本替换时间最长的数据样本，因此算法３中不需要优先队列。算法４半监督在线多核学习ＳＳＬ⁃ＭＫＬ输入：初始训练数据集Ｄ０输入数据样本集，Ｄ＝｛ｘｉ，ｙｉ｝，ｘｉ是样本，ｙｉ是其标签输出：更新后的核矩阵Ｋ１）初始化Ｋ２）使用批处理算法由Ｄ０学习Ｋ３）ｆｏｒｅａｃｈ（ｘｉ，ｙｉ）ｉｎＤ４）ｉｆＬｉｉｓｎｏｔＮＵＬＬｔｈｅｎ５）Ｃａｌｌ算法１（ｘｉ，ｙｉ）６）更新Ｋ７）ｅｎｄｉｆ８）ｉｆ静态大数据集ｔｈｅｎ９）Ｃａｌｌ算法２（Ｋ，Ｄ０，Ｍ，ｘｉ，ＬＣ，Ｑ）１０）ｅｌｓｅｉｆ数据流ｔｈｅｎ１１）Ｃａｌｌ算法３（Ｋ，Ｄ０，Ｍ，ｘｉ）１２）ｅｎｄｉｆ１３）更新Ｋ１４）ｅｎｄｆｏｒ１５）ｒｅｔｕｒｎＫ为了把在线多核学习和数据依赖进行结合，算法每读入一个数据样本ｘ，判断是否有标签，若有标签，则先执行多核学习的权重值更新，再执行基于数据依赖的核修改；若没有标签，则仅执行核修改（算法２和算法３）。核修改是针对加权之后的核函数进行。算法４描述了２部分核学习的结合过程。３实验结果及分析在人工数据集和大数据学习的基准数据集上对本文算法进行有效性评估，并与现有的算法进行比较。人工数据集使用ＭＯＡ［１４］的序列生成器自动生成，在实验中共生成了３个规模不同的人工数据集，由ＭＯＡ所生成的人工数据集被广泛用于大数据算法有效性的评估工作中［１５ ⁃ １６］。基准数据集采用ＵＣＩ数据集［１９］中的数据集。实验中选取ＭＯＡ提供的其中３个生成器生成不同的人工数据集，蕴含不同的数据生成规律。表１和２分别展示了人工数据集和ＵＣＩ基准数据集的主要信息。ＭＯＡ序列生成器生成的３个人工数据集，以数据记录生成时间顺序保存在３个单独的数据文件中，在线多核学习时顺序读取文件中的数据进行训练和测试。２个ＵＣＩ数据集中的数据随机重排之后按顺序读入。其中数据集Ｍ１生成２０份，规模从１０６～２ × １０７，用于评估数据集规模与ＣＰＵ处理时间的增长关系。表１ＭＯＡ实验数据集的主要信息Ｔａｂｌｅ１ＤｅｔａｉｌｓｏｆＭＯＡｄａｔａｓｅｔｓ编号生成器类型大小属性个数Ｍ１ＷａｖｅＦｏｒｍ１０６～２×１０７２１Ｍ２ＲａｎｄｏｍＲＢＦ１０６３７Ｍ３ＳＥＡＣｏｎｃｅｐｔｓ１０６２５表２ＵＣＩ实验数据集的主要信息Ｔａｂｌｅ２ＤｅｔａｉｌｓｏｆＵＣＩｄａｔａｓｅｔｓ编号数据集描述大小属性个数Ｍ４ＦｏｒｅｓｔＣｏｖｅｒＴｙｐｅ５８１０１２５４Ｍ５Ｐｏｋｅｒ⁃Ｈａｎｄ１０７１１在上述５个数据集上进行３组实验。第１组实验评估本文的半监督在线多核学习算法（ｓｅｍｉ⁃ｓｕ⁃ ｐｅｒｖｉｓｅｄｌｅａｒｎｉｎｇ ⁃ ｍｕｌｔｉｐｌｅｋｅｒｎｅｌｌｅａｒｎｉｎｇ，ＳＳＬ⁃ ＭＫＬ）的有效性，并与文献［１７］中的批处理多核学习算法及文献［９］、［１８］中的有监督在线多核学习算法进行比较。第２组实验分析本文算法对不同规模数据集处理的ＣＰＵ运算时间增长与数据集大小之间的关系。第３组实验评估本文算法的迭代次数与学习器性能的变化关系，从而说明其收敛性能。在３组实验中均采用参数随机的ＲＢＦ核、多项式核和三角函数核函数各１００个，即ｍ＝３００。第１组实验采用如下设置：对比的一般核函数采用参数随机的ＲＢＦ核和多项式核，核学习器使用标准的ＳＶＭ，只进行二类分类，并采用０－１损失函数评估分类错误率。其中数据集Ｍ１的规模为１０６。在 Μ 和ｋＤ的更新算法中，限制其规模Ｎ为１０００个样本。第１组实验评估ＳＳＬ⁃ＭＫＬ算法有效性并与有监督的在线核学习算法进行比较，同时引入一个非在线学习的多核学习算法作为算法有效性的基线。表３给出了对比算法的基本信息。 ·３６０· 智能系统学报第９卷

<<向上翻页向下翻页>>

点击下载：机器学习：面向大数据流的半监督在线多核学习算法