正在加载图片...
·360· 智能系统学报 第9卷 核函数Gram矩阵和距离矩阵:K、M 由MOA所生成的人工数据集被广泛用于大数据算 输出:更新后的核矩阵K 法有效性的评估工作中[56。基准数据集采用 1)初始化k。 UCI数据集[)中的数据集。实验中选取MOA提供 2)k1=(k(xo,x1),…,k(xo,xw) 的其中3个生成器生成不同的人工数据集,蕴含不 3)forj=1,…,Ndo 同的数据生成规律。表1和2分别展示了人工数据 4)k2=KG,·) 集和UCI基准数据集的主要信息。MOA序列生成 5)k=k-k (I+MK)Mk2 器生成的3个人工数据集,以数据记录生成时间顺 6)end for 序保存在3个单独的数据文件中,在线多核学习时 7)用k。更新矩阵K中的最后一行和最后一列 顺序读取文件中的数据进行训练和测试。2个UCI 8)return K 数据集中的数据随机重排之后按顺序读入。其中数 对于数据流在线核学习问题,采用FFO策略, 据集M1生成20份,规模从10°~2×10',用于评估 即每次把当前的数据样本替换时间最长的数据样 数据集规模与CPU处理时间的增长关系。 本,因此算法3中不需要优先队列。 表1MOA实验数据集的主要信息 算法4半监督在线多核学习SSL-MKL Table 1 Details of MOA data sets 输入: 编号 生成器类型 大小 属性个数 初始训练数据集D。输入数据样本集,D={x,y:}, MI WaveForm 10°-2×10 21 x:是样本,y:是其标签 M2 RandomRBF 10 37 输出:更新后的核矩阵K M3 SEA Concepts 10° 3 1)初始化K 表2UCl实验数据集的主要信息 2)使用批处理算法由D。学习K Table 2 Details of UCI data sets 3)for each (x;,y;)in D 编号 数据集描述 大小 属性个数 4)if L;is not NULL then 5)Call算法1(x,y:) M4 Forest CoverType 581012 54 6)更新K M5 Poker-Hand 10 11 7)end if 在上述5个数据集上进行3组实验。第1组实 8)f静态大数据集then 验评估本文的半监督在线多核学习算法(semi-su- 9)Call算法2(K,D。,M,x,Lc,Q) pervised learning -multiple kernel learning,SSL- l0)else if数据流then MKL)的有效性,并与文献[17]中的批处理多核学 11)Cal算法3(K,Do,M,x:) 习算法及文献[9]、[18]中的有监督在线多核学习 12)end if 算法进行比较。第2组实验分析本文算法对不同规 13)更新K 模数据集处理的CPU运算时间增长与数据集大小 14)end for 之间的关系。第3组实验评估本文算法的迭代次数 15)return K 与学习器性能的变化关系,从而说明其收敛性能。 为了把在线多核学习和数据依赖进行结合,算 在3组实验中均采用参数随机的RBF核、多项 法每读入一个数据样本x,判断是否有标签,若有标 式核和三角函数核函数各100个,即m=300。第1 签,则先执行多核学习的权重值更新,再执行基于数 组实验采用如下设置:对比的一般核函数采用参数 据依赖的核修改:若没有标签,则仅执行核修改(算 随机的RBF核和多项式核,核学习器使用标准的 法2和算法3)。核修改是针对加权之后的核函数 SVM,只进行二类分类,并采用0-1损失函数评估 进行。算法4描述了2部分核学习的结合过程。 分类错误率。其中数据集M1的规模为10。在M 3实验结果及分析 和k。的更新算法中,限制其规模N为1000个样本。 在人工数据集和大数据学习的基准数据集上对 第1组实验评估SSL-MKL算法有效性并与有 本文算法进行有效性评估,并与现有的算法进行比 监督的在线核学习算法进行比较,同时引入一个非 较。人工数据集使用MOA[14的序列生成器自动生 在线学习的多核学习算法作为算法有效性的基线。 成,在实验中共生成了3个规模不同的人工数据集, 表3给出了对比算法的基本信息。核函数 Gram 矩阵和距离矩阵: K、 Μ 输出:更新后的核矩阵 K 1)初始化 kx0 2) k1 = (k(x0 ,x1 ),…,k(x0 ,xN)) 3)for j = 1,…,N do 4) k2 = K(j,·) 5) kx0 = k1 - k T 1 (I + MK) -1Mk2 6)end for 7)用 kx0 更新矩阵 K 中的最后一行和最后一列 8)return K 对于数据流在线核学习问题,采用 FIFO 策略, 即每次把当前的数据样本替换时间最长的数据样 本,因此算法 3 中不需要优先队列。 算法 4 半监督在线多核学习 SSL⁃MKL 输入: 初始训练数据集 D0 输入数据样本集, D = {xi,yi} , xi 是样本, yi 是其标签 输出:更新后的核矩阵 K 1)初始化 K 2)使用批处理算法由 D0 学习 K 3)for each (xi,yi) in D 4)if Li is not NULL then 5)Call 算法 1(xi,yi) 6)更新 K 7)end if 8)if 静态大数据集 then 9)Call 算法 2(K,D0 ,M,xi,LC ,Q) 10)else if 数据流 then 11)Call 算法 3(K,D0 ,M,xi) 12)end if 13)更新 K 14)end for 15)return K 为了把在线多核学习和数据依赖进行结合,算 法每读入一个数据样本 x ,判断是否有标签,若有标 签,则先执行多核学习的权重值更新,再执行基于数 据依赖的核修改;若没有标签,则仅执行核修改(算 法 2 和算法 3)。 核修改是针对加权之后的核函数 进行。 算法 4 描述了 2 部分核学习的结合过程。 3 实验结果及分析 在人工数据集和大数据学习的基准数据集上对 本文算法进行有效性评估,并与现有的算法进行比 较。 人工数据集使用 MOA [14] 的序列生成器自动生 成,在实验中共生成了 3 个规模不同的人工数据集, 由 MOA 所生成的人工数据集被广泛用于大数据算 法有效性的评估工作中[15 ⁃ 16] 。 基准数据集采用 UCI 数据集[19]中的数据集。 实验中选取 MOA 提供 的其中 3 个生成器生成不同的人工数据集,蕴含不 同的数据生成规律。 表 1 和 2 分别展示了人工数据 集和 UCI 基准数据集的主要信息。 MOA 序列生成 器生成的 3 个人工数据集,以数据记录生成时间顺 序保存在 3 个单独的数据文件中,在线多核学习时 顺序读取文件中的数据进行训练和测试。 2 个 UCI 数据集中的数据随机重排之后按顺序读入。 其中数 据集 M1 生成 20 份,规模从 10 6 ~ 2 × 10 7 ,用于评估 数据集规模与 CPU 处理时间的增长关系。 表 1 MOA 实验数据集的主要信息 Table 1 Details of MOA data sets 编号 生成器类型 大小 属性个数 M1 WaveForm 10 6 ~ 2×10 7 21 M2 RandomRBF 10 6 37 M3 SEA Concepts 10 6 25 表 2 UCI 实验数据集的主要信息 Table 2 Details of UCI data sets 编号 数据集描述 大小 属性个数 M4 Forest CoverType 581012 54 M5 Poker⁃Hand 10 7 11 在上述 5 个数据集上进行 3 组实验。 第 1 组实 验评估本文的半监督在线多核学习算法( semi⁃su⁃ pervised learning ⁃ multiple kernel learning, SSL⁃ MKL)的有效性,并与文献[17]中的批处理多核学 习算法及文献[9]、[18]中的有监督在线多核学习 算法进行比较。 第 2 组实验分析本文算法对不同规 模数据集处理的 CPU 运算时间增长与数据集大小 之间的关系。 第 3 组实验评估本文算法的迭代次数 与学习器性能的变化关系,从而说明其收敛性能。 在 3 组实验中均采用参数随机的 RBF 核、多项 式核和三角函数核函数各 100 个,即 m = 300。 第 1 组实验采用如下设置:对比的一般核函数采用参数 随机的 RBF 核和多项式核,核学习器使用标准的 SVM,只进行二类分类,并采用 0-1 损失函数评估 分类错误率。 其中数据集 M1 的规模为 10 6 。 在 Μ 和 kD 的更新算法中,限制其规模 N 为 1000 个样本。 第 1 组实验评估 SSL⁃MKL 算法有效性并与有 监督的在线核学习算法进行比较,同时引入一个非 在线学习的多核学习算法作为算法有效性的基线。 表 3 给出了对比算法的基本信息。 ·360· 智 能 系 统 学 报 第 9 卷
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有