正在加载图片...
·940· 智能系统学报 第13卷 试两个阶段,首先需要基于训练集,利用验证集 化参数和建模测试两个阶段。核函数选用最常 获得各方法的最优参数;其次基于得到的优化参 用的线性核及高斯核。当两个概念漂移数据 数对训练集建模,并利用测试集来获得各方法的 Task1、Task2呈现出不同的偏离程度r时,求得各 性能。本文采用网格遍历法来寻找最优参数。 方法在两个概念漂移数据Task1、Task,上的分类 将旋转超平面数据集记为数据集DS,中的第 精度及平均值Average。每个方法对各训练集共 1个任务Task,Task1数据集的样本量为500,采 计10次运行后的平均分类精度及标准差记录在 样于独立分布的2维立方体[-1,1,两类之间的 图1中。 边界是一个超平面,并绕原点缓慢旋转。设超平 表2实验所用的数据集 面的法向量为y,Task,的训练、验证、测试数据由 Table 2 Description of artificial dataset 式(24)生成: 数据集 样本量 描述 y(i)=cos(2ri/500),v2(i)=sin(2πi/500) (24) 旋转超平面数据集,任务间偏移 y=sign(x(i),1≤i≤500 DS 500 不同角度 数据集DS,中的第2个任务Task2数据则由 DS2 500 高斯漂移数据集,任务间振幅变化 Task模型顺时针旋转一定的角度r(r∈{2,4,6,8,10) DS: 500 DS,中加入2%-10%的噪音 后随机生成,以体现出Task与Task模型的相关性。 将TA-SVM方法中所使用的高斯漂移数据集 DS 500 DS2中加入2%~10%的噪音 记为数据集DS2中的第1个任务Task1,数据集中 DSs 500-30000 逐步加大DS,中的采样量 包含两个类别,共含有n(n=500)个数据点,每个类 DS6 500-30000 逐步加大DS,中的采样量 别中数据的特征都在缓慢变化。Task,的训练、验 由图1可以得到如下观察: 证、测试数据由式(25)取r=0时独立生成,DS2中 1)在数据集DS1上,不管采用高斯核还是线 还包含另一个概念漂移数据集Task2,其数据同 性核,当多个任务呈不同偏移程度时,协同求解 样由(25)式生成,这时r≠0,以体现任务之间的差 多个概念漂移问题的SVC-SVM、SVC-CVM方法 异性。 在任务Task,和Task2上总是优于独立求解单个 -元+0.2,+8,(1-r)xsin(2 -元+0.2y)+82 概念漂移问题的TA-SVM和ITA-SVM方法,显 (25) 示了协同求解多任务概念漂移问题是有效的。 式中:t=1,2,…,n,s12服从于均值为0,方差为 2)随着多个任务之间偏离程度的增加,相对 σ=0.1的正态分布,y2、y2是±1的随机序列,并保 于独立求解单个任务,协同求解方法的优势逐渐 持正类负类个数的均衡。为体现出两个概念漂移 减弱。 数据集Task,与Task2的相关性及差异性,将Task2 3)不管是采用高期核还是线性核,也不管任 的生成模型式(11)中的第二维数据作了适度的扰 务间的偏移程度,用普通方法求解的SVC-SVM 动,用参数r来表示概念漂移数据Task2较之 与核心集技术求解的SVC-CVM的分类性能都非 Task1的偏离程度,其中r∈{0.05,0.1,0.2,0.3}。 常接近。 对高斯漂移数据集DS2,按照同样的实验流 将DS1、DS,中的类别标签按一定比例随机 程,求得当两个任务Task,、Task2呈现出不同的 替换以模拟噪音数据,得到数据集DS,、DS4,用 偏离程度时,各方法的分类性能。每个方法对各 于测试SVC-SVM方法在噪音条件下的分类能力。 训练集共计10次运行后的平均分类精度及标准 数据集DS5、DS6由DS,DS2逐步加大采样量 差记录在表3及表4中。 分别得到,它们用于测试SVC-CVM方法的算法 由表3及表4可以得到如下观察: 时间复杂度。实验所用数据集如表2所示。 1)在高斯漂移数据集DS2上,不管是采用高 3.2SVC-SVM的分类性能 斯核还是线性核,协同求解多个概念漂移问题的 本子节基于数据集DS,和DS,来观察SVC SVC-SVM、SVC-CVM方法总是优于独立求解单 CVM方法的分类能力,并将在噪音数据集DS、 个概念漂移问题的TA-SVM方法及ITA-SVM方 DS,上观察SVC-CVM方法在噪音条件下的性能。 法,与数据集DS,上的实验结果相似。 针对数据集DS1,依据文献[13]的策略,我们 2)采用高期核或线性核时,不管任务间的偏 独立生成10组训练集、测试集及用于选择最优参 移程度,SVC-CVM与SVC-SVM方法的分类性能 数的验证集。根据前述的实验设置,实验分为优 是相当的。试两个阶段,首先需要基于训练集,利用验证集 获得各方法的最优参数;其次基于得到的优化参 数对训练集建模,并利用测试集来获得各方法的 性能。本文采用网格遍历法来寻找最优参数。 [−1,1]d v 将旋转超平面数据集记为数据集 DS1 中的第 1 个任务 Task1,Task1 数据集的样本量为 500,采 样于独立分布的 2 维立方体 ,两类之间的 边界是一个超平面,并绕原点缓慢旋转。设超平 面的法向量为 ,Task1 的训练、验证、测试数据由 式 (24) 生成: v1(i) = cos(2πi/500), v2(i) = sin(2πi/500) yi = sign(xiv(i)),1 ⩽ i ⩽ 500 (24) r r ∈ {2,4,6,8,10} 数据集 DS1 中的第 2 个任务 Task2 数据则由 Task1 模型顺时针旋转一定的角度 ( ) 后随机生成,以体现出 Task2 与 Task1 模型的相关性。 n(n = 500) r = 0 r , 0 将 TA-SVM 方法中所使用的高斯漂移数据集 记为数据集 DS2 中的第 1 个任务 Task1,数据集中 包含两个类别,共含有 个数据点,每个类 别中数据的特征都在缓慢变化。Task1 的训练、验 证、测试数据由式 (25) 取 时独立生成,DS2 中 还包含另一个概念漂移数据集 Task2,其数据同 样由 (25) 式生成,这时 ,以体现任务之间的差 异性。 xt = 2tπ n −π+0.2yt +ε1,(1−r)×sin(2tπ n −π+0.2yt)+ε2 (25) t = 1,2,··· ,n ε1,2 σ = 0.1 yt2 yt2 ±1 r r ∈ {0.05,0.1,0.2,0.3} 式中: , 服从于均值 为 0,方差为 的正态分布, 、 是 的随机序列,并保 持正类负类个数的均衡。为体现出两个概念漂移 数据集 Task1 与 Task2 的相关性及差异性,将 Task2 的生成模型式 (11) 中的第二维数据作了适度的扰 动,用参数 来表示概念漂移数 据 Task 2 较 之 Task1 的偏离程度,其中 。 将 DS1、DS2 中的类别标签按一定比例随机 替换以模拟噪音数据,得到数据集 DS3、DS4,用 于测试 SVC-SVM 方法在噪音条件下的分类能力。 数据集 DS5、DS6 由 DS1 , DS2 逐步加大采样量 分别得到,它们用于测试 SVC-CVM 方法的算法 时间复杂度。实验所用数据集如表 2 所示。 3.2 SVC-SVM 的分类性能 本子节基于数据集 DS1 和 DS2 来观察 SVC￾CVM 方法的分类能力,并将在噪音数据集 DS3、 DS4 上观察 SVC-CVM 方法在噪音条件下的性能。 针对数据集 DS1,依据文献[13]的策略,我们 独立生成 10 组训练集、测试集及用于选择最优参 数的验证集。根据前述的实验设置,实验分为优 r 化参数和建模测试两个阶段。核函数选用最常 用的线性核及高斯核。当两个概念漂移数据 Task1、 Task2 呈现出不同的偏离程度 时,求得各 方法在两个概念漂移数据 Task1、Task2 上的分类 精度及平均值 Average。每个方法对各训练集共 计 10 次运行后的平均分类精度及标准差记录在 图 1 中。 由图 1 可以得到如下观察: 1) 在数据集 DS1 上,不管采用高斯核还是线 性核,当多个任务呈不同偏移程度时,协同求解 多个概念漂移问题的 SVC-SVM、SVC-CVM 方法 在任务 Task1 和 Task2 上总是优于独立求解单个 概念漂移问题的 TA-SVM 和 ITA-SVM 方法,显 示了协同求解多任务概念漂移问题是有效的。 2) 随着多个任务之间偏离程度的增加,相对 于独立求解单个任务,协同求解方法的优势逐渐 减弱。 3) 不管是采用高期核还是线性核,也不管任 务间的偏移程度,用普通方法求解的 SVC-SVM 与核心集技术求解的 SVC-CVM的分类性能都非 常接近。 r 对高斯漂移数据集 DS2,按照同样的实验流 程,求得当两个任务 Task1、 Task2 呈现出不同的 偏离程度 时,各方法的分类性能。每个方法对各 训练集共计 10 次运行后的平均分类精度及标准 差记录在表 3 及表 4 中。 由表 3 及表 4 可以得到如下观察: 1) 在高斯漂移数据集 DS2 上,不管是采用高 斯核还是线性核,协同求解多个概念漂移问题的 SVC-SVM、SVC-CVM 方法总是优于独立求解单 个概念漂移问题的 TA-SVM 方法及 ITA-SVM 方 法,与数据集 DS1 上的实验结果相似。 2) 采用高期核或线性核时,不管任务间的偏 移程度,SVC-CVM 与 SVC-SVM 方法的分类性能 是相当的。 表 2 实验所用的数据集 Table 2 Description of artificial dataset 数据集 样本量 描述 DS1 500 旋转超平面数据集,任务间偏移 不同角度 DS2 500 高斯漂移数据集,任务间振幅变化 DS3 500 DS1 中加入 2%~10% 的噪音 DS4 500 DS2 中加入 2%~10% 的噪音 DS5 500~30 000 逐步加大 DS1 中的采样量 DS6 500~30 000 逐步加大 DS2 中的采样量 ·940· 智 能 系 统 学 报 第 13 卷
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有