正在加载图片...
·388· 工程科学学报,第37卷,第3期 s(x,k)≤A(1x1),对任意v≥0,它们满足L.(h(x))C minh(x)的最优解. rER L(g(x,k))C{xI≤2.因此,L(h(x))和 L(g(x,)是R空间中的紧集,从而优化问题 4 数值实验 minh(x),ming(,k)的最优解存在,满足minh(r))= 在三个数据集上进行了实验,数据样本可以从 h(),ming(,k)=g(,k).其次,对任意xeR",由 UCI机器学习问题库得到.为比较不同光滑半监督支 定理2, 持向量机的性能,采用分类器的推广能力作为检验指 0≤h(x)-g(x,k)= 标,分类器的推广能力用未标记训练样本的正确率来 衡量.本实验采用模型(6),其中函数∫(x)分别取为 亏IA(Bx+e)I-亏Is(Br+e,店= 高斯函数和广义三次样条函数.为方便起见,将光滑 号茗(sg》-F顶,]≤ 半监督支持向量机分类模型标记如下:采用广义三次 样条函数的光滑半监督支持向量机模型记为3SSVM: 2-永) 采用高斯函数的光滑半监督支持向量机模型记为 GSS3VM.实验采用BFGS-Armijo0算法. 因为h()≥h(田),g(c,)≥g(,k),所以 4.1在心脏病诊断数据集上的实验 0≤h()-h()≤h()-h(R)+g(x,k)- 数据规模为270个样本,均已标记.本实验取前 g(,)=h()-g(k)+g(,)-h() 70个数据为标记数据,对后200个数据进行无标记处 h()-g,)≤2-) 理.其中病理检测有13项:年龄,性别,胸腔疼痛类 型,舒张血压,每分升血浆内Cholestoral的含量,血糖, 从而, 心电图结果,最快心率,物理感应疼痛度,ST下降段, limh ()=h() ST切片检查,主要血管数,丘脑状态.心脏病状况分为 (2)对任意keZ,k>1,由式(9)得71F≤ 两类:有和无.这样,每个数据样本包括13个属性,所有 数据样本被分为两类.在实验中,对模型错分惩罚参数c、 g(,k)≤g(x,k),{F}有界,从而{F}有收敛子列 c'及光滑参数k进行了优选,比较了c和c'取不同值时 之.不妨设limr=x,可得imh()=h(x)= 的实验结果,发现c和c取相等值,参数k取100时,3SS3 Iimh()=h(),因此xa∈U,即x.是优化问题 VM的分类正确率较好.具体计算结果见表1. 表1用3SS3VM与GSS3VM检测心脏病问题的正确率和CPU时间 Table 1 Training accuracy rate and CPU time using 3SS VM and CSSVM to test heart disease 正确率/% CPU 正确率/% CPU 正确率/% CPU 模型 (c=c=0.1) 时间/s (c=c"=1) 时间/s (c=c=10) 时间/s 3SS*VM (k =100) 85 0.12 82.5 0.20 83 0.12 GSS3 VM 77.5 0.21 82 0.22 82.5 0.21 由表1可见,当c=c取不同值时,采用广义三 样本,均为已标记.本实验取前200个数据为标记数 次样条函数逼近对称铰链损失函数有训练优势,且 据,对后1399个数据进行无标记处理.其中属性检测 计算时间较短.实验发现,当c=c取0.1、1和10成 信息有12项:固定酸度,挥发性酸度,柠檬酸,残糖, 倍变化时,3SS3VM分类器的分类正确率有所变化, 氯,游离二氧化硫,总二氧化硫,密度,pH值,硫酸盐, 当c=c取值变化范围较小时,分类器的分类正确率 醇,品质.红酒品质的取值为0~10,实验中对所有品 没有明显的变化,即模型的解对参数的微小扰动不 质小于5的归为差类,红酒的品质分为优和差两类. 敏感. 每个数据样本包括12个属性,所有数据样本被分为两 4.2在红酒和白酒质量检测数据集上的实验 类.在实验中,仍取k=100及有代表性的c=c的值, 首先进行红酒品质检测.数据规模为有1599个 求解得到的性能指标如表2. 表2用3SS3VM与GSS3VM检测红酒质量问题的正确率和CPU时间 Table 2 Training accuracy rate and CPU time using 3SS3VM and GSSVM to test the quality of red wine 正确率/% CPU 正确率/% CPU 正确率/% CPU 模型 (c=c'=1) 时间/s (c=c'=100) 时间/s (c=c'=1000) 时间/s 3SS*VM (k =100) 68.76 0.78 98.50 2.11 98.36 5.47 GSS VM 53.96 1.04 67.91 2.38 97.35 8.01工程科学学报,第 37 卷,第 3 期 s( x,k) ≤Λ( | x | ) ,对任意 ν≥0,它们满足 Lν ( h( x) )  Lν ( g( x,k) ) { x | ‖x‖2 2 ≤2ν} . 因此,Lν ( h( x) ) 和 Lν ( g( x,k) ) 是 Rn 空 间 中 的 紧 集,从 而 优 化 问 题 min h( x) ,min g( x,k) 的最优解存在,满足min x∈Rn h( x) = h( x) ,min x∈Rn g( x,k) = g( xk ,k) . 其次,对任意 x∈Rn ,由 定理 2, 0≤h( x) - g( x,k) = c * 2 ‖Λ( | Bx + μ | ) ‖2 2 - c * 2 ‖s( Bx + μ,k) ‖2 2 = c * 2 ∑ i = l i = 1 [Λ2 ( | Bix + μι | ) - s 2 ( Bix + μι,k) ]≤ c * l 6 ( k 2 - 1 3 ) k . 因为 h( xk ) ≥h( x) ,g( x,k) ≥g( xk ,k) ,所以 0≤h( xk ) - h( x) ≤h( xk ) - h( x) + g( x,k) - g( xk ,k) = h( xk ) - g( xk ,k) + g( x,k) - h( x) ≤ h( xk ) - g( xk ,k) ≤c * l 6 ( k 2 - 1 3 ) k , 从而, lim k→∞ h( xk ) = h( x) . ( 2) 对任意 k∈Z + ,k > 1,由式( 9) 得 1 2 ‖xk ‖2 2≤ g( xk ,k) ≤g( x,k) ,{ xk } 有界,从而{ xk } 有收敛子列 xkn . 不妨 设 lim n→∞ xkn = xh,可 得 lim n→∞ h ( xkn ) = h ( xh ) = lim kn→∞ h( xkn ) = h( x) ,因 此 xh ∈ Uh,即 xh 是 优 化 问 题 min x∈Rn h( x) 的最优解. 4 数值实验 在三个数据集上进 行 了 实 验,数 据 样 本 可 以 从 UCI 机器学习问题库得到. 为比较不同光滑半监督支 持向量机的性能,采用分类器的推广能力作为检验指 标,分类器的推广能力用未标记训练样本的正确率来 衡量. 本实验采用模型( 6) ,其中函数 f( x) 分别取为 高斯函数和广义三次样条函数. 为方便起见,将光滑 半监督支持向量机分类模型标记如下: 采用广义三次 样条函数的光滑半监督支持向量机模型记为 3SS3 VM; 采用高斯函数的光滑半监督支持向量机模型记为 GSS3 VM. 实验采用 BFGS--Armijo[1]算法. 4. 1 在心脏病诊断数据集上的实验 数据规模为 270 个样本,均已标记. 本实验取前 70 个数据为标记数据,对后 200 个数据进行无标记处 理. 其中病理检测有 13 项: 年龄,性别,胸腔疼痛类 型,舒张血压,每分升血浆内 Cholestoral 的含量,血糖, 心电图结果,最快心率,物理感应疼痛度,ST 下降段, ST 切片检查,主要血管数,丘脑状态. 心脏病状况分为 两类: 有和无. 这样,每个数据样本包括 13 个属性,所有 数据样本被分为两类. 在实验中,对模型错分惩罚参数 c、 c * 及光滑参数 k 进行了优选,比较了 c 和 c * 取不同值时 的实验结果,发现 c 和 c * 取相等值,参数 k 取 100 时,3SS3 VM 的分类正确率较好. 具体计算结果见表1. 表 1 用 3SS3VM 与 GSS3VM 检测心脏病问题的正确率和 CPU 时间 Table 1 Training accuracy rate and CPU time using 3SS3VM and GSS3VM to test heart disease 模型 正确率/% ( c = c* = 0. 1) CPU 时间/ s 正确率/% ( c = c* = 1) CPU 时间/ s 正确率/% ( c = c* = 10) CPU 时间/ s 3SS3VM ( k = 100) 85 0. 12 82. 5 0. 20 83 0. 12 GSS3VM 77. 5 0. 21 82 0. 22 82. 5 0. 21 由表 1 可见,当 c = c * 取不同值时,采用广义三 次样条函数逼近对称铰链损失函数有训练优势,且 计算时间较短. 实验发现,当 c = c * 取 0. 1、1 和 10 成 倍变化时,3SS3 VM 分类器的分类正确率有所变化, 当 c = c * 取值变化范围较小时,分类器的分类正确率 没有明显的变化,即模型的解对参数的微小扰动不 敏感. 4. 2 在红酒和白酒质量检测数据集上的实验 首先进行红酒品质检测. 数据规模为有 1599 个 样本,均为已标记. 本实验取前 200 个数据为标记数 据,对后 1399 个数据进行无标记处理. 其中属性检测 信息有 12 项: 固定酸度,挥发性酸度,柠檬酸,残糖, 氯,游离二氧化硫,总二氧化硫,密度,pH 值,硫酸盐, 醇,品质. 红酒品质的取值为 0 ~ 10,实验中对所有品 质小于 5 的归为差类,红酒的品质分为优和差两类. 每个数据样本包括 12 个属性,所有数据样本被分为两 类. 在实验中,仍取 k = 100 及有代表性的 c = c * 的值, 求解得到的性能指标如表 2. 表 2 用 3SS3VM 与 GSS3VM 检测红酒质量问题的正确率和 CPU 时间 Table 2 Training accuracy rate and CPU time using 3SS3VM and GSS3VM to test the quality of red wine 模型 正确率/% ( c = c* = 1) CPU 时间/ s 正确率/% ( c = c* = 100) CPU 时间/ s 正确率/% ( c = c* = 1000) CPU 时间/ s 3SS3VM ( k = 100) 68. 76 0. 78 98. 50 2. 11 98. 36 5. 47 GSS3VM 53. 96 1. 04 67. 91 2. 38 97. 35 8. 01 · 883 ·
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有