正在加载图片...
·90· 北京科技大学学报 2006年第1期 g,(x)=22K(,儿,: (10) 为-1的支持向量数目,xm表示属于负类的支持 向量样本的特征均值.所以,x:表示支持向量样 在黎曼空间中,体积微元可被定义为: 本x:与其所属类的支持向量特征中心矢量xm间 dV=√g(x)dx1dx2dxa (11) 的Euclidean距离.显然,从式(l4)可知映射 其中g(x=detg)(x)川,放大因子√g(x)表示在 D(x)与样本到支持向量的距离呈指数递减. 映射”下输入空间I的局部区域如何在特征空 定理2采用式(14)所示保角变换D(x)的 间F中被放大. 修正核函数K(x,x')满足Mercer定理的条件. 3.2 Amari的核函数修正思想 证明设A为R的紧子集,对于任意的 根据在输入空间所锈导的黎曼几何结构的基 h(x)∈L2(A),有h2(x)dx<∞. 础上,日本学者Amari等人提出了通过修正核函 数来提高SVM分类性能的方法[4,门.该方法的 由式(12),易见K(x,x)具有连续性和对称 基本思想是通过改变不同区域的体积元来增大 性.下面证明K(x,x)的半正定性.由式(14)可 SVM分界面处的空间分解力,即增大f(x)=0 得到D(x)>0,因此必存在一个正数B,使得 分离边界曲面附近区域的黎曼度规g(x),而同 D(x)≥>0,从而有: 时减小其他区域的g(x).基于在实际应用中分 离边界曲面是未知的这一事实,Amari则通过增 AR,h(xh()dr= 加支持向量邻域的黎曼度规矩阵来解决这个问 D(x)D(x)K(x,x)h(x)h(x)dxdx 题,提出了如下定义的修正核函数的准保角映射 定义1对于一个正的标量函数D(x),定 (()dxdx0. 义: 定理得证 K(x,x')=D(x)D(x)K(x,x')(12) 在所提出的保角变换D(x)基础上,给出了 称之为核函数通过因子D(x)的保角变换,则 数据依赖型修正核函数的支持向量机训练算法, 衣(x,x)成为支持向量机的修正核函数.同时, 该算法可描述为: 非线性映射p被修正为p(x)=D(x)p(x). Step1根据具体问题初步确定所选核函数 对于高斯核函数,在其经过D(x)的保角变 类型; 换后,黎曼度规g(x)将变为: Step2利用本文提出的核参数优化算法, g(x)=D(x)D,(x+D2(x)g(x)(13) 求得优化核参数,进而确定初始的核函数K; 其中,D,(x)=D(x Step3使用核函数K训练SVM,获取支持 Oxi 向量的信息,并计算x和xm,然后按式(12), 由式(13)知,所选择的D(x)应该在支持向 量处取值大而在其他点取值小 (14)和(15)修正它,得到修正核函数K; 3.3保角变换 Step4使用修正核函数K训练SVM; 本文提出了一种新的保角变换D(x),如下 Step5重复执行Step3与Step4,直到获得 式: 最好的分类性能 D(x)=∑exp(-‖x-x:‖2/x)(14) 4实验结果与分析 其中,t=‖xm-x:I2,xm的取值可由下式给出: 4.1人工非线性分类问题 xm,=+1 为了测评本文所提出的模型选择方法性能, xm= (15) xm,y:=-1 首先研究了它在人工非线性分类问题上的应用. 这里选用在区域[-0.5,0.5]×[-0.5,0.5]内随 在式(15)中,x=1 x,nt是类标签为+1 机均匀分布的数据点,两类数据由非线性分界线 y=0.5sin(2πx)所决定,如图2所示.在仿真实 的支持向量数目,x表示属于正类的支持向量 验中,每类随机选取100个样本构成训练集,每类 样本的特征均值;x。=1∑ ,nsv是类标签 再另选1000个样本构成测试集, nsv 由核参数优化算法所得到的误差惩罚因子C北 京 科 技 大 学 学 报 2 0 06 年第 1 期 a a _ _ , igj ( ` ’ 一 石寻 ( ` , ` ” X 一 二 ( ` 0 ’ 在黎 曼空 间中 , 体积微元 可被定 义为 : d y 一 甲百石) d x l d x Z … d x 、 ( r r ) 其中 g ( 二 = de t } g 。 ( 二 )1 , 放 大因子 了奋石万表示在 映 射 切 下输入 空 间 I 的 局 部 区域 如 何在 特征空 间 F 中被放大 . 3 . 2 A m ar i 的核函数修正 思想 根据在输入 空间所诱导 的黎 曼几何结 构的基 础上 , 日本 学者 A m ar i 等人提 出了通 过修正 核函 数来提 高 s v M 分类 性 能 的方 法 ’[, 7〕 . 该 方 法 的 基本 思想 是 通 过 改变 不 同 区域 的体积 元 来 增 大 S v M 分界 面处 的空 间分 解 力 , 即 增 大 f ( x ) = 0 分离边界 曲面附近 区域的黎 曼 度规 igj ( x) , 而 同 时减小其 他区 域的 igj ( x ) . 基于在实 际应 用 中分 离边界 曲 面是 未 知 的这 一 事实 , A m ar i 则 通过 增 加支持 向量 邻域 的黎 曼 度 规 矩 阵 来 解决 这 个 问 题 , 提出 了如下定义 的修正核 函数的准保角映射 . 定义 1 对 于 一 个 正 的 标 量 函 数 D ( x ) , 定 义 : K ( x , x ` ) = D ( x ) D ( x ’ ) K ( x , x ` ) ( 12 ) 称之为 核 函 数 通 过 因 子 D ( x ) 的 保 角变 换 , 则 天( x , x ` )成 为支 持 向量 机 的修正 核 函数 . 同 时 , 非线性映 射 甲 被修正为 毋( x) = D ( x) 杯 x) . 对于高斯核 函 数 , 在其经过 D ( x )的保角 变 换 后 , 黎 曼度规 igj ( x) 将变为 : 云ij ( x ) = D 、 ( x ) jD ( x + D Z ( x ) g 。 ( x ) ( 1 3 ) 甘 。 n , _ 八 _ 旦旦工主 2 其 甲 . D 、 ( x ) = - . / 、 月 , 一 , 、 一 ` a x 、 由式 ( 1 3) 知 , 所选 择的 D ( x ) 应 该在支 持 向 量处取 值大而在 其他点取 值小 . 3 . 3 保角变换 本文提出 了一 种新的保角变换 D ( x ) , 如 下 为 一 1 的支持向量数 目 , x 孟表示属 于 负类的支持 向量样本 的特征 均值 . 所 以 , : 、 表 示 支持 向量 样 本 x : 与其 所属类的支持向量特征 中心 矢量 x m 间 的 E u e li d e a n 距 离 . 显 然 , 从 式 ( 14 ) 可 知 映 射 D ( x) 与样本到 支持 向量 的距离呈 指数递减 . 定理 2 采用式 ( 14) 所 示保 角变换 D ( x ) 的 修正 核函数 元( x , x ` )满足 M er ce r 定理 的条件 . 证明 设 A 为 R N 的 紧 子 集 , 对 于 任 意 的 、 ( 二 ) 。 : ’ ( , , , 有 { ` ’ ( ! , d 工 < 一 由式 ( 1 2 ) , 易见 K ( x , x ’ )具 有连 续性和 对称 性 . 下面证 明 K ( x , x ’ )的半正定性 . 由式 ( 1 4) 可 得到 D ( x ) > 0 , 因 此 必 存 在 一 个 正 数 月 , 使 得 D ( x ) ) 月> 0 , 从 而有 : 汗 元( 二 . 二 · ) 、 ( 二 ) 。 ( 二 · ) d 二 d x 一 J J A 火 A 仟 n ( 二 ) n ( 二 · )、 ( 二 . 二 )。 ( 二 )、 ` 二 · ) d x d x · 要 。 , 厅 兀 ( x . x / ) 、 ( x ) 、 ( x · ) d x d x ·妻 0 . J J A X A 定理得证 . 在所提出 的保角 变换 D ( x ) 基础 上 , 给 出 了 数据依赖型修正核 函 数 的支持 向量机 训 练算 法 . 该 算法可 描述 为 : st eP I 根据具 体问题 初 步确 定所 选 核 函 数 类型 ; st eP Z 利 用 本 文 提 出 的 核参数 优 化 算法 , 求得 优化核参数 , 进而 确定初 始的核 函数 K ; s t e p 3 使用核 函数 兀 训 练 S v M , 获取支持 向量 的信息 , 并 计 算 x 盆和 x 爪 , 然 后 按 式 ( 12) , ( 14 ) 和 ( 15) 修正它 , 得 到修正核 函数 元; s t e p 4 使用修正核 函数 K 划11练 s v M ; s t e p s 重 复执行 s t e p 3 与 s t e p 4 , 直 到获得 最 好的分 类性 能 D ( x ) 一 艺 e x p ( 一 ll x 一 x 、 11 2 / : 子) ( 一4 ) 其中 , : 卜 } X m 一 X 乞 工 m = }1 2 , x m 的取值可 由下式给出 : X m , y i = + 1 = 一 1 ( 1 5 ) 工 m , y £ n X 类是类 标签为 + 1 n 脚, 艺浏 土 , 在式 ( 1 5) 中 vsn , x 孟= 的支持 向量数 目 , x 盖表示 属 于 正 类 的 支持 向量 样本 的特征均 值 ; · 、 一 亡郭 , · 、 是类标 签 4 实验结果与分析 4 . 1 人工 非线性分 类问题 为 了测 评本文 所提 出的模型 选 择方 法 性 能 , 首先研 究 了它在 人工 非线性 分 类 问题 上的 应用 . 这里选 用在 区域〔 一 0 . 5 , 0 . 5」x 〔 一 0 . 5 , 0 . 5] 内随 机均匀分布 的数据 点 . 两类 数据 由非 线性 分界 线 y = 0 . s is n ( 2二 x ) 所 决 定 , 如 图 2 所示 . 在仿 真 实 验 中 , 每类随机选取 10 0 个样本构成训 练集 , 每类 再 另选 1 0 0 个 样本构成 测试集 . 由核参 数优化算法所得到 的误差 惩罚 因子 C
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有