正在加载图片...
第6期 季瑞瑞,等:支持向量数据描述的基因表达数据聚类方法 ·545· 提高了对于未知功能基因的认知能力: Vapnik的理论),利用满足Mercer条件的K(x,x,) 代替内积运算,将样本映射到一个高维特征空间,当 1支持向量数据描述 选择合适的核函数时,可以得到关于样本数据的最佳 支持向量聚类的基本思想是通过在特征空间中 描述.引入核函数后,上述的目标优化问题变为 寻找包围目标样本点的超球体,并通过最小化该超 maxL 球体的体积,使得目标样本点尽可能的被包围在超 ∑aK(·)-公 K(x·x), i=1=1 球体内部,而非目标样本点尽可能的在超球体外部, (5) 从而实现不同类之间的有效划分.超球体内的点认 (6) 为是目标类数据,超球体外的点被认为是非目标类 数据,位于球表面上的点就是支持向量.SVDD采用 只有少量的样本满足上式的等号,其对应的 超球来覆盖样本数据,使得聚类的收敛域更小,聚类 不为0,称之为支持向量.利用任一支持向量可以求 效果更精确,从而较好地解决误判的问题。 出超球的半径: 1.1问题描述 R2=K(xg·x)-2∑a,K(x·x)+ SVDD问题描述如下:设有n个样本数据,包围 这些样本的最小超球的球面中心为a,球面半径为 2aaK·). (7) i=1=1 R,则寻找该最小超球的过程变成求解以下的目标 对于一个测试样本,可以依据下面的条件判断 函数: 是否接受其为该类对象,如果满足 min[R2+C∑专:], (1) l云-a2=(z·z)-2∑a,K(x·x)+ 8.t.l(x:)-a川2≤R2+点,点:≥0,Hi(2) 式中:C为惩罚因子,:是为了提高超球的鲁棒性, ∑a,aK(x·)≤R, 允许包含非目标样本而引入的松弛变量: =1J=1 则认为是该类样本,否则拒绝, 将上述问题引入Lagrange乘子a&:和y:,转化成 根据Tax和Duin的结论9):高斯型核函数相对 Lagrange极值问题: 于线性核函数和多项式核函数具有更好的性能.其 (R,a5a,)=R+cg. 1- 形式为K(x,x)=e2.本文采用的是高斯型核 含aR+--2a+a]-氵 函数 1.2参数选择 式中::≥0,y≥0. 由上可知,聚类的好坏取决于如何调节惩罚因 求解该式的极值,分别对R、α和:求偏导并令 子C和高斯核函数的宽度σ.惩罚因子C实现错分 其为0,得 样本的比例和算法复杂度之间的折衷.它的选取一 2a=1,a=2 aixi, 般由具体的问题而定,C越小,对经验误差的惩罚 C-a;-yi=0,Vi. 小,学习的复杂度小而经验风险值较大,超球的边界 由于a&≥0,Y:≥0,可以将C-a:-Y:=0转换 越平滑,得到的支持向量的个数越少.SVDD性能的 成0≤a:≤C. 优劣还受到高斯核参数σ的影响,σ越小,超球的 重新改写上面的等式,整个问题变为求解式(3): 边界越紧致,得到的支持向量的个数越多.如何得到 mL=立a4(x‘x)-。】 最佳的参数,日前还没有统一的方法,常用的方法是 a(x:·), 采用试凑法,针对某个特定的问题,通过多次尝试得 (3) 到满意的结果,例如交叉验证法和网格搜索法2] 本文将聚类评估准则作为目标函数,采用智能算法 s.l.∑a:=1,0≤am:≤C (4) 进行参数寻优,从而避免反复凑试参数的繁琐和耗 由于实际的样本分布不一定是球形的,根据 时,并且通过在酵母基因表达数据的聚类分析中进
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有