正在加载图片...
·546 智能系统学报 第4卷 行实验,验证了算法的有效性 证超球边界两边都得到支撑,同时对于边界噪声也 有一定的抑制作用, 2改进的支持向量数据描述算法 加入非目标样本类别信息后的约束条件变为 2.1聚类有效性评价准则 y:(R2+5:-‖x-a‖2)≥0,5≥0,Vi, 评价聚类算法的有效性,即能否将基因正确的 (11) 聚类,对于选择聚类算法来预测未知基因的功能有 「1,目标样本; 一定的指导意义.目前,对于生物数据聚类评价使用 式中:y={-1,非目标样本 最多的是由Yeung提出的聚类有效性的内部检验方 此时的Lagrange极值问题变为 法—FOM法B).假设n个基因被聚成k类:C, C2,·,Ck,令R(g;e)表示原始数据矩阵中基因g在 maxL=R2+C∑点- 条件e(e=1,…,m)下的表达水平,uc(e)表示C:类 内的基因在条件e下的平均表达水平,则 三a[+6-(》 FOM(k)= ∑FOM(e,k). 2a+a)]-Y, 8=1 式中: 式中:a≥0,Y:≥0. 求解该式的极值,分别对R、α和:求偏导并令 FOM(e,k)= L方∑(R(x,e)-e(e)2 其为0,得到 Nn台 (8) ag.-1.a =1 FOM(e,k)为条件e下所有基因表达水平距离 C-aiyi-Yi=0,Yi. 均差平方和的方根,反应类内的变异.FOM(k)表示 如果设a=αy:,并用核函数代替内积运算,则会得 把整个数据集聚成k类时,所有类的类内变异总和. 到一个和式(5)形式一样的目标函数, FOM越小就表明类内的变异越小,算法的聚类效果 越好 maxL=∑K(x·x) 由于FOM法并没有考虑使用类间的信息,本文 将类间信息融入聚类有效性评价中,定义Dis(k)反 ∑a,K(· (12) =1=1 映类间的变异: 可以看出,引入非目标样本,只是增加了训练样 Dis(e,. 本的数量,并没有影响训练的复杂度。 Dis()= 2.3参数的优化 式中: 模拟退火算法是一种全局最优算法,本文利用 1(ue.(e)-e,(e)2(9) 该方法来搜索SVDD的核函数参数σ和C.采用上 Dis(e,k)= 述的聚类有效性评价准则作为适应值,通过模拟退 式中:4c,(e)表示C:类内的基因在条件e下的平均 火算法进行搜索迭代,找到满意的SVDD参数.其具 表达水平 体步骤和算法如下: 定义: 1)初始化参数设置; Val FOM()-Dis(k). (10) 2)随机产生初始SVDD模型,计算其适应值ft- 如果类内变异越小,类间变异越大,则Vl值越 ness Val; 小,聚类的质量越高.本文将Vl作为评价聚类算法 3)通过随机扰动产生新的SVDD模型,计算新 的目标函数,用来引导SVDD的参数选取, 的适应值finess'; 2.2非目标样本的引入 4)按照Metropolis准则接受或放弃新的参数; 为了提高算法收敛的速度,本文采用有监督的 5)重复3)和4)完成一次Metropolis迭代过程; SVDD进行训练,即加入非目标样本类别信息,以保 6)判断适应值是否满足要求,如果满足,则算
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有