·546 智能系统学报第4卷行实验，验证了算法的有效性证超

正在加载图片...

·546 智能系统学报第4卷行实验，验证了算法的有效性证超球边界两边都得到支撑，同时对于边界噪声也有一定的抑制作用， 2改进的支持向量数据描述算法加入非目标样本类别信息后的约束条件变为 2.1聚类有效性评价准则 y:(R2+5:-‖x-a‖2)≥0,5≥0，Vi, 评价聚类算法的有效性，即能否将基因正确的 (11) 聚类，对于选择聚类算法来预测未知基因的功能有「1，目标样本；一定的指导意义.目前，对于生物数据聚类评价使用式中：y={-1,非目标样本最多的是由Yeung提出的聚类有效性的内部检验方此时的Lagrange极值问题变为法—FOM法B).假设n个基因被聚成k类：C, C2,·,Ck,令R(g;e)表示原始数据矩阵中基因g在 maxL=R2+C∑点- 条件e(e=1,…,m)下的表达水平，uc(e)表示C:类内的基因在条件e下的平均表达水平，则三a[+6-(》 FOM(k)= ∑FOM(e,k). 2a+a)]-Y, 8=1 式中：式中：a≥0，Y:≥0. 求解该式的极值，分别对R、α和：求偏导并令 FOM(e,k)= L方∑(R(x,e)-e(e)2 其为0，得到 Nn台 (8) ag.-1.a =1 FOM(e,k)为条件e下所有基因表达水平距离 C-aiyi-Yi=0,Yi. 均差平方和的方根，反应类内的变异.FOM(k)表示如果设a=αy:,并用核函数代替内积运算，则会得把整个数据集聚成k类时，所有类的类内变异总和. 到一个和式(5)形式一样的目标函数， FOM越小就表明类内的变异越小，算法的聚类效果越好 maxL=∑K(x·x) 由于FOM法并没有考虑使用类间的信息，本文将类间信息融入聚类有效性评价中，定义Dis(k)反 ∑a,K(· (12) =1=1 映类间的变异：可以看出，引入非目标样本，只是增加了训练样 Dis(e,. 本的数量，并没有影响训练的复杂度。 Dis()= 2.3参数的优化式中：模拟退火算法是一种全局最优算法，本文利用 1(ue.(e)-e,(e)2(9) 该方法来搜索SVDD的核函数参数σ和C.采用上 Dis(e,k)= 述的聚类有效性评价准则作为适应值，通过模拟退式中：4c,(e)表示C:类内的基因在条件e下的平均火算法进行搜索迭代，找到满意的SVDD参数.其具表达水平体步骤和算法如下：定义： 1)初始化参数设置； Val FOM()-Dis(k). (10) 2)随机产生初始SVDD模型，计算其适应值ft- 如果类内变异越小，类间变异越大，则Vl值越 ness Val; 小，聚类的质量越高.本文将Vl作为评价聚类算法 3)通过随机扰动产生新的SVDD模型，计算新的目标函数，用来引导SVDD的参数选取，的适应值finess'; 2.2非目标样本的引入 4)按照Metropolis准则接受或放弃新的参数；为了提高算法收敛的速度，本文采用有监督的 5)重复3)和4)完成一次Metropolis迭代过程； SVDD进行训练，即加入非目标样本类别信息，以保 6)判断适应值是否满足要求，如果满足，则算

<<向上翻页向下翻页>>

点击下载：机器学习：支持向量数据描述的基因表达数据聚类方法