正在加载图片...
第6期 季瑞瑞,等:支持向量数据描述的基因表达数据聚类方法 ·547. 法结束,输出SVDD模型;否则,按照一定的退火方 表2不同聚类算法正确率比较 案衰减t,重复3)、4)、5)继续寻优,直至得到满意的 Table 2 Accuracy comparison of different clustering methods 结果 聚类 聚类正确率/% 算法 G G,/MM/G S 3 S/G2平均值 实验结果与分析 Aag器lo- 79.0363.9358.3560.8754.01 63.24 3.1实验数据 merative 本文采用已知类别的446条酵母(Yeast)细胞 K-mean84.2176.9268.4272.73 70.82 74.62 生长周期的表达数据作为实验数据,每个基因表达 FCM 90.7088.8976.9269.2366.67 78.48 数据是80维的,分别表示不同的实验条件下、不同 SOM 97.2293.3365.0064.7180.00 82.80 时间,点的基因表达水平值,根据其细胞周期内的表 SVDD 10090.4887.8985.8592.12 91.27 达峰值分为5类:166个G,类型、115个S类型、56 图1是各种聚类算法的Val值在不同类别数下 个G2类型、42个M类型、67个M/G1类型.其中G: 变化的曲线.由于Val融入了类间信息,对聚类的有 生长期(growth);S:合成期(synthesis);M:分裂期 效性评价更加客观和全面.图1中的曲线高低和表 (mitosis).在不同阶段可能会有交界.在聚类分析之 2的结果基本一致,说明使用Vl指导聚类算法的 前,先对基因表达数据进行了归一化处理 选择有一定的意义.从图1中也可以看出,本文算法 3.2结果与分析 的Val值最小,这不仅由于SVDD算法本身的特点, 对于多类分类问题,当训练某一类的最小超球 而且在训练时引入非目标样本,使得超球更加紧凑, 时,非目标样本从其他各类中利用“自举法”产生, 对于算法的收敛也有促进作用。 采用本文算法对实验数据进行聚类,仿真结果如下. 15 14 表1对比了网格搜索法和模拟退火法在SVDD 13 Agglomerative 12 参数寻优中的结果,与传统的网格搜索法相比,采用 11 SOM 10 模拟退火算法来确定SVDD参数不仅缩短了训练时 9 间,减少了支持向量的数目,提高了计算效率,而且一 8 定程度上改善了训练样本和测试样本的聚类正确率. 6 665588672880068 5 表1网格搜索法和模拟退火方法的比较 510市202530 类别数 Table 1 Comparison of cross-validation and SA 图1各聚类算法的Val值 性能比较 网格搜索法 模拟退火法 Fig.1 The Val of different clustering methods (C,σ)最优值 (21.365,2.245) (23.487,2.341) 4 结束语 训练时间/s 8.68 2.79 支持向量数/个 138 $ 聚类是基因表达数据分析的重要步骤,通过聚 训练样本 类分析,可以预测基因功能,构建基因调控网络,进 93.96 94.14 聚类正确率/% 而对内部的生命现象进行解释.采用支持向量数据 测试样本 89.83 89.94 描述算法,通过寻找最优超球来覆盖样本数据,较好 聚类正确率/% 地解决了常用聚类算法存在的误判问题.为了避免 表2给出了不同聚类算法对测试数据集的聚类 寻找核函数参数和惩罚因子的繁琐工作,改进了聚 正确率,可见,SVDD算法的聚类正确率相对于常用 类有效性评估准则,以此作为目标函数,通过模拟退 的聚类算法有了很大提高,验证了通过寻找半径最 火优化算法得到SVDD的参数,在训练过程中加入 小的最优超球来覆盖属于同一类的数据样本点的 非样本数据,从而提高了计算效率、聚类精度和对边 SVDD算法可以得到更紧凑的聚类结果,不仅减少 界噪声的抑制能力.将本文算法应用在酵母基因表 了误判率,同时,这种类似于认知样本的聚类算法, 达数据聚类分析中,结果验证了其有效性和快速性, 当新的类别出现时,不需要重新训练全部样本
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有