正在加载图片...
第4卷第6期 智能系统学报 Vol.4 No.6 2009年12月 CAAI Transactions on Intelligent Systems Dec.2009 doi:10.3969/i.issn.16734785.2009.06.013 支持向量数据描述的基因表达数据聚类方法 季瑞瑞,刘丁 (西安理工大学信控中心,陕西西安710048) 摘要:为改善传统的基因表达数据聚类方法正确率偏低的问题,研究了支持向量数据描述(SVDD)算法在基因表 达数据聚类中的应用,该方法通过寻找最优分类超球实现对数据集的有效聚类.将类间信息融人入聚类有效性评估准 则中,通过模拟退火优化算法寻找SVDD算法中的最优核函数参数和惩罚因子,在训练时引入非样本数据提高运算 效率.对酵母细胞生长周期的基因表达数据集的仿真实验结果表明,在新的聚类有效性评估准则下进行参数寻优, 能够更快更好地得到最佳参数,同时,算法具有聚类精度高和运算速度快的优点. 关键词:基因表达数据;支持向量数据描述;聚类;模拟退火 中图分类号:TP18文献标识码:A文章编号:16734785(2009)060544-05 Improved gene expression data clustering using a support vector domain description algorithm JI Rui-rui,LIU Ding (Center of Information and Control Engineering,Xi'an University of Technology,Xi'an 710048,China) Abstract:The application of the support vector domain description (SVDD)algorithm in gene expression data clus- tering was proposed as a means to improve the low accuracy of current clustering methods.This method effectivly clustered the dataset by finding the optimal separating hyper-sphere.Inter-class information was introduced into the current clustering assessment criterion in the form of a minimum within-class distance.The simulated annealing (SA)algorithm was used to find the optimal kernel function parameter and the punishment factor of the SVDD algo- rithm.Non-sample data were added in training to increase computational efficiency.Simulation results using the yeast cell cycle expression dataset showed that optimal parameters can be obtained faster and more accurately with the new assessment criteria.Similar improvements were found in clustering accuracy and speed. Keywords:gene expression data;SVDD;clustering;simulated annealing 随着人类基因组计划(HGP)的顺利实施与基 因,这样利用聚类结果可以对未知功能的基因进行 因芯片技术的发展,人们可以观察到成千上万的基 划分和识别. 因在某个生命现象中的表达情况.由于生物体本身 传统的聚类方法虽然能够得到不错的效果,但 的复杂性,这些数据往往是高维、海量的,如何从这 是存在一定的弊端,如:需要预先指定聚类数目;对 些数据中挖掘出有用的信息,发现基因的功能具有 边界和噪声数据敏感以及误判问题;如果需要加入 重要的研究意义.目前对基因表达数据的处理主要 新的类别,必然影响整个系统.起源于SVM的支持 是进行聚类分析.常用的聚类算法有K-均值法(K 向量数据描述算法(support vector domain descrip means)I、自组织映射法(S0M)[23]、神经网络、 ion,SVDD)9o把聚类看作是样本的“认知”,通过 主元分析、支持向量机(SVM)6、动态模型)、隐 寻找覆盖样本在特征空间的最优超球实现对数据的 马尔可夫模型8]等,其最终目的是寻找多类目标样 聚类,不仅减少了误判率,同时新类别的介入也不需 本集的最佳划分,同一类一般是具有已知功能的基 重新训练全部样本.研究了基于SVDD的基因表达 数据的聚类问题,改进了聚类有效性评价准则,并以 收稿日期:200906-23. 此作为寻找SVDD参数的准则,通过优化算法寻找 通信作者:季瑞瑞.E-mail:heziri423@163.com. 最佳参数,提高了计算效率,改善了误判问题,从而
向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有