第8卷第1期 智能系统学报 Vol.8 No.1 2013年2月 CAAI Transactions on Intelligent Systems Feh.2013 D0I:10.3969/j.issn.1673-4785.201207015 网络出版地址:http://ww.cnki.net/kems/detail/23.1538.TP.20130125.1524.011.html 采用最小误差阈值分割算法的基因芯片图像分析 尹宁,刘富,张玉 (吉林大学道信工程学院,吉林长春130025) 摘要:为了能够较好地处理芯片图像,尽可能准确地提取出描述基因样点的数据信息,采用了最小误差阈值的分 割算法.该方法在假设目标和背景的分布服从混合正态分布的前提下,设定了最小误差分类目标函数,通过求得使 目标函数值最小的最佳分割阈值,实现基因样点和背景图像的分割.针对分割出来的基因样点图像提取特征数据, 最后对这些数据进行聚类分析,进而对实验样点进行分类.在实验中应用该方法分析了2组基因芯片图像,基因样 点的分类效果较好,验证了该基因芯片分析方法的可行性. 关键词:基因芯片图像;图像分析;最小误差阈值分割:聚类分析 中图分类号:TP391.41文献标志码:A文章编号:16734785(2013)01002805 Image analysis of gene chip using minimum error threshold segmentation algorithm YIN Ning,LIU Fu,ZHANG Yu (College of Communication Engineering,Jilin University,Changchun 130025,China) Abstract:In order to analyze gene chip image better,along with extract the data information as accurately as possi- ble,to describe the gene sample,this research paper proposes to implement a minimum error threshold segmenta- tion method.Based on the assumption that the distributions of object and background are governed by a mixture normal distribution,this method sets an objective function of minimum error classification.This method also allows for the implementation of the segmentation between gene sample and background image through calculating the opti- mal segmentation threshold by minimizing the objective function.Next,the feature data from the segment of gene sample image was extracted and a clustering analysis with the data was done to realize the successful classification of the experimental samples.The study examined two groups of gene chip images and analyzed them by using this method in the experiment.The results show that the classification result was better and the feasibility of the analysis method was verified. Keywords:gene chip image;image analysis;minimum error threshold segmentation method;cluster analysis 随着人类基因组计划(human genome project)处理与分析软件.而国内成型的软件产品不多,主要 的提出以及实施",很多生物信息学的相关技术得软件技术都被国外大型软件公司掌握,如Bluefuse、 到了飞速的发展.特别是基因芯片技术由于其强大 GenePix、ScanAlyze、QuantArray等.这些软件对芯片 的基因组信息分析功能,应用于生物科学的众多领 图像的处理与分析或者采用手工、半自动的样点定 域,成为许多研究机构研究的重点.在过去几年中, 位方法,或者将样点的形状假定为圆形;由于实际的 国外已经出现了一批商业或科研用的基因芯片图像 样点图像很少完全是圆形,有的呈现椭圆形,有的呈 现空心形,因此这些商用软件读取信号的准确率并 收稿日期:2012-0703.网络出版日期:201301-25. 基金项目:吉林省科技发展计划资助项目(10100505). 不非常可靠. 通信作者:刘富.E-mail:liufu@ju.e.cn 由于基因芯片图像容易受到制备和扫描过程中
第1期 尹宁,等:采用最小误差阙值分割算法的基因芯片图像分析 ·29 玻片不洁、光线不均以及杂交反应不彻底等因素的 最佳阈值选为使J()最小化的t*,t·= 影响2],如何滤除噪声,并且完整地保留基因样点 arg。mJ().本文根据上述的分割算法原理,对 的边缘特征是基因芯片图像分析的关键步骤.目前 基因芯片图像进行图像分割处理.图1为上述算法 基因样点分割算法3)]主要有模板匹配45)、阈值分 与其他常见的基因芯片图像分割算法的实验对 割以及特殊理论(如形态学分割6、模糊聚类分割 比图. 算法)等.通过对一些算法的比较,本文选用了最 针对基因芯片图像的特点进行仿真实验,综合 小误差阈值分割算法对基因样点进行分割处理得到 观察3种阈值分割方法得到的图像,可以看出迭代 了较好的效果.尤其是针对基因芯片图像中基因样 法和最大类间差阈值分割算法(Osu算法)[9)较为 点模糊、与背景对比度不清晰的情况,分割处理的效 简单,处理速度快;但是得到的分割图片中,基因样 果良好,可以完整地分割基因样点并保留其边缘细 点的缺损比较多,对于与背景灰度靠近的样点往往 节特征,大大提高了基因芯片识别的效果。 不能识别.最小阈值分割算法虽然有些复杂但是能 1最小误差阈值分割算法 得到较好的效果,能够更完整地分割出基因芯片中 的基因样点区域,为后续求得基因样点的平均灰度 最小误差阈值法[8]是基于Bayes理论,由Kit 值提供了很好的支持 ler和lingworth提出的,国际上有很多学者对该算 法进行了研究,目前已经提出了很多最小误差阈值 算法的改进算法以及二维扩展算法等.通常为了更 加清楚地描述该方法,大多选用信息论中的相对嫡 的概念进行解释。 设I为一幅大小为M×N的数字图像,图像上 u D L 各点的像素值由函数f(x,y)来表示,x、y为该点的 (a)分料前的基因芯片图 b)迭代园值分制结果 横纵坐标值,且fx,y)∈G={0,1,…,L-1}.图像 的灰度直方图用(g)来表示,它可以看成是由目标 和背景2个区域像素组成的混合总体的概率密度 函数: p(g)=∑P:×p(g/i). 。w ●●●●●0●●●●●●0● 0 (c)Ostu分割结果 (d)最小误差阈值分割结果 式中:P:是子分布的先验概率,p(g)的2个子分布 p(gi)分别服从均值为、方差为σ:的正态分布: 图1几种分割算法的比较 Fig.1 Comparison of several segmentation algorithms Ψ2 2 实验结果及分析 对于阈值t∈G,最小误差阈值方法给出函数: J(t)=1+2[Po(t)Ingo(t)+P(t)Ino(t)]- 应用上述的最小误差阈值算法,本文构建了一 2[Po(t)InPo(t)+P(t)InP(t)] 个基因芯片分析体系,主要分为图像预处理、图像识 式中: 别以及数据提取和分析3个步骤.为了测试基因芯 P()=)P()) 片分析结果,选用凡敏等制备完成的基因芯片(基 g■0 g+1 孔肯亚病毒与辛德毕斯病毒特异性检测基因芯 L-1 片[)作为实验样本,具体处理步骤如下】 h(t)=Σh(g)g/P,(t)h(d)=∑h(g)g/P,(e), s-+ 2.1图像预处理与识别 o(e)=【∑(g-(t)2h(g)]P(), 通过芯片扫描仪得到的基因芯片图像是彩色图 80 像,如图2所示.为了便于后续处理并且提高图像质 J oi(e)=[∑(g-4(e)2h(g)]/P(). 量,首先要进行图像预处理,其中包括图像灰度化、 g=+1 自适应中值滤波1-2]以及适当的对比度增强处理
·30 智能系统学报 第8卷 图3为图2(a)所示的基因芯片图像预处理之后的 用基因样点的平均灰度、面积、周长以及圆度4个特 结果 征参数来描述基因样点.因此,基因样点的图像信息 实验得到预处理之后的芯片图像,再经过基因 就成功地转化成了数据信息,把这些信息整理成数 样点网格定位和图像分割2个处理过程之后,就可 据集,通过一系列的模糊聚类和层次聚类分析[4可 以把基因芯片图像中的每个基因样点都分离出来 以成功地把病毒样点和对照样点区分开来.聚类分 采用基于功率谱的投影网格定位算法[]以及上面 析的可视化结果如图5所示,其中图5(a)横坐标表 介绍的最小误差阈值分割算法处理芯片图像,得到 示各基因样点的平均灰度,单位为灰阶,纵坐标表示 如图4的结果. 各基因样点的周长,单位是像素点个数;图5(b)横 坐标表示样点标号,纵坐标表示各数据集之间的欧 式距离 (a)基孔肯亚病毒基因图像(b)辛德毕斯病毒基因图像 ¥1. 图2彩色基因芯片图像 泄0.9外 Fig.2 Color cDNA microarray images 0.7 0.5 10 .92.02.12.22.32.42.52.6 样点平均灰度 (a)模糊聚类分析 40 (a)滤除噪声的芯片图像(b)对化度增强的芯片图像 35 图3基因芯片图像预处理结果 3 Fig.3 Pretreatment with cDNA microarray image 25 20 ● 1319202462181191021418161517 样点标号 (a)网格定位结果 (b)最小误差分割结果 (b)层次聚类分析 图4图像识别结果 图5聚类分析结果 Fig.4 Image recognition results Fig.5 Results of cluster analysis 2.2数据提取和分析 根据最小误差分割算法建立的基因芯片分析体 网格定位确定了每个基因样点图像的具体位 系,能得到符合基因样点信息的分类结果.并且依据 置,图像分割又把每个小区域内的基因样点与背景 现有的一些基因芯片检测图像,按照病毒类别和浓 成功地分离出来,接下来按照基因样点的分布把图 度的不同,把众多基因样点分类得到的结果与已知 4(b)分割成若干个小图片. 的基因芯片制备设计的样点分类情况进行比较,即 通过观察基因样点的形态和亮度特性,选择应 可以计算出测试分类的准确率(正确区分的基因样
第1期 尹宁,等:采用最小误差阙值分割算法的基因芯片图像分析 .31· 点个数/待区分的基因样点总数).通过多组图片的 [3]张晶,王黎,高晓蓉,等.数字图像处理中的图像分割技 分类实验,分别计算准确率,最终求得准确率的平均值 术及其应用[J].信息技术,2010(11):33-39 结果如表1. ZHANG Jing,WANG Li,GAO Xiaorong,et al.The image 表1分类准确率汇总 segmentation technology and its application in digital image Table 1 Accuracy summary processing[J].Information Technology,2010(11):33- 39. 病毒名称 病毒与对照样本分类 病毒浓度分类 [4]CECCARELLI M,ANTONIOL G.A deformable grid-mate- 基孔肯亚 0.9288 0.6694 hing approach for microarray images[J].IEEE Transactions 辛德毕斯 0.8255 0.7168 on Image Processing,2006,15(10):3178-3188. 从表1可以看出,受到基因芯片制备条件和处 [5]BAJCSY P.An overview of DNA microarray grid alignment 理算法的影响,每组实验结果的准确率有很大的不 and foreground separation approaches[J].EURASIP Jour- nal on Applied Signal Processing,2006,2006 (1): 同.总体来看,对于同一组小芯片中不同基因样点的 080163, 分类结果要好于不同组小芯片中基因样点的分类. [6]王宇,陈殿仁,沈美丽,等.基于形态学梯度重构和标记 基因样点病毒间差异的分类结果要优于同病毒不同 提取的分水岭图像分割[J].中国图象图形学报,2008, 浓度的分类结果.尤其是针对样点信号和背景图像 13(11):2176-2180. 对比不大的情况,算法的分割效果较好 WANG Yu,CHEN Dianren,SHEN Meili,et al.Watershed segmentation based on morphological gradient reconstruction 3结束语 and marker extraction[J].Joural of Image and Graphics, 上述实验表明,应用最小误差阚值分割算法设 2008,13(11):2176-2180 计的基因样点识别系统能够成功地把基因芯片中大 [7]刘华军,任明武,杨静字.一种改进的基于模糊聚类的图 量的基因样点区分出来,并且计算描述基因样点的 像分割方法[J].中国图象图形学报,2006,11(9): 1312-1316. 特征参量数值.通过分析这些数据基因芯片系统实 LIU Huajun,REN Mingwu,YANG Jingyu.An improved 现了基因样点分类的功能,但准确率还不是很高,对 image segmentation method based on fuzzy clustering[J]. 于基因样点间的细微差别还是无法识别,有待于今 Jourmal of Image and Graphics,2006,11(9):1312-1316. 后在算法上进一步完善 [8]范九伦,雷博.二维直线型最小误差阈值分割法[J].光 同时,由于基因芯片种类较多,制备方法不尽相 电工程,2009,31(8):1801-1806. 同,而且基因芯片扫描仪型号各异,因此不同种类基 FAN Jiulun,LEI Bo.Two-dimensional linear-type minimum 因芯片图像存在很大的差异.本文基因芯片图像来 error threshold segmentation method[J].Joural of Elec- 源有限,很多类型的基因芯片图像还未应用到本文 tronics Information Technology,2009,31(8):1801- 描述的基因芯片识别系统进行分析处理.今后还需 1806. [9]谭优,王泽勇.图像阈值分割算法实用技术研究与比较 多方搜集实验样本,检测该系统的性能,使其不断完 [J].计算机信息,2007,23(24):233,298-299 善以及有更广泛的适用范围, TAN You,WANG Zeyong.Study on applied technology a- 参考文献: rithmetic of image threshold segmentation[J].Microcom- puter Information,2007,23(24):233,298-299 [1]MALEKINEJAD H,SCHOEVERS E J,DAEMEN J,et a1. [10]凡敏,田明尧,赵权,等.基孔肯亚病毒和辛德毕斯病毒 Exposure oocytes to the Fusarium toxins zearalenone and de- 检测基因芯片的建立[J].中国兽医学报,2012,32 oxynivalenol causes aneuploidy and abnormal embryo devel- (10):1493-1497. opment in pigs J].Biology of Reproduction,2007,77 FAN Min,TIAN Mingrao,ZHAO Quan,et al.Establish- (5):840-847 ment and application of gene chip for Chikungunya virus [2]WIESE K C,EICHER C.Graph drawing tools for bioinfor- and Sindbis virus[J].Chinese Joural of Veterinary Sci- matics research:an overview computer based medical sys- ence,2012,32(10):1493-1497. tems C]//Proceedings of the 19th IEEE Symposium on [11]王晓凯,李峰.改进的自适应中值滤波[J].计算机工程 Computer-Based Medical Systems.Washington,DC,USA: 与应用,2010,46(3):175-176,218 IEEE Computer Society,2006:653-658. WANG Xiaokai,LI Feng.Improved adaptive median filte-
·32 智能系统学报 第8卷 ring[J].Computer Engineering and Applications,2010, 作者简介: 46(3):175-176,218. 尹宁,女,1985年生,硕士研究生, [12]郭海霞,谢凯.一种改进的自适应中值滤波算法[J].中 主要研究方向为图像处理与模式识别. 国图象图形学报,2007,12(7):1185-1188. GUO Haixia,XIE Kai.An improved method of adaptive median filter[J].Journal of Image and Graphics,2007, 12(7):1185-1188. [13]胡园园,孙啸,何农跃,等.基于图像投影的基因芯片图 像网格定位[J].生物医学工程学杂志,2005,22(4): 刘富,男,1968年生,教授,博士生 668-671. 导师,吉林省自动化学会秘书长.主要 HU Yuanyuan,SUN Xiao,HE Nongyue,et al.A gene- 研究方向为计算机视觉与模式识别、生 chip image grid localization method based on profiles of im- 物信息识别技术等.承担国家重大科技 age[J].Journal of Biomedical Engineering,2005,22 成果转化等项目30余项,获得国家发 明专利2项,发表学术论文40余篇. (4):668671. [14]李明华,刘全,刘忠,等.数据挖掘中聚类算法的新发展 张玉,女,1989年生,硕士研究生, [J].计算机应用研究,2008,25(1):13-17. 主要研究方向为图像处理与模式识别. LI Minghua,LIU Quan,LIU Zhong,et al.New develop- ments of clustering methods in data mining[J].Applica- tion Research of Computers,2008,25(1):13-17. 第8届中国生物识别学术会议(CCBR2013) The 8th Chinese Conference on Biometric Recognition (CCBR 2013) 生物识别是模式识别、图像处理、人工智能等学科领域的前沿方向,同时也是保障国家和公共安全的战略高 新技术、电子信息产业的新增长点.中国生物识别学术会议从2000年开始在北京、杭州、西安、广州先后成功主办 过7届,有力推动了我国生物识别的学科发展和应用推广,同时为国内生物识别学术界和产业界同行提供了一个 交流与合作的平台.第8届中国生物识别学术会议(CCBR2013)由山东大学、中国科学院自动化研究所和中国人 工智能学会联合主办,将于2013年11月16一17日在济南举行.本届会议向广大科技工作者公开征集优秀学术论 文(英文),大会录用的稿件将由Springer出版社的Lecture Notes in Computer Sciences(LNCS)图书系列出版,并被 EI和ISTP检索. 重要日期 投稿截止日期:2013年7月5日 录用通知日期:2013年8月20日 会议召开日期:2013年11月16一17日 联系我们 联系人:袭肖明 通信地址:山东济南市舜华路中段山东大学计算机学院 电话:15069056021 邮 箱:ccbr2013@sdu.edu.cn 网 址:http://ccbr2013.sdu.edu.cm