第９卷第２期智能系统学报Ｖｏｌ．９ №．２２０１４

正在加载图片...

第9卷第2期智能系统学报 Vol.9 No.2 2014年4月 CAAI Transactions on Intelligent Systems Apr.2014 D0I:10.3969/i.issn.1673-4785.201307014 网络出版地址：http://www.cnki.net/kcms/doi/CNKI:23-1538/TP.20131105.1202.006.html 基因表达数据在邻域关系中的特征选择陈玉明，吴克寿1，李向军2 (1.厦门理工学院计算机科学与技术系，福建厦门361024：2.南昌大学计算机科学与技术系，江西南昌330031) 摘要：基因特征选择是基因表达数据分析中的一种重要方法。粗糙集是一种处理不确定性、不一致性、不精确性数据的有效分类工具，其特点是保持基因表达数据集的分类能力不变，进行基因特征选择。为了避免传统粗糙集特征选择方法所必需的离散化过程带来的信息损失，将邻域粗糙集特征选择方法应用于基因的特征选取，提出了基于邻域粗糙集的基因选择方法。该方法从所有特征出发，根据特征重要度逐步删除冗余的特征，最后得到关键特征组进行分类研究。在2个标准的基因表达数据集上进行特征选取，并进行了分类实验，实验结果表明该方法是有效可行的。关键词：粗糙集：邻域关系：基因表达数据：特征选择：分类中图分类号：TP391文献标志码：A文章编号：1673-4785(2014)02-0210-04 中文引用格式：陈玉明，吴克寿，李向军.基因表达数据在邻域关系中的特征选择[J].智能系统学报，2014,9(2)：210-213. 英文引用格式：CHEN Yuming,WU Keshou,LI Xiangjun.Gene expression data feature selection with neighborhood relation[J]. CAAI Transactions on Intelligent Systems,2014,9(2):209-212. Gene expression data feature selection with neighborhood relation CHEN Yuming',WU Keshou',LI Xiangjun2 (1.Department of Computer Science and Technology,Xiamen University of Technology,Xiamen 361024,China;2.Department of Computer Science and Technology,Nanchang University,Nanchang 330031,China) Abstract:The selection of an efficient gene feature is a key procedure for analysis of gene expression data.The rough set theory is an efficient classification tool to deal with uncertain,inconsistent and inaccurate gene data.One limitation of the rough set theory is the lack of effective methods for processing real valued data.However,gene ex- pression data sets are always continuous.Discrete methods can result in information loss.This paper investigates an approach to the selection of gene feature on the basis of the neighborhood rough set theory.Starting from all the fea- tures,this approach gradually removes the redundant features,and finally gets the key features of the group classifi- cation study based on the importance degree of characteristics.To evaluate the performance of the proposed ap- proach,we applied it to two bench mark gene expression data sets which were compared to certain aspects of the feature selections.The experimental results illustrate that our algorithm is more effective for selecting high discrimi- native genes in cancer classification tasks. Keywords:rough sets;neighborhood relation;gene expression data;feature selection;classification 美国人类基因组计划(HG)把基因组信息学基因的表达数据所构成的数据矩阵。通过对该数据定义为：它是一个学科领域，包含着基因组信息的获矩阵的分析，可以回答一些生物学问题。随着试验取、处理、存储、分配、分析和解释的所有方面。基因技术及仪器的不断改进和基因组数据的急剧增长，表达数据分析的对象是在不同条件下，全部或部分现代DNA微阵列或芯片技术产生的各种基因表达数据均规模庞大、内容复杂。如何有效地分析利用收稿日期：2012-10-26.网络出版日期：2013-11-05. 基金项目：国家自然科学青年基金资助项目(61103246). 这些数据成为生物信息学中的挑战性课题。在基因通信作者：陈玉明.E-mail:cym0620@163.com 表达数据分析中，基因的数目成千上万，但往往只是第９卷第２期智能系统学报Ｖｏｌ．９ №．２２０１４年４月ＣＡＡＩＴｒａｎｓａｃｔｉｏｎｓｏｎＩｎｔｅｌｌｉｇｅｎｔＳｙｓｔｅｍｓＡｐｒ．２０１４ＤＯＩ：１０．３９６９／ｊ．ｉｓｓｎ．１６７３⁃４７８５．２０１３０７０１４网络出版地址：ｈｔｔｐ：／／ｗｗｗ．ｃｎｋｉ．ｎｅｔ／ｋｃｍｓ／ｄｏｉ／ＣＮＫＩ：２３⁃１５３８／ＴＰ．２０１３１１０５．１２０２．００６．ｈｔｍｌ基因表达数据在邻域关系中的特征选择陈玉明１，吴克寿１，李向军２（１．厦门理工学院计算机科学与技术系，福建厦门３６１０２４；２．南昌大学计算机科学与技术系，江西南昌３３００３１）摘要：基因特征选择是基因表达数据分析中的一种重要方法。粗糙集是一种处理不确定性、不一致性、不精确性数据的有效分类工具，其特点是保持基因表达数据集的分类能力不变，进行基因特征选择。为了避免传统粗糙集特征选择方法所必需的离散化过程带来的信息损失，将邻域粗糙集特征选择方法应用于基因的特征选取，提出了基于邻域粗糙集的基因选择方法。该方法从所有特征出发，根据特征重要度逐步删除冗余的特征，最后得到关键特征组进行分类研究。在２个标准的基因表达数据集上进行特征选取，并进行了分类实验，实验结果表明该方法是有效可行的。关键词：粗糙集；邻域关系；基因表达数据；特征选择；分类中图分类号：ＴＰ３９１文献标志码：Ａ文章编号：１６７３⁃４７８５（２０１４）０２⁃０２１０⁃０４中文引用格式：陈玉明，吴克寿，李向军．基因表达数据在邻域关系中的特征选择［Ｊ］．智能系统学报，２０１４，９（２）：２１０⁃２１３．英文引用格式：ＣＨＥＮＹｕｍｉｎｇ，ＷＵＫｅｓｈｏｕ，ＬＩＸｉａｎｇｊｕｎ．Ｇｅｎｅｅｘｐｒｅｓｓｉｏｎｄａｔａｆｅａｔｕｒｅｓｅｌｅｃｔｉｏｎｗｉｔｈｎｅｉｇｈｂｏｒｈｏｏｄｒｅｌａｔｉｏｎ［Ｊ］．ＣＡＡＩＴｒａｎｓａｃｔｉｏｎｓｏｎＩｎｔｅｌｌｉｇｅｎｔＳｙｓｔｅｍｓ，２０１４，９（２）：２０９⁃２１２．ＧｅｎｅｅｘｐｒｅｓｓｉｏｎｄａｔａｆｅａｔｕｒｅｓｅｌｅｃｔｉｏｎｗｉｔｈｎｅｉｇｈｂｏｒｈｏｏｄｒｅｌａｔｉｏｎＣＨＥＮＹｕｍｉｎｇ１，ＷＵＫｅｓｈｏｕ１，ＬＩＸｉａｎｇｊｕｎ２（１．ＤｅｐａｒｔｍｅｎｔｏｆＣｏｍｐｕｔｅｒＳｃｉｅｎｃｅａｎｄＴｅｃｈｎｏｌｏｇｙ，ＸｉａｍｅｎＵｎｉｖｅｒｓｉｔｙｏｆＴｅｃｈｎｏｌｏｇｙ，Ｘｉａｍｅｎ３６１０２４，Ｃｈｉｎａ；２．ＤｅｐａｒｔｍｅｎｔｏｆＣｏｍｐｕｔｅｒＳｃｉｅｎｃｅａｎｄＴｅｃｈｎｏｌｏｇｙ，ＮａｎｃｈａｎｇＵｎｉｖｅｒｓｉｔｙ，Ｎａｎｃｈａｎｇ３３００３１，Ｃｈｉｎａ）Ａｂｓｔｒａｃｔ：Ｔｈｅｓｅｌｅｃｔｉｏｎｏｆａｎｅｆｆｉｃｉｅｎｔｇｅｎｅｆｅａｔｕｒｅｉｓａｋｅｙｐｒｏｃｅｄｕｒｅｆｏｒａｎａｌｙｓｉｓｏｆｇｅｎｅｅｘｐｒｅｓｓｉｏｎｄａｔａ．Ｔｈｅｒｏｕｇｈｓｅｔｔｈｅｏｒｙｉｓａｎｅｆｆｉｃｉｅｎｔｃｌａｓｓｉｆｉｃａｔｉｏｎｔｏｏｌｔｏｄｅａｌｗｉｔｈｕｎｃｅｒｔａｉｎ，ｉｎｃｏｎｓｉｓｔｅｎｔａｎｄｉｎａｃｃｕｒａｔｅｇｅｎｅｄａｔａ．Ｏｎｅｌｉｍｉｔａｔｉｏｎｏｆｔｈｅｒｏｕｇｈｓｅｔｔｈｅｏｒｙｉｓｔｈｅｌａｃｋｏｆｅｆｆｅｃｔｉｖｅｍｅｔｈｏｄｓｆｏｒｐｒｏｃｅｓｓｉｎｇｒｅａｌｖａｌｕｅｄｄａｔａ．Ｈｏｗｅｖｅｒ，ｇｅｎｅｅｘ⁃ ｐｒｅｓｓｉｏｎｄａｔａｓｅｔｓａｒｅａｌｗａｙｓｃｏｎｔｉｎｕｏｕｓ．Ｄｉｓｃｒｅｔｅｍｅｔｈｏｄｓｃａｎｒｅｓｕｌｔｉｎｉｎｆｏｒｍａｔｉｏｎｌｏｓｓ．Ｔｈｉｓｐａｐｅｒｉｎｖｅｓｔｉｇａｔｅｓａｎａｐｐｒｏａｃｈｔｏｔｈｅｓｅｌｅｃｔｉｏｎｏｆｇｅｎｅｆｅａｔｕｒｅｏｎｔｈｅｂａｓｉｓｏｆｔｈｅｎｅｉｇｈｂｏｒｈｏｏｄｒｏｕｇｈｓｅｔｔｈｅｏｒｙ．Ｓｔａｒｔｉｎｇｆｒｏｍａｌｌｔｈｅｆｅａ⁃ ｔｕｒｅｓ，ｔｈｉｓａｐｐｒｏａｃｈｇｒａｄｕａｌｌｙｒｅｍｏｖｅｓｔｈｅｒｅｄｕｎｄａｎｔｆｅａｔｕｒｅｓ，ａｎｄｆｉｎａｌｌｙｇｅｔｓｔｈｅｋｅｙｆｅａｔｕｒｅｓｏｆｔｈｅｇｒｏｕｐｃｌａｓｓｉｆｉ⁃ ｃａｔｉｏｎｓｔｕｄｙｂａｓｅｄｏｎｔｈｅｉｍｐｏｒｔａｎｃｅｄｅｇｒｅｅｏｆｃｈａｒａｃｔｅｒｉｓｔｉｃｓ．Ｔｏｅｖａｌｕａｔｅｔｈｅｐｅｒｆｏｒｍａｎｃｅｏｆｔｈｅｐｒｏｐｏｓｅｄａｐ⁃ ｐｒｏａｃｈ，ｗｅａｐｐｌｉｅｄｉｔｔｏｔｗｏｂｅｎｃｈｍａｒｋｇｅｎｅｅｘｐｒｅｓｓｉｏｎｄａｔａｓｅｔｓｗｈｉｃｈｗｅｒｅｃｏｍｐａｒｅｄｔｏｃｅｒｔａｉｎａｓｐｅｃｔｓｏｆｔｈｅｆｅａｔｕｒｅｓｅｌｅｃｔｉｏｎｓ．Ｔｈｅｅｘｐｅｒｉｍｅｎｔａｌｒｅｓｕｌｔｓｉｌｌｕｓｔｒａｔｅｔｈａｔｏｕｒａｌｇｏｒｉｔｈｍｉｓｍｏｒｅｅｆｆｅｃｔｉｖｅｆｏｒｓｅｌｅｃｔｉｎｇｈｉｇｈｄｉｓｃｒｉｍｉ⁃ ｎａｔｉｖｅｇｅｎｅｓｉｎｃａｎｃｅｒｃｌａｓｓｉｆｉｃａｔｉｏｎｔａｓｋｓ．Ｋｅｙｗｏｒｄｓ：ｒｏｕｇｈｓｅｔｓ；ｎｅｉｇｈｂｏｒｈｏｏｄｒｅｌａｔｉｏｎ；ｇｅｎｅｅｘｐｒｅｓｓｉｏｎｄａｔａ；ｆｅａｔｕｒｅｓｅｌｅｃｔｉｏｎ；ｃｌａｓｓｉｆｉｃａｔｉｏｎ收稿日期：２０１２⁃１０⁃２６．网络出版日期：２０１３⁃１１⁃０５．基金项目：国家自然科学青年基金资助项目（６１１０３２４６）．通信作者：陈玉明．Ｅ⁃ｍａｉｌ：ｃｙｍ０６２０＠１６３．ｃｏｍ．美国人类基因组计划（ＨＧＰ）把基因组信息学定义为：它是一个学科领域，包含着基因组信息的获取、处理、存储、分配、分析和解释的所有方面。基因表达数据分析的对象是在不同条件下，全部或部分基因的表达数据所构成的数据矩阵。通过对该数据矩阵的分析，可以回答一些生物学问题。随着试验技术及仪器的不断改进和基因组数据的急剧增长，现代ＤＮＡ微阵列或芯片技术产生的各种基因表达数据均规模庞大、内容复杂。如何有效地分析利用这些数据成为生物信息学中的挑战性课题。在基因表达数据分析中，基因的数目成千上万，但往往只是

向下翻页>>

点击下载：人工智能基础：基因表达数据在邻域关系中的特征选择