人工智能基础：基因表达数据在邻域关系中的特征选择

团购合买资源类别：文库，文档格式：PDF，文档页数：4，文件大小：456.32KB

第9卷第2期智能系统学报 Vol.9 No.2 2014年4月 CAAI Transactions on Intelligent Systems Apr.2014 D0I:10.3969/i.issn.1673-4785.201307014 网络出版地址：http://www.cnki.net/kcms/doi/CNKI:23-1538/TP.20131105.1202.006.html 基因表达数据在邻域关系中的特征选择陈玉明，吴克寿1，李向军2 (1.厦门理工学院计算机科学与技术系，福建厦门361024：2.南昌大学计算机科学与技术系，江西南昌330031) 摘要：基因特征选择是基因表达数据分析中的一种重要方法。粗糙集是一种处理不确定性、不一致性、不精确性数据的有效分类工具，其特点是保持基因表达数据集的分类能力不变，进行基因特征选择。为了避免传统粗糙集特征选择方法所必需的离散化过程带来的信息损失，将邻域粗糙集特征选择方法应用于基因的特征选取，提出了基于邻域粗糙集的基因选择方法。该方法从所有特征出发，根据特征重要度逐步删除冗余的特征，最后得到关键特征组进行分类研究。在2个标准的基因表达数据集上进行特征选取，并进行了分类实验，实验结果表明该方法是有效可行的。关键词：粗糙集：邻域关系：基因表达数据：特征选择：分类中图分类号：TP391文献标志码：A文章编号：1673-4785(2014)02-0210-04 中文引用格式：陈玉明，吴克寿，李向军.基因表达数据在邻域关系中的特征选择[J].智能系统学报，2014,9(2)：210-213. 英文引用格式：CHEN Yuming,WU Keshou,LI Xiangjun.Gene expression data feature selection with neighborhood relation[J]. CAAI Transactions on Intelligent Systems,2014,9(2):209-212. Gene expression data feature selection with neighborhood relation CHEN Yuming',WU Keshou',LI Xiangjun2 (1.Department of Computer Science and Technology,Xiamen University of Technology,Xiamen 361024,China;2.Department of Computer Science and Technology,Nanchang University,Nanchang 330031,China) Abstract:The selection of an efficient gene feature is a key procedure for analysis of gene expression data.The rough set theory is an efficient classification tool to deal with uncertain,inconsistent and inaccurate gene data.One limitation of the rough set theory is the lack of effective methods for processing real valued data.However,gene ex- pression data sets are always continuous.Discrete methods can result in information loss.This paper investigates an approach to the selection of gene feature on the basis of the neighborhood rough set theory.Starting from all the fea- tures,this approach gradually removes the redundant features,and finally gets the key features of the group classifi- cation study based on the importance degree of characteristics.To evaluate the performance of the proposed ap- proach,we applied it to two bench mark gene expression data sets which were compared to certain aspects of the feature selections.The experimental results illustrate that our algorithm is more effective for selecting high discrimi- native genes in cancer classification tasks. Keywords:rough sets;neighborhood relation;gene expression data;feature selection;classification 美国人类基因组计划(HG)把基因组信息学基因的表达数据所构成的数据矩阵。通过对该数据定义为：它是一个学科领域，包含着基因组信息的获矩阵的分析，可以回答一些生物学问题。随着试验取、处理、存储、分配、分析和解释的所有方面。基因技术及仪器的不断改进和基因组数据的急剧增长，表达数据分析的对象是在不同条件下，全部或部分现代DNA微阵列或芯片技术产生的各种基因表达数据均规模庞大、内容复杂。如何有效地分析利用收稿日期：2012-10-26.网络出版日期：2013-11-05. 基金项目：国家自然科学青年基金资助项目(61103246). 这些数据成为生物信息学中的挑战性课题。在基因通信作者：陈玉明.E-mail:cym0620@163.com 表达数据分析中，基因的数目成千上万，但往往只是

第９卷第２期智能系统学报Ｖｏｌ．９ №．２２０１４年４月ＣＡＡＩＴｒａｎｓａｃｔｉｏｎｓｏｎＩｎｔｅｌｌｉｇｅｎｔＳｙｓｔｅｍｓＡｐｒ．２０１４ＤＯＩ：１０．３９６９／ｊ．ｉｓｓｎ．１６７３⁃４７８５．２０１３０７０１４网络出版地址：ｈｔｔｐ：／／ｗｗｗ．ｃｎｋｉ．ｎｅｔ／ｋｃｍｓ／ｄｏｉ／ＣＮＫＩ：２３⁃１５３８／ＴＰ．２０１３１１０５．１２０２．００６．ｈｔｍｌ基因表达数据在邻域关系中的特征选择陈玉明１，吴克寿１，李向军２（１．厦门理工学院计算机科学与技术系，福建厦门３６１０２４；２．南昌大学计算机科学与技术系，江西南昌３３００３１）摘要：基因特征选择是基因表达数据分析中的一种重要方法。粗糙集是一种处理不确定性、不一致性、不精确性数据的有效分类工具，其特点是保持基因表达数据集的分类能力不变，进行基因特征选择。为了避免传统粗糙集特征选择方法所必需的离散化过程带来的信息损失，将邻域粗糙集特征选择方法应用于基因的特征选取，提出了基于邻域粗糙集的基因选择方法。该方法从所有特征出发，根据特征重要度逐步删除冗余的特征，最后得到关键特征组进行分类研究。在２个标准的基因表达数据集上进行特征选取，并进行了分类实验，实验结果表明该方法是有效可行的。关键词：粗糙集；邻域关系；基因表达数据；特征选择；分类中图分类号：ＴＰ３９１文献标志码：Ａ文章编号：１６７３⁃４７８５（２０１４）０２⁃０２１０⁃０４中文引用格式：陈玉明，吴克寿，李向军．基因表达数据在邻域关系中的特征选择［Ｊ］．智能系统学报，２０１４，９（２）：２１０⁃２１３．英文引用格式：ＣＨＥＮＹｕｍｉｎｇ，ＷＵＫｅｓｈｏｕ，ＬＩＸｉａｎｇｊｕｎ．Ｇｅｎｅｅｘｐｒｅｓｓｉｏｎｄａｔａｆｅａｔｕｒｅｓｅｌｅｃｔｉｏｎｗｉｔｈｎｅｉｇｈｂｏｒｈｏｏｄｒｅｌａｔｉｏｎ［Ｊ］．ＣＡＡＩＴｒａｎｓａｃｔｉｏｎｓｏｎＩｎｔｅｌｌｉｇｅｎｔＳｙｓｔｅｍｓ，２０１４，９（２）：２０９⁃２１２．ＧｅｎｅｅｘｐｒｅｓｓｉｏｎｄａｔａｆｅａｔｕｒｅｓｅｌｅｃｔｉｏｎｗｉｔｈｎｅｉｇｈｂｏｒｈｏｏｄｒｅｌａｔｉｏｎＣＨＥＮＹｕｍｉｎｇ１，ＷＵＫｅｓｈｏｕ１，ＬＩＸｉａｎｇｊｕｎ２（１．ＤｅｐａｒｔｍｅｎｔｏｆＣｏｍｐｕｔｅｒＳｃｉｅｎｃｅａｎｄＴｅｃｈｎｏｌｏｇｙ，ＸｉａｍｅｎＵｎｉｖｅｒｓｉｔｙｏｆＴｅｃｈｎｏｌｏｇｙ，Ｘｉａｍｅｎ３６１０２４，Ｃｈｉｎａ；２．ＤｅｐａｒｔｍｅｎｔｏｆＣｏｍｐｕｔｅｒＳｃｉｅｎｃｅａｎｄＴｅｃｈｎｏｌｏｇｙ，ＮａｎｃｈａｎｇＵｎｉｖｅｒｓｉｔｙ，Ｎａｎｃｈａｎｇ３３００３１，Ｃｈｉｎａ）Ａｂｓｔｒａｃｔ：Ｔｈｅｓｅｌｅｃｔｉｏｎｏｆａｎｅｆｆｉｃｉｅｎｔｇｅｎｅｆｅａｔｕｒｅｉｓａｋｅｙｐｒｏｃｅｄｕｒｅｆｏｒａｎａｌｙｓｉｓｏｆｇｅｎｅｅｘｐｒｅｓｓｉｏｎｄａｔａ．Ｔｈｅｒｏｕｇｈｓｅｔｔｈｅｏｒｙｉｓａｎｅｆｆｉｃｉｅｎｔｃｌａｓｓｉｆｉｃａｔｉｏｎｔｏｏｌｔｏｄｅａｌｗｉｔｈｕｎｃｅｒｔａｉｎ，ｉｎｃｏｎｓｉｓｔｅｎｔａｎｄｉｎａｃｃｕｒａｔｅｇｅｎｅｄａｔａ．Ｏｎｅｌｉｍｉｔａｔｉｏｎｏｆｔｈｅｒｏｕｇｈｓｅｔｔｈｅｏｒｙｉｓｔｈｅｌａｃｋｏｆｅｆｆｅｃｔｉｖｅｍｅｔｈｏｄｓｆｏｒｐｒｏｃｅｓｓｉｎｇｒｅａｌｖａｌｕｅｄｄａｔａ．Ｈｏｗｅｖｅｒ，ｇｅｎｅｅｘ⁃ ｐｒｅｓｓｉｏｎｄａｔａｓｅｔｓａｒｅａｌｗａｙｓｃｏｎｔｉｎｕｏｕｓ．Ｄｉｓｃｒｅｔｅｍｅｔｈｏｄｓｃａｎｒｅｓｕｌｔｉｎｉｎｆｏｒｍａｔｉｏｎｌｏｓｓ．Ｔｈｉｓｐａｐｅｒｉｎｖｅｓｔｉｇａｔｅｓａｎａｐｐｒｏａｃｈｔｏｔｈｅｓｅｌｅｃｔｉｏｎｏｆｇｅｎｅｆｅａｔｕｒｅｏｎｔｈｅｂａｓｉｓｏｆｔｈｅｎｅｉｇｈｂｏｒｈｏｏｄｒｏｕｇｈｓｅｔｔｈｅｏｒｙ．Ｓｔａｒｔｉｎｇｆｒｏｍａｌｌｔｈｅｆｅａ⁃ ｔｕｒｅｓ，ｔｈｉｓａｐｐｒｏａｃｈｇｒａｄｕａｌｌｙｒｅｍｏｖｅｓｔｈｅｒｅｄｕｎｄａｎｔｆｅａｔｕｒｅｓ，ａｎｄｆｉｎａｌｌｙｇｅｔｓｔｈｅｋｅｙｆｅａｔｕｒｅｓｏｆｔｈｅｇｒｏｕｐｃｌａｓｓｉｆｉ⁃ ｃａｔｉｏｎｓｔｕｄｙｂａｓｅｄｏｎｔｈｅｉｍｐｏｒｔａｎｃｅｄｅｇｒｅｅｏｆｃｈａｒａｃｔｅｒｉｓｔｉｃｓ．Ｔｏｅｖａｌｕａｔｅｔｈｅｐｅｒｆｏｒｍａｎｃｅｏｆｔｈｅｐｒｏｐｏｓｅｄａｐ⁃ ｐｒｏａｃｈ，ｗｅａｐｐｌｉｅｄｉｔｔｏｔｗｏｂｅｎｃｈｍａｒｋｇｅｎｅｅｘｐｒｅｓｓｉｏｎｄａｔａｓｅｔｓｗｈｉｃｈｗｅｒｅｃｏｍｐａｒｅｄｔｏｃｅｒｔａｉｎａｓｐｅｃｔｓｏｆｔｈｅｆｅａｔｕｒｅｓｅｌｅｃｔｉｏｎｓ．Ｔｈｅｅｘｐｅｒｉｍｅｎｔａｌｒｅｓｕｌｔｓｉｌｌｕｓｔｒａｔｅｔｈａｔｏｕｒａｌｇｏｒｉｔｈｍｉｓｍｏｒｅｅｆｆｅｃｔｉｖｅｆｏｒｓｅｌｅｃｔｉｎｇｈｉｇｈｄｉｓｃｒｉｍｉ⁃ ｎａｔｉｖｅｇｅｎｅｓｉｎｃａｎｃｅｒｃｌａｓｓｉｆｉｃａｔｉｏｎｔａｓｋｓ．Ｋｅｙｗｏｒｄｓ：ｒｏｕｇｈｓｅｔｓ；ｎｅｉｇｈｂｏｒｈｏｏｄｒｅｌａｔｉｏｎ；ｇｅｎｅｅｘｐｒｅｓｓｉｏｎｄａｔａ；ｆｅａｔｕｒｅｓｅｌｅｃｔｉｏｎ；ｃｌａｓｓｉｆｉｃａｔｉｏｎ收稿日期：２０１２⁃１０⁃２６．网络出版日期：２０１３⁃１１⁃０５．基金项目：国家自然科学青年基金资助项目（６１１０３２４６）．通信作者：陈玉明．Ｅ⁃ｍａｉｌ：ｃｙｍ０６２０＠１６３．ｃｏｍ．美国人类基因组计划（ＨＧＰ）把基因组信息学定义为：它是一个学科领域，包含着基因组信息的获取、处理、存储、分配、分析和解释的所有方面。基因表达数据分析的对象是在不同条件下，全部或部分基因的表达数据所构成的数据矩阵。通过对该数据矩阵的分析，可以回答一些生物学问题。随着试验技术及仪器的不断改进和基因组数据的急剧增长，现代ＤＮＡ微阵列或芯片技术产生的各种基因表达数据均规模庞大、内容复杂。如何有效地分析利用这些数据成为生物信息学中的挑战性课题。在基因表达数据分析中，基因的数目成千上万，但往往只是

第2期陈玉明，等：基因表达数据在邻域关系中的特征选择 ·211· 很少一部分的关键基因影响样本的分类，其他的基当p=1时，称为曼哈顿距离，当p=2时，称为因往往是冗余的或者是不重要的。在设计基因表达欧氏距离。数据分类器之前进行特征选择，可以有效降低分类定义3给定邻域信息系统I=(,A,V,f,6), 器的时间复杂度，提高分类精度。目前最常用的基对于任一x∈U,B二A,定义x在B上的δ邻域因表达数据特征选择方法主要有2类：基于过滤算 n(x)为法(filter)的选择方法)与基于wrapper的选择方 ng(x)={ylx,y∈U,Dg(x,y）≤8} 法[]。基于lter的基因表达数据特征选择方法使根据距离函数的定义，邻域n。(x)满足：用数据本身的内在特性作为评价基因的准则，但通 1)n8(x)≠0；过filter选择出来的若干个基因可能具有较强的相 2)x∈ng(x): 关性。基于wrapper的基因表达数据特征选择方法 3)y∈n8(x)台x∈ng(y); 根据分类器的某种性能来评价基因或基因子集的重要性，而基于wrapper方法在基因的选择过程中反 4)n8(x)=U。复调用分类算法，往往造成较高的时间复杂度。定义4给定邻域信息系统1s=(U,A,Vf,6), 粗糙集由波兰科学家Pawlak于1982年提任一特征子集BCA决定了一个邻域阈值δ上的邻出)，用于处理不确定、不一致、不精确数据的数学域关系NRs(B):NR,(B)={(x,y)∈U×UIDg(x, 理论工具。现已广泛应用在人工智能、数据挖掘、机 y)≤！。U/NR,(B)构成了U的一个邻域划分，称器学习等领域[47】。然而，Pawlak粗糙集只能处理其为U上的一簇邻域知识，其中每个邻域划分称为离散化的数据，对于现实世界广泛而大量存在的连一个邻域类或者邻域知识。上述邻域n(x)即为一续数据却缺乏有效的处理能力。基因表达数据也往个邻域类。往都是连续的，目前大多数方法是将基因表达数据 2基于邻域关系的基因选择方法先进行离散化[⑧劉，离散化过程必定会造成某种程度的信息丢失，并影响分类系统的分类精度。基于等价关系的信息熵、互信息、粗糙嫡等概念度量了知识的粗细程度，也反映了决策系统中的分 1邻域关系类能力大小，但主要处理离散型数据的决策系统，对传统粗糙集理论采用等价类形式化地表示知识于连续型的数据并不能够直接处理。下面结合邻域分类。然而，等价类是基于离散型的数据形成的等价关系与邻域类的定义，进一步定义了邻域特征选择关系划分而得到的，对于连续型的数据并不能构造合概念，用于连续型的基因表达数据的特征选择当中。适的等价类。因此，下面引入邻域关系处理连续型的同时，提出一种基于邻域关系的启发式基因表达数基因表达数据，用于基因表达数据的特征选择。据特征选择算法。定义1设五元组1=(U,A,V,f,)为邻域信 2.1邻域特征选择息系统，其中U是非空有限集，称为论域，A是有限定义5定义D,=(U,CUD,Vf,8)为一个特征集，V=UV。,V表示特征a的值域，f:U×A→ 邻域决策表，其中C为条件特征，特征值为连续型 V是一个信息函数，即对Hx∈U,a∈A,有的数据，邻域阈值为8，其邻域划分为U/NR。(C)= f(x,a)∈Va,6∈[0，l]为邻域阈值。 {X1,X2,…,X},D为决策特征，决策特征是一些决定义2给定邻域信息系统I、=(U,A,Vf,8), 策分类信息，为离散型的数据，以等价关系划分为对于任-x,y∈U,B二A,B={a1,a2,,an},定义 U/D={Y,Y2,…,Yn}o B上的距离函数D(x,y)满足：定义6设D,=(U,CUD,V,f,8)为一个邻 1)Da(x,y)≥0，非负；域决策表，HB≤C,XCU,记U/NR(B)={B, 2)Ds(x,y)=0,当且仅当x=y: B2,,B},则称B。(X)G=U{B1B∈ 3)D(x,y)=D(y,x),对称； U/NRs(B),B:SX}为X关于B的邻域下近似集， 4)Dg(x,y)+Ds(y,z)≥Dg(x,z)。称B·(X)6=U{B:IB:∈U/NRs(B),B:∩X≠O} 式中：为X关于B的邻域上近似集。 De(x,y)= 定义7设邻域决策表D,=(U,CUD,V,f, (Σ(1fx,a,)-fy,a)1)P) δ)，其中C为条件特征，特征值为连续型的数据，邻域阈值为δ，D为决策特征，决策特征是一些决策分

很少一部分的关键基因影响样本的分类，其他的基因往往是冗余的或者是不重要的。在设计基因表达数据分类器之前进行特征选择，可以有效降低分类器的时间复杂度，提高分类精度。目前最常用的基因表达数据特征选择方法主要有２类：基于过滤算法（ｆｉｌｔｅｒ）的选择方法［１］与基于ｗｒａｐｐｅｒ的选择方法［２］。基于ｆｉｌｔｅｒ的基因表达数据特征选择方法使用数据本身的内在特性作为评价基因的准则，但通过ｆｉｌｔｅｒ选择出来的若干个基因可能具有较强的相关性。基于ｗｒａｐｐｅｒ的基因表达数据特征选择方法根据分类器的某种性能来评价基因或基因子集的重要性，而基于ｗｒａｐｐｅｒ方法在基因的选择过程中反复调用分类算法，往往造成较高的时间复杂度。粗糙集由波兰科学家Ｐａｗｌａｋ于１９８２年提出［３］，用于处理不确定、不一致、不精确数据的数学理论工具。现已广泛应用在人工智能、数据挖掘、机器学习等领域［４⁃７］。然而，Ｐａｗｌａｋ粗糙集只能处理离散化的数据，对于现实世界广泛而大量存在的连续数据却缺乏有效的处理能力。基因表达数据也往往都是连续的，目前大多数方法是将基因表达数据先进行离散化［８］，离散化过程必定会造成某种程度的信息丢失，并影响分类系统的分类精度。１邻域关系传统粗糙集理论采用等价类形式化地表示知识分类。然而，等价类是基于离散型的数据形成的等价关系划分而得到的，对于连续型的数据并不能构造合适的等价类。因此，下面引入邻域关系处理连续型的基因表达数据，用于基因表达数据的特征选择。定义１设五元组ＩＳ＝（Ｕ，Ａ，Ｖ，ｆ，δ）为邻域信息系统，其中Ｕ是非空有限集，称为论域，Ａ是有限特征集，Ｖ＝∪ａ∈ＡＶａ，Ｖａ表示特征ａ的值域，ｆ：Ｕ ×Ａ → Ｖ是一个信息函数，即对 ∀ｘ ∈ Ｕ，ａ ∈ Ａ，有ｆ（ｘ，ａ） ∈Ｖａ，δ ∈ ［０，１］为邻域阈值。定义２给定邻域信息系统ＩＳ＝（Ｕ，Ａ，Ｖ，ｆ，δ），对于任一ｘ，ｙ ∈ Ｕ，Ｂ ⊆ Ａ，Ｂ＝｛ａ１，ａ２，．．．，ａｎ｝，定义Ｂ上的距离函数ＤＢ（ｘ，ｙ）满足：１）ＤＢ（ｘ，ｙ） ≥ ０，非负；２）ＤＢ（ｘ，ｙ）＝０，当且仅当ｘ＝ｙ；３）ＤＢ（ｘ，ｙ）＝ＤＢ（ｙ，ｘ），对称；４）ＤＢ（ｘ，ｙ）＋ＤＢ（ｙ，ｚ） ≥ ＤＢ（ｘ，ｚ）。式中：ＤＢ（ｘ，ｙ）＝（∑ ｎｉ＝１（｜ｆ（ｘ，ａｉ）－ｆ（ｙ，ａｉ）｜）ｐ）１／ｐ当ｐ＝１时，称为曼哈顿距离，当ｐ＝２时，称为欧氏距离。定义３给定邻域信息系统ＩＳ＝（Ｕ，Ａ，Ｖ，ｆ，δ），对于任一ｘ ∈ Ｕ，Ｂ ⊆ Ａ，定义ｘ在Ｂ上的 δ 邻域ｎ δ Ｂ（ｘ）为ｎ δ Ｂ（ｘ）＝｛ｙ｜ｘ，ｙ ∈ Ｕ，ＤＢ（ｘ，ｙ） ≤ δ｝根据距离函数的定义，邻域ｎ δ Ｂ（ｘ）满足：１）ｎ δ Ｂ（ｘ） ≠ ⌀；２）ｘ ∈ ｎ δ Ｂ（ｘ）；３）ｙ ∈ ｎ δ Ｂ（ｘ）⇔ｘ ∈ ｎ δ Ｂ（ｙ）；４） ∪ｘ∈Ｕｎ δ Ｂ（ｘ）＝Ｕ。定义４给定邻域信息系统ＩＳ＝（Ｕ，Ａ，Ｖ，ｆ，δ），任一特征子集Ｂ ⊆ Ａ决定了一个邻域阈值 δ 上的邻域关系ＮＲδ（Ｂ）：ＮＲδ（Ｂ）＝｛（ｘ，ｙ） ∈Ｕ × Ｕ｜ＤＢ（ｘ，ｙ） ≤δ｝。Ｕ／ＮＲδ（Ｂ）构成了Ｕ的一个邻域划分，称其为Ｕ上的一簇邻域知识，其中每个邻域划分称为一个邻域类或者邻域知识。上述邻域ｎ δ Ｂ（ｘ）即为一个邻域类。２基于邻域关系的基因选择方法基于等价关系的信息熵、互信息、粗糙熵等概念度量了知识的粗细程度，也反映了决策系统中的分类能力大小，但主要处理离散型数据的决策系统，对于连续型的数据并不能够直接处理。下面结合邻域关系与邻域类的定义，进一步定义了邻域特征选择概念，用于连续型的基因表达数据的特征选择当中。同时，提出一种基于邻域关系的启发式基因表达数据特征选择算法。２．１邻域特征选择定义５定义ＤＴ＝（Ｕ，Ｃ ∪ Ｄ，Ｖ，ｆ，δ）为一个邻域决策表，其中Ｃ为条件特征，特征值为连续型的数据，邻域阈值为 δ，其邻域划分为Ｕ／ＮＲδ（Ｃ）＝｛Ｘ１，Ｘ２，．．．，Ｘｍ｝，Ｄ为决策特征，决策特征是一些决策分类信息，为离散型的数据，以等价关系划分为Ｕ／Ｄ＝｛Ｙ１，Ｙ２，．．．，Ｙｎ｝。定义６设ＤＴ＝（Ｕ，Ｃ ∪ Ｄ，Ｖ，ｆ，δ）为一个邻域决策表， ∀Ｂ ⊆ Ｃ，Ｘ ⊆ Ｕ，记Ｕ／ＮＲδ（Ｂ）＝｛Ｂ１，Ｂ２，．．．，Ｂｉ｝，则称Ｂ∗ （Ｘ）δ ＝∪ ｛Ｂｉ｜Ｂｉ ∈ Ｕ／ＮＲδ（Ｂ），Ｂｉ ⊆ Ｘ｝为Ｘ关于Ｂ的邻域下近似集，称Ｂ ∗ （Ｘ）δ ＝∪｛Ｂｉ｜Ｂｉ ∈Ｕ／ＮＲδ（Ｂ），Ｂｉ ∩Ｘ≠∅｝为Ｘ关于Ｂ的邻域上近似集。定义７设邻域决策表ＤＴ＝（Ｕ，Ｃ ∪ Ｄ，Ｖ，ｆ， δ），其中Ｃ为条件特征，特征值为连续型的数据，邻域阈值为 δ，Ｄ为决策特征，决策特征是一些决策分第２期陈玉明，等：基因表达数据在邻域关系中的特征选择 ·２１１·

.212 智能系统学报第9卷类信息，为离散型的数据。定义决策特征D对条件 GSNRS算法的有效性。2个标准基因表达数据集分特征C的邻域依赖度为yc(D)。=C.(D)。I/ 别为Lymphoma和Liver cancer。Lymphoma数据集 IU,其中|U川表示集合U的基数。包含了96个样本，4026个特征基因，其中54个定义8设邻域决策表D,=(U,CUD,Vf, Othertype子类和42个B-celllymphoma子类。Liver 8),对Hb∈BCC,若YB(D)6=Ya-b(D)6,则称 cancer数据集包含了156个样本，1648个基因，其 b为B中相对于D是不必要的：否则称b为B中相中82个HCCs子类和74个nontumorlivers子类。实对于D是必要的。对HB二C,若B中任一元素相验基因数据集如表1所示。对于D都是必要的，则称B相对于D独立。表1基因表达数据集定义9设邻域决策表D,=(U,CUD,V,f, Table 1 Gene expression data sets 8),若HBCC,Yg(D)s=yc(D)s且B相对于D是数据集基因个数类别样本数独立的，则称B是选取的关键特征组，这一特征选取过程称为邻域特征选择。 Lymphoma 4026 B-cell 42 性质1设邻域决策表D,=(U,CUD,V,f, Lymphoma 4026 Other type 54 8),若B,CB2C.SC,则0≤YB(D)6≤ Liver cancer 1648 HCCs 82 YB(D)a≤.≤Yc(D)6≤1。 Liver cancer 1648 Nontumor livers 74 定义10设邻域决策表DT=(U,CUD,V,f, 在Lymphoma和Livercancer基因表达数据中分 8),Ha∈C,RSC,定义a相对于R的特征重要度别采用文献[9]中粗糙集的特征选择算法TRS与本为Sign(a,R,D)=YRUlal(D)s-Yr（D)6o 文邻域特征选择算法GSNRS进行比较。首先进行 2.2基于邻域关系的基因选择算法预处理，对于有缺失值的数据采用文献[10]的方法性质1表明邻域依赖度具有单调性，因此可以进行完备化。基因表达数据集是连续型的数据，对采用删除法或添加法进行特征选择，基因表达数据于经典粗糙集特征选择算法，需要对其数据进行离可以表示成前面定义的邻域决策表，依据上述邻域散化，离散化过程采用文献[8]中的方法进行。而特征选择的定义，可设计如下基于邻域关系的基因本文GSNRS特征选择算法，不需要离散化。设邻域选择算法。下面以定义10的特征重要度为启发式参数为8=0.1，特征选择结果如表2所示。信息设计了一种基于邻域关系的基因选择算法。表2基因数据集特征选择结果算法GSNRS(基于邻域关系的基因选择算法) Table 2 Results of gene feature selection 输入：基因表达数据决策表D,=(U,CUD,V, f,8); 数据集基因个数样本数TRS算法GSNRS算法输出：D,的一个邻域约简R。 Lymphoma 4026 96 7 6 1)计算整个条件特征集C相对于决策特征D Liver cancer 1 648 156 6 5 的邻域依赖度为Yc(D)s 由表2可知，TRS算法在Lymphoma数据集中 2)R:=C。选择出7个关键基因，在Liver cancer数据集中选择 3)当yR(D)6=Yc(D)s重复：出6个关键基因。GSNRS算法在Lymphoma数据集 ①对所有的aeR计算特征重要度Sigm(a,R,D); 中选择出6个关键基因，在Liver cancer数据集中选 ②在R中选择特征a满足特征重要度最小；择出5个关键基因。下面再比较2组基因的分类能 ③R:=R-{a}。力，分别针对选取的关键基因采用KNN,C5.0分类 4)输出R。器进行分类实验，并用留一交叉法检验分类精确率，在算法中，每次选择特征重要度最小的特征，若实验结果如表3所示。去掉它后决策表的邻域依赖度仍然不变，则可以去表3基因分类精确率掉，否则保留下来，依次进行下去，直到得到一个条 Table 3 Gene classification accuracy rate 件特征子集，在其中去掉任何一个特征，决策表的邻数据集 Lymphoma本文方法域依赖度都会改变，则算法结束，该特征子集即为所 Liver cancer 选取关键特征组。特征选择算法TRS GSNRS TRS GSNRS KNN分类器 93.6 94.9 89.1 91.4 3实验结果与分析 C5.0分类器 95.1 96.5 91.4 93.2 下面选用2个标准的基因表达数据集来验证上述实验结果表明，基于粗糙集的基因选择方

类信息，为离散型的数据。定义决策特征Ｄ对条件特征Ｃ的邻域依赖度为 γＣ（Ｄ）δ ＝｜Ｃ∗ （Ｄ）δ ｜／Ｕ，其中Ｕ表示集合Ｕ的基数。定义８设邻域决策表ＤＴ＝（Ｕ，Ｃ ∪ Ｄ，Ｖ，ｆ， δ），对 ∀ｂ ∈ Ｂ ⊆ Ｃ，若 γＢ（Ｄ）δ ＝ γＢ－｛ｂ｝（Ｄ）δ，则称ｂ为Ｂ中相对于Ｄ是不必要的；否则称ｂ为Ｂ中相对于Ｄ是必要的。对 ∀Ｂ ⊆ Ｃ，若Ｂ中任一元素相对于Ｄ都是必要的，则称Ｂ相对于Ｄ独立。定义９设邻域决策表ＤＴ＝（Ｕ，Ｃ ∪ Ｄ，Ｖ，ｆ， δ），若 ∀Ｂ⊆Ｃ， γＢ（Ｄ）δ ＝ γＣ（Ｄ）δ 且Ｂ相对于Ｄ是独立的，则称Ｂ是选取的关键特征组，这一特征选取过程称为邻域特征选择。性质１设邻域决策表ＤＴ＝（Ｕ，Ｃ ∪ Ｄ，Ｖ，ｆ， δ），若Ｂ１ ⊆ Ｂ２ ⊆．．． ⊆ Ｃ，则０ ≤ γＢ１（Ｄ）δ ≤ γＢ２（Ｄ）δ ≤．．． ≤ γＣ（Ｄ）δ ≤ １。定义１０设邻域决策表ＤＴ＝（Ｕ，Ｃ ∪ Ｄ，Ｖ，ｆ， δ）， ∀ａ∈Ｃ，Ｒ⊆Ｃ，定义ａ相对于Ｒ的特征重要度为Ｓｉｇｎ（ａ，Ｒ，Ｄ）＝ γＲ∪｛ａ｝（Ｄ）δ － γＲ（Ｄ）δ。２．２基于邻域关系的基因选择算法性质１表明邻域依赖度具有单调性，因此可以采用删除法或添加法进行特征选择，基因表达数据可以表示成前面定义的邻域决策表，依据上述邻域特征选择的定义，可设计如下基于邻域关系的基因选择算法。下面以定义１０的特征重要度为启发式信息设计了一种基于邻域关系的基因选择算法。算法ＧＳＮＲＳ（基于邻域关系的基因选择算法）输入：基因表达数据决策表ＤＴ＝（Ｕ，Ｃ ∪ Ｄ，Ｖ，ｆ，δ）；输出：ＤＴ的一个邻域约简Ｒ。１）计算整个条件特征集Ｃ相对于决策特征Ｄ的邻域依赖度为 γＣ（Ｄ）δ。２）Ｒ：＝Ｃ。３）当 γＲ（Ｄ）δ ＝ γＣ（Ｄ）δ 重复： ①对所有的ａ∈Ｒ计算特征重要度Ｓｉｇｎ（ａ，Ｒ，Ｄ）； ②在Ｒ中选择特征ａ满足特征重要度最小； ③ Ｒ：＝Ｒ－｛ａ｝。４）输出Ｒ。在算法中，每次选择特征重要度最小的特征，若去掉它后决策表的邻域依赖度仍然不变，则可以去掉，否则保留下来，依次进行下去，直到得到一个条件特征子集，在其中去掉任何一个特征，决策表的邻域依赖度都会改变，则算法结束，该特征子集即为所选取关键特征组。３实验结果与分析下面选用２个标准的基因表达数据集来验证ＧＳＮＲＳ算法的有效性。２个标准基因表达数据集分别为Ｌｙｍｐｈｏｍａ和Ｌｉｖｅｒｃａｎｃｅｒ。Ｌｙｍｐｈｏｍａ数据集包含了９６个样本，４０２６个特征基因，其中５４个Ｏｔｈｅｒｔｙｐｅ子类和４２个Ｂ⁃ｃｅｌｌｌｙｍｐｈｏｍａ子类。Ｌｉｖｅｒｃａｎｃｅｒ数据集包含了１５６个样本，１６４８个基因，其中８２个ＨＣＣｓ子类和７４个ｎｏｎｔｕｍｏｒｌｉｖｅｒｓ子类。实验基因数据集如表１所示。表１基因表达数据集Ｔａｂｌｅ１Ｇｅｎｅｅｘｐｒｅｓｓｉｏｎｄａｔａｓｅｔｓ数据集基因个数类别样本数Ｌｙｍｐｈｏｍａ４０２６Ｂ⁃ｃｅｌｌ４２Ｌｙｍｐｈｏｍａ４０２６Ｏｔｈｅｒｔｙｐｅ５４Ｌｉｖｅｒｃａｎｃｅｒ１６４８ＨＣＣｓ８２Ｌｉｖｅｒｃａｎｃｅｒ１６４８Ｎｏｎｔｕｍｏｒｌｉｖｅｒｓ７４在Ｌｙｍｐｈｏｍａ和Ｌｉｖｅｒｃａｎｃｅｒ基因表达数据中分别采用文献［９］中粗糙集的特征选择算法ＴＲＳ与本文邻域特征选择算法ＧＳＮＲＳ进行比较。首先进行预处理，对于有缺失值的数据采用文献［１０］的方法进行完备化。基因表达数据集是连续型的数据，对于经典粗糙集特征选择算法，需要对其数据进行离散化，离散化过程采用文献［８］中的方法进行。而本文ＧＳＮＲＳ特征选择算法，不需要离散化。设邻域参数为 δ ＝０．１，特征选择结果如表２所示。表２基因数据集特征选择结果Ｔａｂｌｅ２Ｒｅｓｕｌｔｓｏｆｇｅｎｅｆｅａｔｕｒｅｓｅｌｅｃｔｉｏｎ数据集基因个数样本数ＴＲＳ算法ＧＳＮＲＳ算法Ｌｙｍｐｈｏｍａ４０２６９６７６Ｌｉｖｅｒｃａｎｃｅｒ１６４８１５６６５由表２可知，ＴＲＳ算法在Ｌｙｍｐｈｏｍａ数据集中选择出７个关键基因，在Ｌｉｖｅｒｃａｎｃｅｒ数据集中选择出６个关键基因。ＧＳＮＲＳ算法在Ｌｙｍｐｈｏｍａ数据集中选择出６个关键基因，在Ｌｉｖｅｒｃａｎｃｅｒ数据集中选择出５个关键基因。下面再比较２组基因的分类能力，分别针对选取的关键基因采用ＫＮＮ，Ｃ５．０分类器进行分类实验，并用留一交叉法检验分类精确率，实验结果如表３所示。表３基因分类精确率Ｔａｂｌｅ３Ｇｅｎｅｃｌａｓｓｉｆｉｃａｔｉｏｎａｃｃｕｒａｃｙｒａｔｅ％数据集特征选择算法Ｌｙｍｐｈｏｍａ本文方法ＴＲＳＧＳＮＲＳＬｉｖｅｒｃａｎｃｅｒＴＲＳＧＳＮＲＳＫＮＮ分类器９３．６９４．９８９．１９１．４Ｃ５．０分类器９５．１９６．５９１．４９３．２上述实验结果表明，基于粗糙集的基因选择方 ·２１２· 智能系统学报第９卷

第2期陈玉明，等：基因表达数据在邻域关系中的特征选择 .213. 法和基于邻域关系的基因选择方法都能正确提取有 [4]BANERJEE M,MITRA S,BANKA H.Evolutinary-rough 效的基因。基于邻域关系的基因选择方法不需要离 feature selection in gene expression data[J].IEEE Transac- 散化，而且由于避免了离散化过程的造成的信息丢 tions on Systems,Man,and Cybernetics,Part C:Applica- tion and Reviews,2007,37:622-632. 失，提取的特征基因个数较少。在分类精度上，基于 [5]YANG Ming,YANG Ping.A novel condensing tree struc- 邻域关系的基因选择方法提取的基因优于基于粗糙 ture for rough set feature selection[].Neurocomputing, 集的基因选择方法提取的基因。 2008.71(4/5/6):1092.1100. [6]QIAN Yuhua,LIANG Jiye.Positive approximation:an ac- 4结束语 celerator for attribute reduction in rough set theory Arti- 传统粗糙集理论中的特征选择方法往往难以处 ficial Intelligence,2010,174(9/10):597-618. 理连续性的基因表达数据，成为基因表达数据研究 [7]CHEN Yuming,MIAO Duoqian.A rough set approach to feature selection based on power set tree[J].Knowledge- 中的主要缺陷和障碍。本文针对传统粗糙集理论中 Based Systems,2011,24(2):275-281. 难以处理连续数据的缺点，在特征选择中引入邻域 [8]苗夺谦.Rough set理论中连续属性的离散化方法[J].自关系，定义了邻域依赖度与邻域特征选择等概念，提动化学报，2001,27(3)：296-302. 出了一种基于邻域关系的基因特征选择方法。该特 MIAO Duoqian.A new method of discretization of continu- 征方法不用对数据进行离散化，避免了信息损失，从 ous attributes in rough sets [J].Acta Automatica Sinica, 而提高了被选择基因的分类准确率。拓展了粗糙集 2001,27(3):296-302. [9]王国胤.Rough集理论与知识获取[M].西安：西安交通理论的应用范围，为基因表达数据分析技术提供了大学出版社，2001：24-28. 一种新的尝试。 [10]GRZYMALA-BUSSE J W.Handling missing attribute val- ues[M].[S.I.]:Springer,2005:37-57. 参考文献：作者简介： [1]TIBSHIRANI R,HASTIE T,NARASHIMAN B,et al.Di- 陈玉明，男，1977年生，副教授.主 agnosis of multiple cancer types by shrunken centroids of 要研究方向为粒计算、粗糙集、模式识 gene expression[C]//Nat'1 Academy of Sciences.[S.1.], 别、数据挖掘等。 USA,2002:6567-6572. [2]KOHAVI R,JOHN G H.Wrappers for feature subset selec- tion[J].Artificial Intelligence,1997,97(1/2):273-324. [3]PAWLAK Z.Rough sets[J].International Journal of Com- puter and Information Science,1982,11(5):341-356

法和基于邻域关系的基因选择方法都能正确提取有效的基因。基于邻域关系的基因选择方法不需要离散化，而且由于避免了离散化过程的造成的信息丢失，提取的特征基因个数较少。在分类精度上，基于邻域关系的基因选择方法提取的基因优于基于粗糙集的基因选择方法提取的基因。４结束语传统粗糙集理论中的特征选择方法往往难以处理连续性的基因表达数据，成为基因表达数据研究中的主要缺陷和障碍。本文针对传统粗糙集理论中难以处理连续数据的缺点，在特征选择中引入邻域关系，定义了邻域依赖度与邻域特征选择等概念，提出了一种基于邻域关系的基因特征选择方法。该特征方法不用对数据进行离散化，避免了信息损失，从而提高了被选择基因的分类准确率。拓展了粗糙集理论的应用范围，为基因表达数据分析技术提供了一种新的尝试。参考文献：［１］ＴＩＢＳＨＩＲＡＮＩＲ，ＨＡＳＴＩＥＴ，ＮＡＲＡＳＨＩＭＡＮＢ，ｅｔａｌ．Ｄｉ⁃ ａｇｎｏｓｉｓｏｆｍｕｌｔｉｐｌｅｃａｎｃｅｒｔｙｐｅｓｂｙｓｈｒｕｎｋｅｎｃｅｎｔｒｏｉｄｓｏｆｇｅｎｅｅｘｐｒｅｓｓｉｏｎ［Ｃ］／／Ｎａｔ’１ＡｃａｄｅｍｙｏｆＳｃｉｅｎｃｅｓ．［Ｓ．ｌ．］，ＵＳＡ，２００２：６５６７⁃６５７２．［２］ＫＯＨＡＶＩＲ，ＪＯＨＮＧＨ．Ｗｒａｐｐｅｒｓｆｏｒｆｅａｔｕｒｅｓｕｂｓｅｔｓｅｌｅｃ⁃ ｔｉｏｎ［Ｊ］．ＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅ，１９９７，９７（１／２）：２７３⁃３２４．［３］ＰＡＷＬＡＫＺ．Ｒｏｕｇｈｓｅｔｓ［Ｊ］．ＩｎｔｅｒｎａｔｉｏｎａｌＪｏｕｒｎａｌｏｆＣｏｍ⁃ ｐｕｔｅｒａｎｄＩｎｆｏｒｍａｔｉｏｎＳｃｉｅｎｃｅ，１９８２，１１（５）：３４１⁃３５６．［４］ＢＡＮＥＲＪＥＥＭ，ＭＩＴＲＡＳ，ＢＡＮＫＡＨ．Ｅｖｏｌｕｔｉｎａｒｙ⁃ｒｏｕｇｈｆｅａｔｕｒｅｓｅｌｅｃｔｉｏｎｉｎｇｅｎｅｅｘｐｒｅｓｓｉｏｎｄａｔａ［Ｊ］．ＩＥＥＥＴｒａｎｓａｃ⁃ ｔｉｏｎｓｏｎＳｙｓｔｅｍｓ，Ｍａｎ，ａｎｄＣｙｂｅｒｎｅｔｉｃｓ，ＰａｒｔＣ：Ａｐｐｌｉｃａ⁃ ｔｉｏｎａｎｄＲｅｖｉｅｗｓ，２００７，３７：６２２⁃６３２．［５］ＹＡＮＧＭｉｎｇ，ＹＡＮＧＰｉｎｇ．Ａｎｏｖｅｌｃｏｎｄｅｎｓｉｎｇｔｒｅｅｓｔｒｕｃ⁃ ｔｕｒｅｆｏｒｒｏｕｇｈｓｅｔｆｅａｔｕｒｅｓｅｌｅｃｔｉｏｎ［Ｊ］．Ｎｅｕｒｏｃｏｍｐｕｔｉｎｇ，２００８，７１（４／５／６）：１０９２⁃１１００．［６］ＱＩＡＮＹｕｈｕａ，ＬＩＡＮＧＪｉｙｅ．Ｐｏｓｉｔｉｖｅａｐｐｒｏｘｉｍａｔｉｏｎ：ａｎａｃ⁃ ｃｅｌｅｒａｔｏｒｆｏｒａｔｔｒｉｂｕｔｅｒｅｄｕｃｔｉｏｎｉｎｒｏｕｇｈｓｅｔｔｈｅｏｒｙ［Ｊ］．Ａｒｔｉ⁃ ｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅ，２０１０，１７４（９／１０）：５９７⁃６１８．［７］ＣＨＥＮＹｕｍｉｎｇ，ＭＩＡＯＤｕｏｑｉａｎ．Ａｒｏｕｇｈｓｅｔａｐｐｒｏａｃｈｔｏｆｅａｔｕｒｅｓｅｌｅｃｔｉｏｎｂａｓｅｄｏｎｐｏｗｅｒｓｅｔｔｒｅｅ［Ｊ］．Ｋｎｏｗｌｅｄｇｅ⁃ ＢａｓｅｄＳｙｓｔｅｍｓ，２０１１，２４（２）：２７５⁃２８１．［８］苗夺谦．Ｒｏｕｇｈｓｅｔ理论中连续属性的离散化方法［Ｊ］．自动化学报，２００１，２７（３）：２９６⁃３０２．ＭＩＡＯＤｕｏｑｉａｎ．Ａｎｅｗｍｅｔｈｏｄｏｆｄｉｓｃｒｅｔｉｚａｔｉｏｎｏｆｃｏｎｔｉｎｕ⁃ ｏｕｓａｔｔｒｉｂｕｔｅｓｉｎｒｏｕｇｈｓｅｔｓ［Ｊ］．ＡｃｔａＡｕｔｏｍａｔｉｃａＳｉｎｉｃａ，２００１，２７（３）：２９６⁃３０２．［９］王国胤．Ｒｏｕｇｈ集理论与知识获取［Ｍ］．西安：西安交通大学出版社，２００１：２４⁃２８．［１０］ＧＲＺＹＭＡＬＡ⁃ＢＵＳＳＥＪＷ．Ｈａｎｄｌｉｎｇｍｉｓｓｉｎｇａｔｔｒｉｂｕｔｅｖａｌ⁃ ｕｅｓ［Ｍ］．［Ｓ．ｌ．］：Ｓｐｒｉｎｇｅｒ，２００５：３７⁃５７．作者简介：陈玉明，男，１９７７年生，副教授，主要研究方向为粒计算、粗糙集、模式识别、数据挖掘等。第２期陈玉明，等：基因表达数据在邻域关系中的特征选择 ·２１３·

点击下载完整版文档（PDF格式）

已到末页，全文结束

点击下载（PDF格式）

浏览记录