很少一部分的关键基因影响样本的分类，其他的基因往往是冗余的或者是不重要的

正在加载图片...

第2期陈玉明，等：基因表达数据在邻域关系中的特征选择 ·211· 很少一部分的关键基因影响样本的分类，其他的基当p=1时，称为曼哈顿距离，当p=2时，称为因往往是冗余的或者是不重要的。在设计基因表达欧氏距离。数据分类器之前进行特征选择，可以有效降低分类定义3给定邻域信息系统I=(,A,V,f,6), 器的时间复杂度，提高分类精度。目前最常用的基对于任一x∈U,B二A,定义x在B上的δ邻域因表达数据特征选择方法主要有2类：基于过滤算 n(x)为法(filter)的选择方法)与基于wrapper的选择方 ng(x)={ylx,y∈U,Dg(x,y）≤8} 法[]。基于lter的基因表达数据特征选择方法使根据距离函数的定义，邻域n。(x)满足：用数据本身的内在特性作为评价基因的准则，但通 1)n8(x)≠0；过filter选择出来的若干个基因可能具有较强的相 2)x∈ng(x): 关性。基于wrapper的基因表达数据特征选择方法 3)y∈n8(x)台x∈ng(y); 根据分类器的某种性能来评价基因或基因子集的重要性，而基于wrapper方法在基因的选择过程中反 4)n8(x)=U。复调用分类算法，往往造成较高的时间复杂度。定义4给定邻域信息系统1s=(U,A,Vf,6), 粗糙集由波兰科学家Pawlak于1982年提任一特征子集BCA决定了一个邻域阈值δ上的邻出)，用于处理不确定、不一致、不精确数据的数学域关系NRs(B):NR,(B)={(x,y)∈U×UIDg(x, 理论工具。现已广泛应用在人工智能、数据挖掘、机 y)≤！。U/NR,(B)构成了U的一个邻域划分，称器学习等领域[47】。然而，Pawlak粗糙集只能处理其为U上的一簇邻域知识，其中每个邻域划分称为离散化的数据，对于现实世界广泛而大量存在的连一个邻域类或者邻域知识。上述邻域n(x)即为一续数据却缺乏有效的处理能力。基因表达数据也往个邻域类。往都是连续的，目前大多数方法是将基因表达数据 2基于邻域关系的基因选择方法先进行离散化[⑧劉，离散化过程必定会造成某种程度的信息丢失，并影响分类系统的分类精度。基于等价关系的信息熵、互信息、粗糙嫡等概念度量了知识的粗细程度，也反映了决策系统中的分 1邻域关系类能力大小，但主要处理离散型数据的决策系统，对传统粗糙集理论采用等价类形式化地表示知识于连续型的数据并不能够直接处理。下面结合邻域分类。然而，等价类是基于离散型的数据形成的等价关系与邻域类的定义，进一步定义了邻域特征选择关系划分而得到的，对于连续型的数据并不能构造合概念，用于连续型的基因表达数据的特征选择当中。适的等价类。因此，下面引入邻域关系处理连续型的同时，提出一种基于邻域关系的启发式基因表达数基因表达数据，用于基因表达数据的特征选择。据特征选择算法。定义1设五元组1=(U,A,V,f,)为邻域信 2.1邻域特征选择息系统，其中U是非空有限集，称为论域，A是有限定义5定义D,=(U,CUD,Vf,8)为一个特征集，V=UV。,V表示特征a的值域，f:U×A→ 邻域决策表，其中C为条件特征，特征值为连续型 V是一个信息函数，即对Hx∈U,a∈A,有的数据，邻域阈值为8，其邻域划分为U/NR。(C)= f(x,a)∈Va,6∈[0，l]为邻域阈值。 {X1,X2,…,X},D为决策特征，决策特征是一些决定义2给定邻域信息系统I、=(U,A,Vf,8), 策分类信息，为离散型的数据，以等价关系划分为对于任-x,y∈U,B二A,B={a1,a2,,an},定义 U/D={Y,Y2,…,Yn}o B上的距离函数D(x,y)满足：定义6设D,=(U,CUD,V,f,8)为一个邻 1)Da(x,y)≥0，非负；域决策表，HB≤C,XCU,记U/NR(B)={B, 2)Ds(x,y)=0,当且仅当x=y: B2,,B},则称B。(X)G=U{B1B∈ 3)D(x,y)=D(y,x),对称； U/NRs(B),B:SX}为X关于B的邻域下近似集， 4)Dg(x,y)+Ds(y,z)≥Dg(x,z)。称B·(X)6=U{B:IB:∈U/NRs(B),B:∩X≠O} 式中：为X关于B的邻域上近似集。 De(x,y)= 定义7设邻域决策表D,=(U,CUD,V,f, (Σ(1fx,a,)-fy,a)1)P) δ)，其中C为条件特征，特征值为连续型的数据，邻域阈值为δ，D为决策特征，决策特征是一些决策分很少一部分的关键基因影响样本的分类，其他的基因往往是冗余的或者是不重要的。在设计基因表达数据分类器之前进行特征选择，可以有效降低分类器的时间复杂度，提高分类精度。目前最常用的基因表达数据特征选择方法主要有２类：基于过滤算法（ｆｉｌｔｅｒ）的选择方法［１］与基于ｗｒａｐｐｅｒ的选择方法［２］。基于ｆｉｌｔｅｒ的基因表达数据特征选择方法使用数据本身的内在特性作为评价基因的准则，但通过ｆｉｌｔｅｒ选择出来的若干个基因可能具有较强的相关性。基于ｗｒａｐｐｅｒ的基因表达数据特征选择方法根据分类器的某种性能来评价基因或基因子集的重要性，而基于ｗｒａｐｐｅｒ方法在基因的选择过程中反复调用分类算法，往往造成较高的时间复杂度。粗糙集由波兰科学家Ｐａｗｌａｋ于１９８２年提出［３］，用于处理不确定、不一致、不精确数据的数学理论工具。现已广泛应用在人工智能、数据挖掘、机器学习等领域［４⁃７］。然而，Ｐａｗｌａｋ粗糙集只能处理离散化的数据，对于现实世界广泛而大量存在的连续数据却缺乏有效的处理能力。基因表达数据也往往都是连续的，目前大多数方法是将基因表达数据先进行离散化［８］，离散化过程必定会造成某种程度的信息丢失，并影响分类系统的分类精度。１邻域关系传统粗糙集理论采用等价类形式化地表示知识分类。然而，等价类是基于离散型的数据形成的等价关系划分而得到的，对于连续型的数据并不能构造合适的等价类。因此，下面引入邻域关系处理连续型的基因表达数据，用于基因表达数据的特征选择。定义１设五元组ＩＳ＝（Ｕ，Ａ，Ｖ，ｆ，δ）为邻域信息系统，其中Ｕ是非空有限集，称为论域，Ａ是有限特征集，Ｖ＝∪ａ∈ＡＶａ，Ｖａ表示特征ａ的值域，ｆ：Ｕ ×Ａ → Ｖ是一个信息函数，即对 ∀ｘ ∈ Ｕ，ａ ∈ Ａ，有ｆ（ｘ，ａ） ∈Ｖａ，δ ∈ ［０，１］为邻域阈值。定义２给定邻域信息系统ＩＳ＝（Ｕ，Ａ，Ｖ，ｆ，δ），对于任一ｘ，ｙ ∈ Ｕ，Ｂ ⊆ Ａ，Ｂ＝｛ａ１，ａ２，．．．，ａｎ｝，定义Ｂ上的距离函数ＤＢ（ｘ，ｙ）满足：１）ＤＢ（ｘ，ｙ） ≥ ０，非负；２）ＤＢ（ｘ，ｙ）＝０，当且仅当ｘ＝ｙ；３）ＤＢ（ｘ，ｙ）＝ＤＢ（ｙ，ｘ），对称；４）ＤＢ（ｘ，ｙ）＋ＤＢ（ｙ，ｚ） ≥ ＤＢ（ｘ，ｚ）。式中：ＤＢ（ｘ，ｙ）＝（∑ ｎｉ＝１（｜ｆ（ｘ，ａｉ）－ｆ（ｙ，ａｉ）｜）ｐ）１／ｐ当ｐ＝１时，称为曼哈顿距离，当ｐ＝２时，称为欧氏距离。定义３给定邻域信息系统ＩＳ＝（Ｕ，Ａ，Ｖ，ｆ，δ），对于任一ｘ ∈ Ｕ，Ｂ ⊆ Ａ，定义ｘ在Ｂ上的 δ 邻域ｎ δ Ｂ（ｘ）为ｎ δ Ｂ（ｘ）＝｛ｙ｜ｘ，ｙ ∈ Ｕ，ＤＢ（ｘ，ｙ） ≤ δ｝根据距离函数的定义，邻域ｎ δ Ｂ（ｘ）满足：１）ｎ δ Ｂ（ｘ） ≠ ⌀；２）ｘ ∈ ｎ δ Ｂ（ｘ）；３）ｙ ∈ ｎ δ Ｂ（ｘ）⇔ｘ ∈ ｎ δ Ｂ（ｙ）；４） ∪ｘ∈Ｕｎ δ Ｂ（ｘ）＝Ｕ。定义４给定邻域信息系统ＩＳ＝（Ｕ，Ａ，Ｖ，ｆ，δ），任一特征子集Ｂ ⊆ Ａ决定了一个邻域阈值 δ 上的邻域关系ＮＲδ（Ｂ）：ＮＲδ（Ｂ）＝｛（ｘ，ｙ） ∈Ｕ × Ｕ｜ＤＢ（ｘ，ｙ） ≤δ｝。Ｕ／ＮＲδ（Ｂ）构成了Ｕ的一个邻域划分，称其为Ｕ上的一簇邻域知识，其中每个邻域划分称为一个邻域类或者邻域知识。上述邻域ｎ δ Ｂ（ｘ）即为一个邻域类。２基于邻域关系的基因选择方法基于等价关系的信息熵、互信息、粗糙熵等概念度量了知识的粗细程度，也反映了决策系统中的分类能力大小，但主要处理离散型数据的决策系统，对于连续型的数据并不能够直接处理。下面结合邻域关系与邻域类的定义，进一步定义了邻域特征选择概念，用于连续型的基因表达数据的特征选择当中。同时，提出一种基于邻域关系的启发式基因表达数据特征选择算法。２．１邻域特征选择定义５定义ＤＴ＝（Ｕ，Ｃ ∪ Ｄ，Ｖ，ｆ，δ）为一个邻域决策表，其中Ｃ为条件特征，特征值为连续型的数据，邻域阈值为 δ，其邻域划分为Ｕ／ＮＲδ（Ｃ）＝｛Ｘ１，Ｘ２，．．．，Ｘｍ｝，Ｄ为决策特征，决策特征是一些决策分类信息，为离散型的数据，以等价关系划分为Ｕ／Ｄ＝｛Ｙ１，Ｙ２，．．．，Ｙｎ｝。定义６设ＤＴ＝（Ｕ，Ｃ ∪ Ｄ，Ｖ，ｆ，δ）为一个邻域决策表， ∀Ｂ ⊆ Ｃ，Ｘ ⊆ Ｕ，记Ｕ／ＮＲδ（Ｂ）＝｛Ｂ１，Ｂ２，．．．，Ｂｉ｝，则称Ｂ∗ （Ｘ）δ ＝∪ ｛Ｂｉ｜Ｂｉ ∈ Ｕ／ＮＲδ（Ｂ），Ｂｉ ⊆ Ｘ｝为Ｘ关于Ｂ的邻域下近似集，称Ｂ ∗ （Ｘ）δ ＝∪｛Ｂｉ｜Ｂｉ ∈Ｕ／ＮＲδ（Ｂ），Ｂｉ ∩Ｘ≠∅｝为Ｘ关于Ｂ的邻域上近似集。定义７设邻域决策表ＤＴ＝（Ｕ，Ｃ ∪ Ｄ，Ｖ，ｆ， δ），其中Ｃ为条件特征，特征值为连续型的数据，邻域阈值为 δ，Ｄ为决策特征，决策特征是一些决策分第２期陈玉明，等：基因表达数据在邻域关系中的特征选择 ·２１１·

<<向上翻页向下翻页>>

点击下载：人工智能基础：基因表达数据在邻域关系中的特征选择