类信息，为离散型的数据。定义决策特征Ｄ对条件特征Ｃ的邻域依赖度

正在加载图片...

.212 智能系统学报第9卷类信息，为离散型的数据。定义决策特征D对条件 GSNRS算法的有效性。2个标准基因表达数据集分特征C的邻域依赖度为yc(D)。=C.(D)。I/ 别为Lymphoma和Liver cancer。Lymphoma数据集 IU,其中|U川表示集合U的基数。包含了96个样本，4026个特征基因，其中54个定义8设邻域决策表D,=(U,CUD,Vf, Othertype子类和42个B-celllymphoma子类。Liver 8),对Hb∈BCC,若YB(D)6=Ya-b(D)6,则称 cancer数据集包含了156个样本，1648个基因，其 b为B中相对于D是不必要的：否则称b为B中相中82个HCCs子类和74个nontumorlivers子类。实对于D是必要的。对HB二C,若B中任一元素相验基因数据集如表1所示。对于D都是必要的，则称B相对于D独立。表1基因表达数据集定义9设邻域决策表D,=(U,CUD,V,f, Table 1 Gene expression data sets 8),若HBCC,Yg(D)s=yc(D)s且B相对于D是数据集基因个数类别样本数独立的，则称B是选取的关键特征组，这一特征选取过程称为邻域特征选择。 Lymphoma 4026 B-cell 42 性质1设邻域决策表D,=(U,CUD,V,f, Lymphoma 4026 Other type 54 8),若B,CB2C.SC,则0≤YB(D)6≤ Liver cancer 1648 HCCs 82 YB(D)a≤.≤Yc(D)6≤1。 Liver cancer 1648 Nontumor livers 74 定义10设邻域决策表DT=(U,CUD,V,f, 在Lymphoma和Livercancer基因表达数据中分 8),Ha∈C,RSC,定义a相对于R的特征重要度别采用文献[9]中粗糙集的特征选择算法TRS与本为Sign(a,R,D)=YRUlal(D)s-Yr（D)6o 文邻域特征选择算法GSNRS进行比较。首先进行 2.2基于邻域关系的基因选择算法预处理，对于有缺失值的数据采用文献[10]的方法性质1表明邻域依赖度具有单调性，因此可以进行完备化。基因表达数据集是连续型的数据，对采用删除法或添加法进行特征选择，基因表达数据于经典粗糙集特征选择算法，需要对其数据进行离可以表示成前面定义的邻域决策表，依据上述邻域散化，离散化过程采用文献[8]中的方法进行。而特征选择的定义，可设计如下基于邻域关系的基因本文GSNRS特征选择算法，不需要离散化。设邻域选择算法。下面以定义10的特征重要度为启发式参数为8=0.1，特征选择结果如表2所示。信息设计了一种基于邻域关系的基因选择算法。表2基因数据集特征选择结果算法GSNRS(基于邻域关系的基因选择算法) Table 2 Results of gene feature selection 输入：基因表达数据决策表D,=(U,CUD,V, f,8); 数据集基因个数样本数TRS算法GSNRS算法输出：D,的一个邻域约简R。 Lymphoma 4026 96 7 6 1)计算整个条件特征集C相对于决策特征D Liver cancer 1 648 156 6 5 的邻域依赖度为Yc(D)s 由表2可知，TRS算法在Lymphoma数据集中 2)R:=C。选择出7个关键基因，在Liver cancer数据集中选择 3)当yR(D)6=Yc(D)s重复：出6个关键基因。GSNRS算法在Lymphoma数据集 ①对所有的aeR计算特征重要度Sigm(a,R,D); 中选择出6个关键基因，在Liver cancer数据集中选 ②在R中选择特征a满足特征重要度最小；择出5个关键基因。下面再比较2组基因的分类能 ③R:=R-{a}。力，分别针对选取的关键基因采用KNN,C5.0分类 4)输出R。器进行分类实验，并用留一交叉法检验分类精确率，在算法中，每次选择特征重要度最小的特征，若实验结果如表3所示。去掉它后决策表的邻域依赖度仍然不变，则可以去表3基因分类精确率掉，否则保留下来，依次进行下去，直到得到一个条 Table 3 Gene classification accuracy rate 件特征子集，在其中去掉任何一个特征，决策表的邻数据集 Lymphoma本文方法域依赖度都会改变，则算法结束，该特征子集即为所 Liver cancer 选取关键特征组。特征选择算法TRS GSNRS TRS GSNRS KNN分类器 93.6 94.9 89.1 91.4 3实验结果与分析 C5.0分类器 95.1 96.5 91.4 93.2 下面选用2个标准的基因表达数据集来验证上述实验结果表明，基于粗糙集的基因选择方类信息，为离散型的数据。定义决策特征Ｄ对条件特征Ｃ的邻域依赖度为 γＣ（Ｄ）δ ＝｜Ｃ∗ （Ｄ）δ ｜／Ｕ，其中Ｕ表示集合Ｕ的基数。定义８设邻域决策表ＤＴ＝（Ｕ，Ｃ ∪ Ｄ，Ｖ，ｆ， δ），对 ∀ｂ ∈ Ｂ ⊆ Ｃ，若 γＢ（Ｄ）δ ＝ γＢ－｛ｂ｝（Ｄ）δ，则称ｂ为Ｂ中相对于Ｄ是不必要的；否则称ｂ为Ｂ中相对于Ｄ是必要的。对 ∀Ｂ ⊆ Ｃ，若Ｂ中任一元素相对于Ｄ都是必要的，则称Ｂ相对于Ｄ独立。定义９设邻域决策表ＤＴ＝（Ｕ，Ｃ ∪ Ｄ，Ｖ，ｆ， δ），若 ∀Ｂ⊆Ｃ， γＢ（Ｄ）δ ＝ γＣ（Ｄ）δ 且Ｂ相对于Ｄ是独立的，则称Ｂ是选取的关键特征组，这一特征选取过程称为邻域特征选择。性质１设邻域决策表ＤＴ＝（Ｕ，Ｃ ∪ Ｄ，Ｖ，ｆ， δ），若Ｂ１ ⊆ Ｂ２ ⊆．．． ⊆ Ｃ，则０ ≤ γＢ１（Ｄ）δ ≤ γＢ２（Ｄ）δ ≤．．． ≤ γＣ（Ｄ）δ ≤ １。定义１０设邻域决策表ＤＴ＝（Ｕ，Ｃ ∪ Ｄ，Ｖ，ｆ， δ）， ∀ａ∈Ｃ，Ｒ⊆Ｃ，定义ａ相对于Ｒ的特征重要度为Ｓｉｇｎ（ａ，Ｒ，Ｄ）＝ γＲ∪｛ａ｝（Ｄ）δ － γＲ（Ｄ）δ。２．２基于邻域关系的基因选择算法性质１表明邻域依赖度具有单调性，因此可以采用删除法或添加法进行特征选择，基因表达数据可以表示成前面定义的邻域决策表，依据上述邻域特征选择的定义，可设计如下基于邻域关系的基因选择算法。下面以定义１０的特征重要度为启发式信息设计了一种基于邻域关系的基因选择算法。算法ＧＳＮＲＳ（基于邻域关系的基因选择算法）输入：基因表达数据决策表ＤＴ＝（Ｕ，Ｃ ∪ Ｄ，Ｖ，ｆ，δ）；输出：ＤＴ的一个邻域约简Ｒ。１）计算整个条件特征集Ｃ相对于决策特征Ｄ的邻域依赖度为 γＣ（Ｄ）δ。２）Ｒ：＝Ｃ。３）当 γＲ（Ｄ）δ ＝ γＣ（Ｄ）δ 重复： ①对所有的ａ∈Ｒ计算特征重要度Ｓｉｇｎ（ａ，Ｒ，Ｄ）； ②在Ｒ中选择特征ａ满足特征重要度最小； ③ Ｒ：＝Ｒ－｛ａ｝。４）输出Ｒ。在算法中，每次选择特征重要度最小的特征，若去掉它后决策表的邻域依赖度仍然不变，则可以去掉，否则保留下来，依次进行下去，直到得到一个条件特征子集，在其中去掉任何一个特征，决策表的邻域依赖度都会改变，则算法结束，该特征子集即为所选取关键特征组。３实验结果与分析下面选用２个标准的基因表达数据集来验证ＧＳＮＲＳ算法的有效性。２个标准基因表达数据集分别为Ｌｙｍｐｈｏｍａ和Ｌｉｖｅｒｃａｎｃｅｒ。Ｌｙｍｐｈｏｍａ数据集包含了９６个样本，４０２６个特征基因，其中５４个Ｏｔｈｅｒｔｙｐｅ子类和４２个Ｂ⁃ｃｅｌｌｌｙｍｐｈｏｍａ子类。Ｌｉｖｅｒｃａｎｃｅｒ数据集包含了１５６个样本，１６４８个基因，其中８２个ＨＣＣｓ子类和７４个ｎｏｎｔｕｍｏｒｌｉｖｅｒｓ子类。实验基因数据集如表１所示。表１基因表达数据集Ｔａｂｌｅ１Ｇｅｎｅｅｘｐｒｅｓｓｉｏｎｄａｔａｓｅｔｓ数据集基因个数类别样本数Ｌｙｍｐｈｏｍａ４０２６Ｂ⁃ｃｅｌｌ４２Ｌｙｍｐｈｏｍａ４０２６Ｏｔｈｅｒｔｙｐｅ５４Ｌｉｖｅｒｃａｎｃｅｒ１６４８ＨＣＣｓ８２Ｌｉｖｅｒｃａｎｃｅｒ１６４８Ｎｏｎｔｕｍｏｒｌｉｖｅｒｓ７４在Ｌｙｍｐｈｏｍａ和Ｌｉｖｅｒｃａｎｃｅｒ基因表达数据中分别采用文献［９］中粗糙集的特征选择算法ＴＲＳ与本文邻域特征选择算法ＧＳＮＲＳ进行比较。首先进行预处理，对于有缺失值的数据采用文献［１０］的方法进行完备化。基因表达数据集是连续型的数据，对于经典粗糙集特征选择算法，需要对其数据进行离散化，离散化过程采用文献［８］中的方法进行。而本文ＧＳＮＲＳ特征选择算法，不需要离散化。设邻域参数为 δ ＝０．１，特征选择结果如表２所示。表２基因数据集特征选择结果Ｔａｂｌｅ２Ｒｅｓｕｌｔｓｏｆｇｅｎｅｆｅａｔｕｒｅｓｅｌｅｃｔｉｏｎ数据集基因个数样本数ＴＲＳ算法ＧＳＮＲＳ算法Ｌｙｍｐｈｏｍａ４０２６９６７６Ｌｉｖｅｒｃａｎｃｅｒ１６４８１５６６５由表２可知，ＴＲＳ算法在Ｌｙｍｐｈｏｍａ数据集中选择出７个关键基因，在Ｌｉｖｅｒｃａｎｃｅｒ数据集中选择出６个关键基因。ＧＳＮＲＳ算法在Ｌｙｍｐｈｏｍａ数据集中选择出６个关键基因，在Ｌｉｖｅｒｃａｎｃｅｒ数据集中选择出５个关键基因。下面再比较２组基因的分类能力，分别针对选取的关键基因采用ＫＮＮ，Ｃ５．０分类器进行分类实验，并用留一交叉法检验分类精确率，实验结果如表３所示。表３基因分类精确率Ｔａｂｌｅ３Ｇｅｎｅｃｌａｓｓｉｆｉｃａｔｉｏｎａｃｃｕｒａｃｙｒａｔｅ％数据集特征选择算法Ｌｙｍｐｈｏｍａ本文方法ＴＲＳＧＳＮＲＳＬｉｖｅｒｃａｎｃｅｒＴＲＳＧＳＮＲＳＫＮＮ分类器９３．６９４．９８９．１９１．４Ｃ５．０分类器９５．１９６．５９１．４９３．２上述实验结果表明，基于粗糙集的基因选择方 ·２１２· 智能系统学报第９卷

<<向上翻页向下翻页>>

点击下载：人工智能基础：基因表达数据在邻域关系中的特征选择