.212 智能系统学报 第9卷 类信息,为离散型的数据。定义决策特征D对条件 GSNRS算法的有效性。2个标准基因表达数据集分 特征C的邻域依赖度为yc(D)。=C.(D)。I/ 别为Lymphoma和Liver cancer。Lymphoma数据集 IU,其中|U川表示集合U的基数。 包含了96个样本,4026个特征基因,其中54个 定义8设邻域决策表D,=(U,CUD,Vf, Othertype子类和42个B-celllymphoma子类。Liver 8),对Hb∈BCC,若YB(D)6=Ya-b(D)6,则称 cancer数据集包含了156个样本,1648个基因,其 b为B中相对于D是不必要的:否则称b为B中相 中82个HCCs子类和74个nontumorlivers子类。实 对于D是必要的。对HB二C,若B中任一元素相 验基因数据集如表1所示。 对于D都是必要的,则称B相对于D独立。 表1基因表达数据集 定义9设邻域决策表D,=(U,CUD,V,f, Table 1 Gene expression data sets 8),若HBCC,Yg(D)s=yc(D)s且B相对于D是 数据集 基因个数 类别 样本数 独立的,则称B是选取的关键特征组,这一特征选 取过程称为邻域特征选择。 Lymphoma 4026 B-cell 42 性质1设邻域决策表D,=(U,CUD,V,f, Lymphoma 4026 Other type 54 8),若B,CB2C.SC,则0≤YB(D)6≤ Liver cancer 1648 HCCs 82 YB(D)a≤.≤Yc(D)6≤1。 Liver cancer 1648 Nontumor livers 74 定义10设邻域决策表DT=(U,CUD,V,f, 在Lymphoma和Livercancer基因表达数据中分 8),Ha∈C,RSC,定义a相对于R的特征重要度 别采用文献[9]中粗糙集的特征选择算法TRS与本 为Sign(a,R,D)=YRUlal(D)s-Yr(D)6o 文邻域特征选择算法GSNRS进行比较。首先进行 2.2基于邻域关系的基因选择算法 预处理,对于有缺失值的数据采用文献[10]的方法 性质1表明邻域依赖度具有单调性,因此可以 进行完备化。基因表达数据集是连续型的数据,对 采用删除法或添加法进行特征选择,基因表达数据 于经典粗糙集特征选择算法,需要对其数据进行离 可以表示成前面定义的邻域决策表,依据上述邻域 散化,离散化过程采用文献[8]中的方法进行。而 特征选择的定义,可设计如下基于邻域关系的基因 本文GSNRS特征选择算法,不需要离散化。设邻域 选择算法。下面以定义10的特征重要度为启发式 参数为8=0.1,特征选择结果如表2所示。 信息设计了一种基于邻域关系的基因选择算法。 表2基因数据集特征选择结果 算法GSNRS(基于邻域关系的基因选择算法) Table 2 Results of gene feature selection 输入:基因表达数据决策表D,=(U,CUD,V, f,8); 数据集 基因个数样本数TRS算法GSNRS算法 输出:D,的一个邻域约简R。 Lymphoma 4026 96 7 6 1)计算整个条件特征集C相对于决策特征D Liver cancer 1 648 156 6 5 的邻域依赖度为Yc(D)s 由表2可知,TRS算法在Lymphoma数据集中 2)R:=C。 选择出7个关键基因,在Liver cancer数据集中选择 3)当yR(D)6=Yc(D)s重复: 出6个关键基因。GSNRS算法在Lymphoma数据集 ①对所有的aeR计算特征重要度Sigm(a,R,D); 中选择出6个关键基因,在Liver cancer数据集中选 ②在R中选择特征a满足特征重要度最小; 择出5个关键基因。下面再比较2组基因的分类能 ③R:=R-{a}。 力,分别针对选取的关键基因采用KNN,C5.0分类 4)输出R。 器进行分类实验,并用留一交叉法检验分类精确率, 在算法中,每次选择特征重要度最小的特征,若 实验结果如表3所示。 去掉它后决策表的邻域依赖度仍然不变,则可以去 表3基因分类精确率 掉,否则保留下来,依次进行下去,直到得到一个条 Table 3 Gene classification accuracy rate 件特征子集,在其中去掉任何一个特征,决策表的邻 数据集 Lymphoma本文方法 域依赖度都会改变,则算法结束,该特征子集即为所 Liver cancer 选取关键特征组。 特征选择算法TRS GSNRS TRS GSNRS KNN分类器 93.6 94.9 89.1 91.4 3实验结果与分析 C5.0分类器 95.1 96.5 91.4 93.2 下面选用2个标准的基因表达数据集来验证 上述实验结果表明,基于粗糙集的基因选择方类信息,为离散型的数据。 定义决策特征 D 对条件 特征 C 的邻域依赖度为 γC (D)δ =| C∗ (D)δ | / U , 其中 U 表示集合 U 的基数。 定义 8 设邻域决策表 DT = (U,C ∪ D,V,f, δ), 对 ∀b ∈ B ⊆ C, 若 γB (D)δ = γB-{b} (D)δ, 则称 b 为 B 中相对于 D 是不必要的;否则称 b 为 B 中相 对于 D 是必要的。 对 ∀B ⊆ C, 若 B 中任一元素相 对于 D 都是必要的,则称 B 相对于 D 独立。 定义 9 设邻域决策表 DT = (U,C ∪ D,V,f, δ), 若 ∀B⊆C, γB (D)δ = γC (D)δ 且 B 相对于 D 是 独立的,则称 B 是选取的关键特征组,这一特征选 取过程称为邻域特征选择。 性质 1 设邻域决策表 DT = (U,C ∪ D,V,f, δ), 若 B1 ⊆ B2 ⊆... ⊆ C, 则 0 ≤ γB1 (D)δ ≤ γB2 (D)δ ≤... ≤ γC (D)δ ≤ 1。 定义 10 设邻域决策表 DT = (U,C ∪ D,V,f, δ), ∀a∈C, R⊆C, 定义 a 相对于 R 的特征重要度 为 Sign(a,R,D) = γR∪{a} (D)δ - γR (D)δ。 2.2 基于邻域关系的基因选择算法 性质 1 表明邻域依赖度具有单调性,因此可以 采用删除法或添加法进行特征选择,基因表达数据 可以表示成前面定义的邻域决策表,依据上述邻域 特征选择的定义,可设计如下基于邻域关系的基因 选择算法。 下面以定义 10 的特征重要度为启发式 信息设计了一种基于邻域关系的基因选择算法。 算法 GSNRS(基于邻域关系的基因选择算法) 输入:基因表达数据决策表 DT = (U,C ∪ D,V, f,δ); 输出: DT 的一个邻域约简 R。 1)计算整个条件特征集 C 相对于决策特征 D 的邻域依赖度为 γC (D)δ。 2) R: = C。 3) 当 γR (D)δ = γC (D)δ 重复: ①对所有的a∈R 计算特征重要度Sign (a,R,D) ; ②在 R 中选择特征 a 满足特征重要度最小; ③ R: = R - {a}。 4) 输出 R。 在算法中,每次选择特征重要度最小的特征,若 去掉它后决策表的邻域依赖度仍然不变,则可以去 掉,否则保留下来,依次进行下去,直到得到一个条 件特征子集,在其中去掉任何一个特征,决策表的邻 域依赖度都会改变,则算法结束,该特征子集即为所 选取关键特征组。 3 实验结果与分析 下面选用 2 个标准的基因表达数据集来验证 GSNRS 算法的有效性。 2 个标准基因表达数据集分 别为 Lymphoma 和 Liver cancer。 Lymphoma 数据集 包含了 96 个样本,4 026 个特征基因,其中 54 个 Othertype 子类和 42 个 B⁃celllymphoma 子类。 Liver cancer 数据集包含了 156 个样本,1 648 个基因,其 中 82 个 HCCs 子类和 74 个 nontumorlivers 子类。 实 验基因数据集如表 1 所示。 表 1 基因表达数据集 Table 1 Gene expression data sets 数据集 基因个数 类别 样本数 Lymphoma 4 026 B⁃cell 42 Lymphoma 4 026 Other type 54 Liver cancer 1 648 HCCs 82 Liver cancer 1 648 Nontumor livers 74 在 Lymphoma 和 Livercancer 基因表达数据中分 别采用文献[9]中粗糙集的特征选择算法 TRS 与本 文邻域特征选择算法 GSNRS 进行比较。 首先进行 预处理,对于有缺失值的数据采用文献[10]的方法 进行完备化。 基因表达数据集是连续型的数据,对 于经典粗糙集特征选择算法,需要对其数据进行离 散化,离散化过程采用文献[8] 中的方法进行。 而 本文 GSNRS 特征选择算法,不需要离散化。 设邻域 参数为 δ = 0.1, 特征选择结果如表 2 所示。 表 2 基因数据集特征选择结果 Table 2 Results of gene feature selection 数据集 基因个数 样本数 TRS 算法 GSNRS 算法 Lymphoma 4 026 96 7 6 Liver cancer 1 648 156 6 5 由表 2 可知,TRS 算法在 Lymphoma 数据集中 选择出 7 个关键基因,在 Liver cancer 数据集中选择 出 6 个关键基因。 GSNRS 算法在 Lymphoma 数据集 中选择出 6 个关键基因,在 Liver cancer 数据集中选 择出 5 个关键基因。 下面再比较 2 组基因的分类能 力,分别针对选取的关键基因采用 KNN,C5.0 分类 器进行分类实验,并用留一交叉法检验分类精确率, 实验结果如表 3 所示。 表 3 基因分类精确率 Table 3 Gene classification accuracy rate % 数据集 特征选择算法 Lymphoma 本文方法 TRS GSNRS Liver cancer TRS GSNRS KNN 分类器 93.6 94.9 89.1 91.4 C5.0 分类器 95.1 96.5 91.4 93.2 上述实验结果表明,基于粗糙集的基因选择方 ·212· 智 能 系 统 学 报 第 9 卷