正在加载图片...
第4期 郑存芳,等:数据偏序结构关系中的知识发现可视化方法 .479. 正,得到表8所对应的决策模式一致信息表如表8。 表9乳腺癌诊断规则 表8乳腺癌数据决策模式一致信息表 Table 9 Decision output of DDAPOS Table 8 Consistent decision information table of BCWD 序号 决策输出结果 IF((U≤2)AND(U≤3)) U D De R C2 THEN D.=N) m 0 0 0 1 27 F(0≤2)AND(U>3)AND(BN≤2) R2 m2 1 0 1 0 1 0 N 305 THEN (D=N); 1 0 0 1 P 0 IF ((U2)AND (U>3)AND (BN >2)) ma 1 0 01 1 0 N 6 THEN (D=P); ms 0 110 1 0 N 21 F((U>2)AND(U≤3)AND(BN≤2) 1 0 Ra 0 20 THEN (D.=N) m 0 0 125 IF ((U>2)AND (U3)AND (BN >2)) Rs ms 1 0 0 0 2 THEN (D.=P) 4)生成属性偏序决策图。根据表8决策一致模 IF ((U>2)AND (U>3)) 式信息表生成属性偏序决策图如图3所示。 THEN(DeM=P)。 表10乳腺癌诊断灵敏度、特异度和准确率 Table 10 Sensitivity,specificity and accuracy of BCWD 方法 准确率 灵敏度 特异度 kNN 0.9648 0.9417 0.9775 Naive Bayes 0.9619 0.9792 0.9527 C ⊙©a SVM 0.9707 0.9750 0.9685 C5.0 0.9487 0.9288 0.9595 N Random Forests 0.9721 0.9708 0.9729 R, R R 本文方法 0.9623 0.9286 0.9416 R 4 结束语 图3乳腺癌诊断属性偏序决策图 本文以决策模式信息表为研究对象,提出一种 Fig.3 DDAPOS of BCWD 基于属性偏序关系的、不依赖于先验知识完全以数 5)根据属性偏序决策图,完成决策规则提取 据驱动的规则提取可视化方法一属性偏序决策 任务。由图3所示属性偏序决策图提取的规则 图。属性偏序决策图通过属性的聚类完成事物“类 如表9所示。 内紧,类间松”的聚类,并以直观图形的形式进行表 3.3结果分析 示,从中发现事物之间相区别的属性,从而达到提取 应用上述诊断规则对数据集进行诊断,同时与 事物共同特征的目的。属性偏序决策图因不需要进 主流模式分类算法(kNN、Naive Bayes、SVM、C5.0、 行复杂的浮点运算,其算法运算速度快。另外,该方 Random Forests)对比结果见表I0。通过对比可以 法在实际应用中还有若干问题有待解决,如如何根 发现,本文所述属性偏序决策图在只有3个属性参 据原始属性生成决策模式信息表、如何处理决策过 与规则提取的条件下,提取的诊断规则在各项指标 程中的不确定性问题、如何提供人机交互方式完成 上均较理想,达到了主流模式分类和知识发现方法 专家知识与机器学习的融合等,都有待进一步研究。 的水平。通过增加参与规则提取的属性,改善粒化 规则等措施,各项指标仍有提高的空间。与常规模 参考文献: 式识别方法(如kNN、SVM等)相比,属性偏序决策 [1]POELMANS J,KUZNETSOV S O,IGNATOV D I,et al. 图可以将决策规则以图形的方式进行明确地表示, Formal concept Analysis in knowledge processing:a survey 这一特性可以有效地沟通领域专家与数据分析专 on models and techniques[J].Expert systems with applica- 家,降低其在具体领域的应用门槛。 ions,2013,40(16):6601-6623.正,得到表 8 所对应的决策模式一致信息表如表 8。 表 8 乳腺癌数据决策模式一致信息表 Table 8 Consistent decision information table of BCWD U C c1 c2 c3 c4 c5 c6 D De m1 1 0 1 0 0 1 N 27 m2 1 0 1 0 1 0 N 305 m3 0 1 1 0 0 1 P 20 m4 1 0 0 1 1 0 N 6 m5 0 1 1 0 1 0 N 21 m6 0 1 0 1 1 0 P 20 m7 0 1 0 1 0 1 P 125 m8 1 0 0 1 0 1 P 2 4)生成属性偏序决策图。 根据表 8 决策一致模 式信息表生成属性偏序决策图如图 3 所示。 图 3 乳腺癌诊断属性偏序决策图 Fig.3 DDAPOS of BCWD 5)根据属性偏序决策图,完成决策规则提取 任务。 由图 3 所示属性偏序决策图提取的规则 如表 9 所示。 3.3 结果分析 应用上述诊断规则对数据集进行诊断,同时与 主流模式分类算法( kNN、Naive Bayes、SVM、C5.0、 Random Forests) 对比结果见表 10。 通过对比可以 发现,本文所述属性偏序决策图在只有 3 个属性参 与规则提取的条件下,提取的诊断规则在各项指标 上均较理想,达到了主流模式分类和知识发现方法 的水平。 通过增加参与规则提取的属性,改善粒化 规则等措施,各项指标仍有提高的空间。 与常规模 式识别方法(如 kNN、SVM 等)相比,属性偏序决策 图可以将决策规则以图形的方式进行明确地表示, 这一特性可以有效地沟通领域专家与数据分析专 家,降低其在具体领域的应用门槛。 表 9 乳腺癌诊断规则 Table 9 Decision output of DDAPOS 序号 决策输出结果 R1 IF ((Ucsi≤2 ) AND (Ucsh≤3 )) THEN ( Dresult = N ); R2 IF ((Ucsi≤2) AND (Ucsh>3) AND (BN≤2)) THEN (Dresult = N); R3 IF ((Ucsi≤2) AND (Ucsh>3) AND (BN >2)) THEN (Dresult = P); R4 IF ((Ucsi>2) AND (Ucsh≤3) AND (BN≤2)) THEN (Dresult = N); R5 IF ((Ucsi>2) AND (Ucsh≤3)AND (BN >2)) THEN (Dresult = P); R6 IF ((Ucsi>2) AND (Ucsh> 3)) THEN (Dresult = P)。 表 10 乳腺癌诊断灵敏度、特异度和准确率 Table 10 Sensitivity, specificity and accuracy of BCWD 方法 准确率 灵敏度 特异度 kNN 0.964 8 0.941 7 0.977 5 Naive Bayes 0.961 9 0.979 2 0.952 7 SVM 0.970 7 0.975 0 0.968 5 C5.0 0.948 7 0.928 8 0.959 5 Random Forests 0.972 1 0.970 8 0.972 9 本文方法 0.962 3 0.928 6 0.941 6 4 结束语 本文以决策模式信息表为研究对象,提出一种 基于属性偏序关系的、不依赖于先验知识完全以数 据驱动的规则提取可视化方法———属性偏序决策 图。 属性偏序决策图通过属性的聚类完成事物“类 内紧,类间松”的聚类,并以直观图形的形式进行表 示,从中发现事物之间相区别的属性,从而达到提取 事物共同特征的目的。 属性偏序决策图因不需要进 行复杂的浮点运算,其算法运算速度快。 另外,该方 法在实际应用中还有若干问题有待解决,如如何根 据原始属性生成决策模式信息表、如何处理决策过 程中的不确定性问题、如何提供人机交互方式完成 专家知识与机器学习的融合等,都有待进一步研究。 参考文献: [1] POELMANS J, KUZNETSOV S O, IGNATOV D I, et al. Formal concept Analysis in knowledge processing: a survey on models and techniques[J]. Expert systems with applica⁃ tions, 2013, 40(16): 6601-6623. 第 4 期 郑存芳,等:数据偏序结构关系中的知识发现可视化方法 ·479·
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有