混合矩阵 (confusion matrix) [16]是一个常用的评价

正在加载图片...

·486· 智能系统学报第14卷混合矩阵(confusion matrix)o是一个常用的 2x Precision x Recall F-Measure 评价指标，如表4所示。TP表示正类样本被正确 Precision+Recall 预测为正类的样本数：FN、FP分别表示预测错误正确率即分类正确样本数与分类总数之比。本文采用正确率、查准率(Precision)、查全率的实际正类和负类样本数目；TN表示负类样本 (Recall)、和F-Measure作为评价指标。被正确预测为负类的样本数。 3.2实验方法表4混合矩阵为了考察模糊超网络分类算法的性能，本文 Table 4 Confusion matrix 采用Java语言实现算法并将其与NaiveBayes、类别预测为正类预测为负类 KNN、J48(C4.5)、SMO和BP-KNN5种算法正类 TP FN 进行对比。利用Weka2o平台，在15个数据集上负类 FP TN 对以上算法进行对比实验，BP-KNN根据文献[I9] 设置参数，其余分类器的参数均为Weka平台下查准率：表示被分类器预测为正类的样本中算法的默认值。实验中模糊超网络模型所涉及的正类样本所占的比例。计算公式为随机种子均设为seed=1234。所有实验结果均为 TP Precision= TP+EP 采用5折交叉验证后的结果。查全率：又称召回率，表示正类样本被分类器 3.3实验结果正确预测为正类的比例。计算公式为本次实验将模糊超网分类算法封装成 TP Weka平台可识别的分类器，所有的评价指标均 Recall TP+FN 由Weka平台的评估器计算并输出。表5~8分别 F-Measure指标是一种综合查全率和查准给出了本算法与其他算法的正确率、查准率、查率的分类评价指标：全率和F-Measure的结果。表5正确率值 Table 5 Accuracy % 序号数据集 NaiveBayes KNN J48 SMO BP-KNN F-hypernetworks BLOGGER 72.0000 82.0000 73.0000 73.0000 73.0000 85.0000 2 lymph 81.7568 83.1081 73.6486 85.8108 83.7838 82.4324 3 tae 52.3179 65.5629 51.6556 56.9536 48.3444 56.2914 4 flags 56.1856 56.7010 57.2165 55.6701 58.7629 59.2784 5 Glass 47.1963 68.2243 66.8224 56.0748 63.5514 67.2897 6 breast-cancer 73.0769 70.6294 69.2308 70.2797 73.4266 73.4266 7 Haberman 74.8366 67.9739 73.5294 73.5294 70.5882 72.8758 8 column 2C weka 78.0645 78.7097 80.3226 80.0000 80.3226 80.9677 9 column 3C_weka 82.9032 78.3871 83.2258 75.4839 75.8065 81.9355 10 ecoli 85.1190 80.6548 81.2500 82.4405 85.7143 86.0119 11 lonosphere 82.3362 87.1795 90.5983 88.0342 86.6097 88.3191 12 balance-scale 91.6800 82.7200 66.7200 91.2000 82.8800 91.0400 13 Pima diabetes 75.3906 71.4844 73.0469 76.5625 73.0469 74.8698 14 tic-tac-toe 70.1461 98.4342 84.3424 98.3299 98.4342 84.6555 15 car 85.3009 92.2454 90.7407 93.3449 92.2454 90.5093 16 平均值 73.8874 77.6010 74.3567 77.1143 76.4345 78.3269混合矩阵 (confusion matrix) [16]是一个常用的评价指标，如表 4 所示。TP 表示正类样本被正确预测为正类的样本数；FN、FP 分别表示预测错误的实际正类和负类样本数目；TN 表示负类样本被正确预测为负类的样本数。表 4 混合矩阵 Table 4 Confusion matrix 类别预测为正类预测为负类正类 TP FN 负类 FP TN 查准率：表示被分类器预测为正类的样本中正类样本所占的比例。计算公式为 Precision = TP TP+FP 查全率：又称召回率，表示正类样本被分类器正确预测为正类的比例。计算公式为 Recall = TP TP+FN F-Measure 指标[17]是一种综合查全率和查准率的分类评价指标： F−Measure = 2×Precision×Recall Precision+Recall 正确率即分类正确样本数与分类总数之比。本文采用正确率、查准率 (Precision)、查全率 (Recall)、和 F-Measure 作为评价指标。 3.2 实验方法为了考察模糊超网络分类算法的性能，本文采用 Java 语言实现算法并将其与 NaiveBayes、 KNN、J48(C4.5) 、SMO[18] 和 BP-KNN[19] 5 种算法进行对比。利用 Weka[20]平台，在 15 个数据集上对以上算法进行对比实验，BP-KNN 根据文献[19] 设置参数，其余分类器的参数均为 Weka 平台下算法的默认值。实验中模糊超网络模型所涉及的随机种子均设为 seed=1 234。所有实验结果均为采用 5-折交叉验证后的结果。 3.3 实验结果本次实验将模糊超网络分类算法封装成 Weka 平台可识别的分类器，所有的评价指标均由 Weka 平台的评估器计算并输出。表 5~8 分别给出了本算法与其他算法的正确率、查准率、查全率和 F-Measure 的结果。表 5 正确率值 Table 5 Accuracy % 序号数据集 NaiveBayes KNN J48 SMO BP-KNN F-hypernetworks 1 BLOGGER 72.000 0 82.000 0 73.000 0 73.000 0 73.000 0 85.000 0 2 lymph 81.756 8 83.108 1 73.648 6 85.810 8 83.783 8 82.432 4 3 tae 52.317 9 65.562 9 51.655 6 56.953 6 48.344 4 56.291 4 4 flags 56.185 6 56.701 0 57.216 5 55.670 1 58.762 9 59.278 4 5 Glass 47.196 3 68.224 3 66.822 4 56.074 8 63.551 4 67.289 7 6 breast-cancer 73.076 9 70.629 4 69.230 8 70.279 7 73.426 6 73.426 6 7 Haberman 74.836 6 67.973 9 73.529 4 73.529 4 70.588 2 72.875 8 8 column_2C_weka 78.064 5 78.709 7 80.322 6 80.000 0 80.322 6 80.967 7 9 column_3C_weka 82.903 2 78.387 1 83.225 8 75.483 9 75.806 5 81.935 5 10 ecoli 85.119 0 80.654 8 81.250 0 82.440 5 85.714 3 86.011 9 11 Ionosphere 82.336 2 87.179 5 90.598 3 88.034 2 86.609 7 88.319 1 12 balance-scale 91.680 0 82.720 0 66.720 0 91.200 0 82.880 0 91.040 0 13 Pima_diabetes 75.390 6 71.484 4 73.046 9 76.562 5 73.046 9 74.869 8 14 tic-tac-toe 70.146 1 98.434 2 84.342 4 98.329 9 98.434 2 84.655 5 15 car 85.300 9 92.245 4 90.740 7 93.344 9 92.245 4 90.509 3 16 平均值 73.887 4 77.601 0 74.356 7 77.114 3 76.434 5 78.326 9 ·486· 智能系统学报第 14 卷

<<向上翻页向下翻页>>

点击下载：【知识工程】基于模糊超网络的知识获取方法研究