正在加载图片...
王伟等:基于CART决策树的冲压成形仿真数据挖掘 ·1377· 表5SVM和CART的模型性能度量 3 Ageneral ■good Table 5 Performance scale of SVM and CART ●bad 方法 测试集召回率/% 测试集准确率/% F1/% ■■■ SVM 72.3 75.0 73.8 8 CART 70.0 85.2 76.9 "4 都相对较低.同时相对于CART决策树分类算法, ● SVM分类曲线需要复杂的数学表达式建立非线性 模型,而且不能直观地提取工艺规则,只能得出产品 0 1 第一主成分 的成形较佳、一般和破裂的分类区域(红色部分表 图6主成分降维成形质量分类图 示成形质量预测结果为general的区域,白色部分表 Fig.6 Principal component dimension reduction forming quality clas- 示预测结果为god的区域,绿色部分预测结果为 sification figure bad的区域),而采用CART决策树的方法可以在实 general 现分类的基础上,进一步能提取工艺规则.数据全 ■g00d 集初步建立的模型并不能检验该模型好坏,需要对 数据全集划分为训练集和测试集,并对最小叶节点 州 数进行调整,简化决策树 3.2.3最佳CART决策树生成过程 训练集样本和测试集样本按65:35的比例进行 随机分划,图9和图10为最小叶节点数n分别为 5、7、8时决策树的训练集和测试集的主成分分类 0 第一主成分 图,表6为最小叶节点数在5~9范围内的模型度量 图7SVM数据全集分类模型 结果.表6和图9~10分析如下: Fig.7 SVM model of data set classification (1)表6中最小叶节点数为7的预测模型的F1 分数最高,图9(a)和图10(a)对应的主成分分类图 general ■g00 聚类明显,有利于规则的提取,同时相对于表6的结 果,F1分数有了明显提高 (2)最小叶节点数为5时,测试集准确率最高, 但其CART分类结果如图9(b)和图10(b)所示,存 在过拟合区域.当样本点出现在过拟合区域时,工 艺属性微小变化容易造成样本点的分类错误,同时 过拟合也使得模型复杂化,不利于提取规则. -2 (3)最小叶节点数为8时,F1分数比较低,对于 第一主成分 图8CART数据全集分类模型 规则的提取比较模糊 Fig.8 CART model of data set classification 综合上述分析,对试验样本集CART决策树建 general (a) general (e) 过拟合 2 hd 2 "good "good bad 区域 2 bad 1 1 0 0 - -2 2 0 2 0 2 0 2 第一主成分 第一主成分 第一主成分 图9CART决策树训练集主成分二维分类图.(a)n=7;(b)n=5:(c)n=8 Fig.9 2D classification of CART decision tree training set:(a)n=7;(b)n=5;(c)n=8王 伟等: 基于 CART 决策树的冲压成形仿真数据挖掘 图 6 主成分降维成形质量分类图 Fig. 6 Principal component dimension reduction forming quality clas鄄 sification figure 图 7 SVM 数据全集分类模型 Fig. 7 SVM model of data set classification 图 8 CART 数据全集分类模型 Fig. 8 CART model of data set classification 表 5 SVM 和 CART 的模型性能度量 Table 5 Performance scale of SVM and CART 方法 测试集召回率/ % 测试集准确率/ % F1 / % SVM 72郾 3 75郾 0 73郾 8 CART 70郾 0 85郾 2 76郾 9 都相对较低. 同时相对于 CART 决策树分类算法, SVM 分类曲线需要复杂的数学表达式建立非线性 模型,而且不能直观地提取工艺规则,只能得出产品 的成形较佳、一般和破裂的分类区域(红色部分表 示成形质量预测结果为 general 的区域,白色部分表 示预测结果为 good 的区域,绿色部分预测结果为 bad 的区域),而采用 CART 决策树的方法可以在实 现分类的基础上,进一步能提取工艺规则. 数据全 集初步建立的模型并不能检验该模型好坏,需要对 数据全集划分为训练集和测试集,并对最小叶节点 数进行调整,简化决策树. 3郾 2郾 3 最佳 CART 决策树生成过程 训练集样本和测试集样本按 65颐 35 的比例进行 随机分划,图 9 和图 10 为最小叶节点数 n 分别为 5、7、8 时决策树的训练集和测试集的主成分分类 图,表 6 为最小叶节点数在 5 ~ 9 范围内的模型度量 结果. 表 6 和图 9 ~ 10 分析如下: (1)表 6 中最小叶节点数为 7 的预测模型的 F1 分数最高,图 9(a)和图 10(a)对应的主成分分类图 聚类明显,有利于规则的提取,同时相对于表 6 的结 果,F1 分数有了明显提高. (2)最小叶节点数为 5 时,测试集准确率最高, 但其 CART 分类结果如图 9(b)和图 10(b)所示,存 在过拟合区域. 当样本点出现在过拟合区域时,工 艺属性微小变化容易造成样本点的分类错误,同时 过拟合也使得模型复杂化,不利于提取规则. (3)最小叶节点数为 8 时,F1 分数比较低,对于 规则的提取比较模糊. 综合上述分析,对试验样本集 CART 决策树建 图 9 CART 决策树训练集主成分二维分类图. (a) n = 7; (b) n = 5; (c) n = 8 Fig. 9 2D classification of CART decision tree training set: (a) n = 7; (b) n = 5; (c) n = 8 ·1377·
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有