数据挖掘实用案例分析 据掘第9章耐热导线工厂质量管理数 实用案例分析 据分析 复旦大学赵卫东博士 0ta间g wdzhao@fudan.edu.cn dicta
数据挖掘实用案例分析 第9章 耐热导线工厂质量管理数 据分析 复旦大学 赵卫东 博士 wdzhao@fudan.edu.cn
章节介绍 ·随着制造企业信息化的发展,生产过程逐步实现数字化,企业会积累大量 的制造和质量检测数据。在大数据时代,如何利用这些数据,从中找出产 品生产过程中存在的问题,发现制造流程中可以改进的环节,这是减少制 造成本,提高产品质量的重要保证,也是实现智慧工厂的必要组成部分
章节介绍 • 随着制造企业信息化的发展,生产过程逐步实现数字化,企业会积累大量 的制造和质量检测数据。在大数据时代,如何利用这些数据,从中找出产 品生产过程中存在的问题,发现制造流程中可以改进的环节,这是减少制 造成本,提高产品质量的重要保证,也是实现智慧工厂的必要组成部分
章节结构 项目概况 耐热导线生产质量数据预处理 耐热铝线质量检测数据分析
章节结构 • 项目概况 • 耐热导线生产质量数据预处理 • 耐热铝线质量检测数据分析
项目概况 某集团耐热导线工厂(以下简称耐热导线工厂)在多年的生产过程中,已经上 线了基本的生产管理系统,收集了产品生产过程中的一些工艺参数、各工 序的成品检测结果等数据通过对这些数据的分析,可以在很大程度上减少 经验式管理带来的不足,降低废品率,提高加工机台的工作性能和稳定性 耐热导线的生产主要由三道工序组成:轧机、拉丝和绞线,不同工序对质量 都有相应的要求。轧机工序的成品质量与后续的两个工序的成品质量之间 有明显的关联性,因此可以通过第一道工序的成品质量预测后续工序的成 品质量,也可以用后来两道工序产品的质量来“反推”第一道工序的质量
项目概况 • 某集团耐热导线工厂(以下简称耐热导线工厂)在多年的生产过程中,已经上 线了基本的生产管理系统,收集了产品生产过程中的一些工艺参数、各工 序的成品检测结果等数据通过对这些数据的分析,可以在很大程度上减少 经验式管理带来的不足,降低废品率,提高加工机台的工作性能和稳定性 • 耐热导线的生产主要由三道工序组成:轧机、拉丝和绞线,不同工序对质量 都有相应的要求。轧机工序的成品质量与后续的两个工序的成品质量之间 有明显的关联性,因此可以通过第一道工序的成品质量预测后续工序的成 品质量,也可以用后来两道工序产品的质量来“反推”第一道工序的质量
项目概况 目前,公司对于耐热导线的制造数据管理还停留在检测数据的简单录入 查询阶段,有关机台工艺参数和加工状态的数据,还暂时没有收集或充分 利用,难以通过数据分析技术建立工序间的关联性,因此不容易在生产前 进行预警、在生产中进行控制,往往到最终的产品检验时发现质量问题为 时已晚。我们在耐热导线工厂最近2年的质量管理数据的基础上,分析了这 些数据存在的问题,进行了大量的预处理,利用统计学、多维度分析、数 据挖掘以及可视化等多种数据分析方法,以提高最终产品的合格率为目标 ,探索耐热导线的加工流程中几个步骤之间半成品或成品质量指标之间的 关系
项目概况 • 目前,公司对于耐热导线的制造数据管理还停留在检测数据的简单录入、 查询阶段,有关机台工艺参数和加工状态的数据,还暂时没有收集或充分 利用,难以通过数据分析技术建立工序间的关联性,因此不容易在生产前 进行预警、在生产中进行控制,往往到最终的产品检验时发现质量问题为 时已晚。我们在耐热导线工厂最近2年的质量管理数据的基础上,分析了这 些数据存在的问题,进行了大量的预处理,利用统计学、多维度分析、数 据挖掘以及可视化等多种数据分析方法,以提高最终产品的合格率为目标 ,探索耐热导线的加工流程中几个步骤之间半成品或成品质量指标之间的 关系
项目概况 ·影响耐热导线加工过程的因素很多,这些因素或多或少还存在一定的相关 性,它们之间的关系使用数学函数表示,也是非常复杂的非线性函数,但 分析不同工序质量指标的相关性,在很大程度上可以调节不同工序的加工 要求,使最终产品的合格率提高。此外,有一部分成品的质量规格超过的 国家标准较多,这说明第一道工序中存在着“质量冗余”,需要通过分析 工序之间的关系,在产品合格的基础上使质量指标达到一个较合适的标准 以消除冗余,降低成本 限于篇幅以及保密原因,这里仅讨论单线线径与所选用杆强度之间的关系 即是否有必要按照单线线径的范围来选择相应的杆强度范围
项目概况 • 影响耐热导线加工过程的因素很多,这些因素或多或少还存在一定的相关 性,它们之间的关系使用数学函数表示,也是非常复杂的非线性函数,但 分析不同工序质量指标的相关性,在很大程度上可以调节不同工序的加工 要求,使最终产品的合格率提高。此外,有一部分成品的质量规格超过的 国家标准较多,这说明第一道工序中存在着“质量冗余”,需要通过分析 工序之间的关系,在产品合格的基础上使质量指标达到一个较合适的标准 ,以消除冗余,降低成本 • 限于篇幅以及保密原因,这里仅讨论单线线径与所选用杆强度之间的关系 ,即是否有必要按照单线线径的范围来选择相应的杆强度范围
耐热导线生产质量数据预处理 ·耐热导线生产的原材料是铝杆,公司接到订单,确定生产某种具体规格的 铝线后,根据杄材流转使用规定选择相应的铝杄,并检査铝杄是否符合相 应的要求。然后进入铝线的生产工序一拉丝工序。经过高速拉丝后,通过 检验铝线的线径、表面质量等指标,对铝线的质量进行控制 数据来源为耐热导线工厂提供的自2014年3月开始至2016年2月底两年的铝 线生产线生产数据,包括原材料检测数据50万条,成品检测数据70万条, 制造执行系统MES)中各条生产线的制造数据总计150多万条
耐热导线生产质量数据预处理 • 耐热导线生产的原材料是铝杆,公司接到订单,确定生产某种具体规格的 铝线后,根据杆材流转使用规定选择相应的铝杆,并检查铝杆是否符合相 应的要求。然后进入铝线的生产工序—拉丝工序。经过高速拉丝后,通过 检验铝线的线径、表面质量等指标,对铝线的质量进行控制 • 数据来源为耐热导线工厂提供的自2014年3月开始至2016年2月底两年的铝 线生产线生产数据,包括原材料检测数据50万条,成品检测数据70万条, 制造执行系统(MES)中各条生产线的制造数据总计150多万条
耐热导线生产质量数据预处理 耐热导线工厂提供的数据来自于原来的项目执行单表、轧机生产日报表 拉丝生产日报表、绞线生产日报表、各类成品检测表、各类半成品检测表 各类原材料检测表、机台设备信息表、班组信息表等。数据量大且较为 分散,需要的信息分散在多个数据表里。为了根据目标铝线选择相应的铝 杆,就需要通过耐热铝线的编号追溯到铝杆的各项数据。通过将订单编号 与项日执行单进行关联,项目执行单与轧机生产日报表、拉丝生产日报表 绞线生产日报表通过相同合同编号进行连接,进行关联的方式,追溯铝 杆的生产数据 这里主要采用 SQL Server中的T-SQL语句 nner join、 left join、 right join等将 多表进行连接整合,得到与铝杆相关的数据主要包括铝杆的重量、实测外 径、抗拉强度、拉断力、伸长率、正向/反向电阻值、20°时电阻率、室温 以及与铝线相关的主要参数铝线的线径与抗拉强度等。整合后得到目标铝 杆参数、铝线参数表
耐热导线生产质量数据预处理 • 耐热导线工厂提供的数据来自于原来的项目执行单表、轧机生产日报表、 拉丝生产日报表、绞线生产日报表、各类成品检测表、各类半成品检测表 、各类原材料检测表、机台设备信息表、班组信息表等。数据量大且较为 分散,需要的信息分散在多个数据表里。为了根据目标铝线选择相应的铝 杆,就需要通过耐热铝线的编号追溯到铝杆的各项数据。通过将订单编号 与项日执行单进行关联,项目执行单与轧机生产日报表、拉丝生产日报表 、绞线生产日报表通过相同合同编号进行连接,进行关联的方式,追溯铝 杆的生产数据 • 这里主要采用 SQL Server中的T-SQL语句 Inner join、 left join、 right join等将 多表进行连接整合,得到与铝杆相关的数据主要包括铝杆的重量、实测外 径、抗拉强度、拉断力、伸长率、正向/反向电阻值、20℃时电阻率、室温 以及与铝线相关的主要参数铝线的线径与抗拉强度等。整合后得到目标铝 杆参数、铝线参数表
耐热导线生产质量数据预处理 在耐热导线的数据分析过程中,主要使用了导线加工过程各工序的质量检 测数据,而加工设备、生产工艺以及人员的数据因为保密、数据收集不全 等原因暂时没有使用 ·发现了耐热导线生产过程中数据收集的一些不足,如有些数据人工输入错 误或者测量有误差,某些有用的数据暂时没有收集或缺失 耐热导线工厂提供了近两年耐热导线检测的数据,涉及多个合同、多个批 次以及多个加工机台 经过上述数据整理的步骤之后,数据中还存在着“脏数据”。所谓脏数据 ,就是数据中存在噪声数据、错误数据、缺失数据以及冗余数据等问题。 数据清理在数据预处理阶段花费时间占比最大,但同时它也是最重要的步 骤,该步骤可以有效减少脏数据造成的低质量分析结果
耐热导线生产质量数据预处理 • 在耐热导线的数据分析过程中,主要使用了导线加工过程各工序的质量检 测数据,而加工设备、生产工艺以及人员的数据因为保密、数据收集不全 等原因暂时没有使用 • 发现了耐热导线生产过程中数据收集的一些不足,如有些数据人工输入错 误或者测量有误差,某些有用的数据暂时没有收集或缺失 • 耐热导线工厂提供了近两年耐热导线检测的数据,涉及多个合同、多个批 次以及多个加工机台 • 经过上述数据整理的步骤之后,数据中还存在着“脏数据”。所谓脏数据 ,就是数据中存在噪声数据、错误数据、缺失数据以及冗余数据等问题。 数据清理在数据预处理阶段花费时间占比最大,但同时它也是最重要的步 骤,该步骤可以有效减少脏数据造成的低质量分析结果
噪声数据处理 噪声数据是指数据中存在着错误或偏离期望值的数据,引起噪声数据的原 因可能是硬件故障、编程错误、拼写错误或者识别程序中的乱码。对于噪 声数据,尤其是孤立点或异常数据,不能随便删除,这些数据很可能是数 据分析中的异常数据 在耐热导线生产数据(这里主要是各工序成品质量检测数据)中,主要存在的 数据噪声形式有缺失值、异常值、冗余值等 缺失值主要存在生产过程记录的数据中,并不是每一项指标的数据都有记录,同一批铝杆拉 出的铝线,时常会出现某个铝线线径空缺的情况,这主要与工厂的生产线记录管理有关 异常值是指存在一些明显不符合常规的数据,如有些记录中铝线的线径数值达到了423mm 而这个数实际可能取值是4.23mm,属于手工录入错误 冗余主要表现为同一生产批次的数据重复出现,这往往是数据整合过程中产生的问题
议程噪声数据处理 • 噪声数据是指数据中存在着错误或偏离期望值的数据,引起噪声数据的原 因可能是硬件故障、编程错误、拼写错误或者识别程序中的乱码。对于噪 声数据,尤其是孤立点或异常数据,不能随便删除,这些数据很可能是数 据分析中的异常数据 • 在耐热导线生产数据(这里主要是各工序成品质量检测数据)中,主要存在的 数据噪声形式有缺失值、异常值、冗余值等 – 缺失值主要存在生产过程记录的数据中,并不是每一项指标的数据都有记录,同一批铝杆拉 出的铝线,时常会出现某个铝线线径空缺的情况,这主要与工厂的生产线记录管理有关 – 异常值是指存在一些明显不符合常规的数据,如有些记录中铝线的线径数值达到了423mm ,而这个数实际可能取值是4.23mm,属于手工录入错误 – 冗余主要表现为同一生产批次的数据重复出现,这往往是数据整合过程中产生的问题