工程科学学报 Chinese Journal of Engineering 基于文本挖据的矿山安全隐患大数据分析与可视化 郭对明李国清胡乃联侯杰 Big data analysis and visualization of potential hazardous risks of the mine based on text mining GUO Dui-ming.LI Guo-qing.HU Nai-lian,HOU Jie 引用本文: 郭对明,李国清,胡乃联,侯杰.基于文本挖掘的矿山安全隐患大数据分析与可视化工程科学学报,2022,44(3):328-338. doi10.13374j.issn2095-9389.2020.10.23.004 GUO Dui-ming.LI Guo-qing.HU Nai-lian,HOU Jie.Big data analysis and visualization of potential hazardous risks of the mine based on text mining[J].Chinese Journal of Engineering,2022,44(3):328-338.doi:10.13374/j.issn2095-9389.2020.10.23.004 在线阅读View online::htps:/doi.org/10.13374.issn2095-9389.2020.10.23.004 您可能感兴趣的其他文章 Articles you may be interested in 油气资源开发的大数据智能平台及应用分析 Big data intelligent platform and application analysis for oil and gas resource development 工程科学学报.2021,432:179 https:1doi.org10.13374.issn2095-9389.2020.07.21.001 基于CART决策树的冲压成形仿真数据挖掘 Data mining of deep drawing simulation results based on CART decision tree theory 工程科学学报.2018.40(11):1373htps:/doi.org10.13374.issn2095-9389.2018.11.011 函数型数据分析与优化极限学习机结合的弹药传输机械臂参数辨识 Parameter identification of a shell transfer arm using FDA and optimized ELM 工程科学学报.2017,394:611htps:1doi.0g10.13374.issn2095-9389.2017.04.017 基于空间近邻关系的非平衡数据重采样算法 Resampling algorithm for imbalanced data based on their neighbor relationship 工程科学学报.2021,43(6:862 https:ldoi.org10.13374j.issn2095-9389.2020.04.05.002 基于近邻的不均衡数据聚类算法 Clustering algorithm for imbalanced data based on nearest neighbor 工程科学学报.2020,42(9%:1209 https:/doi.org10.13374.issn2095-9389.2019.10.09.003 基于索引存根表的云存储数据完整性审计 Cloud storage data integrity audit based on an indexstub table 工程科学学报.2020,42(4:490 https:/ldoi.org/10.13374.issn2095-9389.2019.09.15.008
基于文本挖掘的矿山安全隐患大数据分析与可视化 郭对明 李国清 胡乃联 侯杰 Big data analysis and visualization of potential hazardous risks of the mine based on text mining GUO Dui-ming, LI Guo-qing, HU Nai-lian, HOU Jie 引用本文: 郭对明, 李国清, 胡乃联, 侯杰. 基于文本挖掘的矿山安全隐患大数据分析与可视化[J]. 工程科学学报, 2022, 44(3): 328-338. doi: 10.13374/j.issn2095-9389.2020.10.23.004 GUO Dui-ming, LI Guo-qing, HU Nai-lian, HOU Jie. Big data analysis and visualization of potential hazardous risks of the mine based on text mining[J]. Chinese Journal of Engineering, 2022, 44(3): 328-338. doi: 10.13374/j.issn2095-9389.2020.10.23.004 在线阅读 View online: https://doi.org/10.13374/j.issn2095-9389.2020.10.23.004 您可能感兴趣的其他文章 Articles you may be interested in 油气资源开发的大数据智能平台及应用分析 Big data intelligent platform and application analysis for oil and gas resource development 工程科学学报. 2021, 43(2): 179 https://doi.org/10.13374/j.issn2095-9389.2020.07.21.001 基于CART决策树的冲压成形仿真数据挖掘 Data mining of deep drawing simulation results based on CART decision tree theory 工程科学学报. 2018, 40(11): 1373 https://doi.org/10.13374/j.issn2095-9389.2018.11.011 函数型数据分析与优化极限学习机结合的弹药传输机械臂参数辨识 Parameter identification of a shell transfer arm using FDA and optimized ELM 工程科学学报. 2017, 39(4): 611 https://doi.org/10.13374/j.issn2095-9389.2017.04.017 基于空间近邻关系的非平衡数据重采样算法 Resampling algorithm for imbalanced data based on their neighbor relationship 工程科学学报. 2021, 43(6): 862 https://doi.org/10.13374/j.issn2095-9389.2020.04.05.002 基于近邻的不均衡数据聚类算法 Clustering algorithm for imbalanced data based on nearest neighbor 工程科学学报. 2020, 42(9): 1209 https://doi.org/10.13374/j.issn2095-9389.2019.10.09.003 基于索引存根表的云存储数据完整性审计 Cloud storage data integrity audit based on an indexstub table 工程科学学报. 2020, 42(4): 490 https://doi.org/10.13374/j.issn2095-9389.2019.09.15.008
工程科学学报.第44卷.第3期:328-338.2022年3月 Chinese Journal of Engineering,Vol.44,No.3:328-338,March 2022 https://doi.org/10.13374/j.issn2095-9389.2020.10.23.004;http://cje.ustb.edu.cn 基于文本挖掘的矿山安全隐患大数据分析与可视化 郭对明,2),李国清1,2)区,胡乃联1,2),侯杰1,2) 1)北京科技大学土木与资源工程学院.北京1000832)金属矿山高效开采与安全教育部重点实验室,北京100083 ☒通信作者,E-mail:qqlee@ustb.edu.cn 摘要基于大数据分析技术,构建了矿山安全隐患多维度分析模型,分析了隐患在时间和空间两个维度上的分布规律;利 用主题挖掘模型将众多隐患信息归类,得到了13个隐患主题;利用关联规则挖掘模型探究了不同隐患之间的内在联系,并利 用R编程语言对上述结果进行可视化展示.通过对安全隐患的分析研究不仅充分利用了矿山隐患数据,避免了数据资源的 浪费,同时也对矿山井下事故预防有一定的指导价值 关键词矿山安全:文本挖掘:隐患数据:大数据分析:可视化 分类号TD77.1 Big data analysis and visualization of potential hazardous risks of the mine based on text mining GUO Dui-ming,LI Guo-qing HU Nai-lian2),HOU Jie2 1)School of Civil and Resource Engineering,University of Science and Technology Beijing,Beijing 100083,China 2)Key Laboratory of High-Efficient Mining and Safety of Metal Mines,Ministry of Education,Beijing 100083,China Corresponding author,E-mail:qqlee@ustb.edu.cn ABSTRACT Compared with other production industries,metal mine is recognized as a high accident rate and the highest casualty rate due to the bad working environment.Therefore,safety production is the key concern of mining enterprises.With the attention of enterprises to safety problems and the increasing improvement of mine safety management system,many mines have established secure big data platform to effectively manage production and ensure the safety of underground operation,receiving the safety hazard information from daily safety inspection into the platform.However,due to the data of security risks are unstructured short texts with the operation of the enterprise,including the data recorded in the platform presents the characteristics of complex data content,large data scale,and non-standard data records.Moreover,due to the lack of an effective text analysis model,a small part of the security risk data is only used for simple analysis such as report analysis and data statistics,whereas more data is stored in a secure big data platform.Thus, the data did not play a guiding role in production,resulting in a waste of these valuable data resources.In order to explore the internal relationship between hidden danger data and the rule of hidden danger occurrence,based on big data analysis technology,this paper constructed a multi-dimensional analysis model of mine safety hidden danger.We analyzed the distribution law of hidden danger in two dimensions of time and space,used the topic mining model to classify hidden danger information,and obtained 13 hidden danger topics, using association rules to mine hidden danger.The model explores the internal relationship between different hidden dangers and uses an R programming language to visualize the above results.The results made full use of the mine hidden danger data and avoided the waste of data resources through the analysis and research of the hidden danger with a certain guiding value for preventing mine accidents. KEY WORDS mine safety;text mining;data of hidden danger;data analysis;data visualization 收稿日期:2020-10-23 基金项目:国家自然科学基金资助项目(52074022):中央高校基本科研业务费专项资金资助项目(FRF-TP.20-001A1)
基于文本挖掘的矿山安全隐患大数据分析与可视化 郭对明1,2),李国清1,2) 苣,胡乃联1,2),侯 杰1,2) 1) 北京科技大学土木与资源工程学院,北京 100083 2) 金属矿山高效开采与安全教育部重点实验室,北京 100083 苣通信作者, E-mail: qqlee@ustb.edu.cn 摘 要 基于大数据分析技术,构建了矿山安全隐患多维度分析模型,分析了隐患在时间和空间两个维度上的分布规律;利 用主题挖掘模型将众多隐患信息归类,得到了 13 个隐患主题;利用关联规则挖掘模型探究了不同隐患之间的内在联系,并利 用 R 编程语言对上述结果进行可视化展示. 通过对安全隐患的分析研究不仅充分利用了矿山隐患数据,避免了数据资源的 浪费,同时也对矿山井下事故预防有一定的指导价值. 关键词 矿山安全;文本挖掘;隐患数据;大数据分析;可视化 分类号 TD77.1 Big data analysis and visualization of potential hazardous risks of the mine based on text mining GUO Dui-ming1,2) ,LI Guo-qing1,2) 苣 ,HU Nai-lian1,2) ,HOU Jie1,2) 1) School of Civil and Resource Engineering, University of Science and Technology Beijing, Beijing 100083, China 2) Key Laboratory of High-Efficient Mining and Safety of Metal Mines, Ministry of Education, Beijing 100083, China 苣 Corresponding author, E-mail: qqlee@ustb.edu.cn ABSTRACT Compared with other production industries, metal mine is recognized as a high accident rate and the highest casualty rate due to the bad working environment. Therefore, safety production is the key concern of mining enterprises. With the attention of enterprises to safety problems and the increasing improvement of mine safety management system, many mines have established secure big data platform to effectively manage production and ensure the safety of underground operation, receiving the safety hazard information from daily safety inspection into the platform. However, due to the data of security risks are unstructured short texts with the operation of the enterprise, including the data recorded in the platform presents the characteristics of complex data content, large data scale, and non-standard data records. Moreover, due to the lack of an effective text analysis model, a small part of the security risk data is only used for simple analysis such as report analysis and data statistics, whereas more data is stored in a secure big data platform. Thus, the data did not play a guiding role in production, resulting in a waste of these valuable data resources. In order to explore the internal relationship between hidden danger data and the rule of hidden danger occurrence, based on big data analysis technology, this paper constructed a multi-dimensional analysis model of mine safety hidden danger. We analyzed the distribution law of hidden danger in two dimensions of time and space, used the topic mining model to classify hidden danger information, and obtained 13 hidden danger topics, using association rules to mine hidden danger. The model explores the internal relationship between different hidden dangers and uses an R programming language to visualize the above results. The results made full use of the mine hidden danger data and avoided the waste of data resources through the analysis and research of the hidden danger with a certain guiding value for preventing mine accidents. KEY WORDS mine safety;text mining;data of hidden danger;data analysis;data visualization 收稿日期: 2020−10−23 基金项目: 国家自然科学基金资助项目(52074022);中央高校基本科研业务费专项资金资助项目(FRF-TP-20-001A1) 工程科学学报,第 44 卷,第 3 期:328−338,2022 年 3 月 Chinese Journal of Engineering, Vol. 44, No. 3: 328−338, March 2022 https://doi.org/10.13374/j.issn2095-9389.2020.10.23.004; http://cje.ustb.edu.cn
郭对明等:基于文本挖掘的矿山安全隐患大数据分析与可视化 329 金属矿山由于作业条件复杂、劳动环境恶劣, 模大、不规范等特征.据数据显示,矿山一年的数 被公认为是事故高发且伤亡率最高的行业之一山 据量可达上百GBI90.虽然大数据平台为安全隐 因此,安全生产成为矿山企业永恒的主题,安全隐 患数据提供了存储平台,但是由于缺少安全隐患 患管理也受到了国家和企业的重视-]随着矿山 分析模型,在数据的分析利用方面存在短板P,大 安全管理体系日益完善,针对事故发生机理在人 量安全数据只是用于完成简单的问题处理、报表 类可控范围内对安全隐患进行及时的辨识、处理 分析和数据统计,导致这些有价值的信息生命周 与监控是矿山安全生产管理的重要手段.对不同 期很短暂,在完成隐患排查后即以分散化、无序化 的隐患数据有不同的辨识分析方法,Martin和 的形式存储,成为历史数据,未能发挥这些数据对 Morris提出建立被控过程模型,通过数学模型将研 安全生产的指导作用,从而导致上述海量数据的 究对象的可测信息和通过模型表达的先验信息进 浪费.另外,矿山安全隐患数据的记录内容较短, 行比较,对残差结果进行分析处理,完成了对安全 每条数据的有效信息少,具有明显的短文本特征, 隐患的确定,通过利用故障关系的先验模型建立 所以选择适用于短文本挖掘的分析方法构建数据 知识模型,利用被监控对象的定性描述建立定性 挖掘模型,从多角度探究隐患数据的内在联系,借 模型,从而完成了对安全隐患的定位与识别问 助可视化手段对挖掘结果进行可视化展示,指导 Dunia等提出在描述对象的精确性及建模的可 矿山安全隐患排查治理是当前矿山企业隐患治理 行性上,介于以上两种方法之间,通过相关的频谱 中亟待解决的问题 分析、主元分析、小波变换等工具,直接分析可测 因此,本文在数据预处理的基础上对隐患信 信号,提取诸如方差、幅值、频率等特征值,从而 息进行多维度辨识,得到隐患在时间和空间两个 检测安全隐患的存在,李季等)提出了完整、科学 维度上的分布规律:针对矿山隐患信息的短文本 的危险源信息和隐患辨识数据库,然后结合矿山 特征,采用双词主题模型(Biterm topic model,.BTM) 监测系统和人工监测提供的实时数据,完成了安 对安全隐患进行主题挖掘,得到了13个隐患主 全隐患的捕捉与辨别,秦文静通过事故树原理, 题,有效避免了潜在狄利克雷分配模型(Latent 建立煤矿井下瓦斯爆炸危险源事故树,对煤矿瓦 Dirichlet allocation,.LDA)算法不适用于短文本挖 斯爆炸危险源进行辨识.张宝隆等9提出了基于 掘的不足;最后通过Apriori算法对隐患数据进行 本体的隐患辨识排查系统构建的方法,通过对煤 了关联规则挖掘,得到了多条有效的关联规则,并 矿隐患知识分析,建立了隐患本体层次结构,定义 对其进行了可视化展示 类的对象和属性,构建了煤矿事故隐患辨识排查 1 基于大数据的安全隐患分析模型 系统模型,从而解决了煤矿事故排查效率低,排查 不到位等问题 构建安全隐患分析模型,首先对隐患数据进 为了有效分析安全隐患信息,有学者尝试了 行预处理,然后基于大数据分析方对隐患信息进 将大数据分析技术应用到矿山安全管理中.马小 行多维度分析、主题挖掘、关联规则挖掘等,具体 平和代伟o通过总结大数据技术在煤炭工业中的 流程如图1所示 应用,分析了大数据在煤矿设备故障诊断、灾害事 11数据预处理 故预警与防治等方面的可行性.孙继平山运用大 由于矿山安全隐患数据记录的内容繁杂且在 数据技术实现了煤矿事故灾害的超前预警.谭章 记录过程中缺乏规范性,因此为了保证文本挖掘 禄等四借助文本分析方法,通过对隐患信息的预 的效果,在进行文本挖掘之前需要对数据进行清 处理,得到隐患事故高频词,进一步指导隐患治 洗.从矿山安全管理系统中导出的数据包含很多 理.钱宇虹)、石记斌和石记红4、雷煜斌等采 内容,比如责任人、责任单位等内容对文本挖掘不 用数据挖掘技术,应用Apriori算法和FP-growth算 产生影响,因此将这些信息删除,仅保留数据中时 法分析瓦斯与地质构造、煤结构等因素间的关联 间、地点、隐患问题部分,用以降低文本挖掘维 关系 度,提高文本挖掘处理的速度.同时对记录中不规 随着计算机的发展,很多矿山搭建了安全大 范格式及错别字进行纠正.数据清洗完成后用 数据平台或相应的管理系统,并将安全检查 R语言自带的jiebaR包对数据进行分词,分词过程 中发现的隐患信息录入到大数据平台中,随着企 可以理解为根据词库将文本分割成零碎的词汇, 业运行,平台中会积累海量以安全检查信息为主 而这些词汇就是数据文本的特征项,由矿山安全 的非结构化文本数据,而且数据具有内容繁杂、规 隐患数据包含大量的采矿专业词汇,而这些专业
金属矿山由于作业条件复杂、劳动环境恶劣, 被公认为是事故高发且伤亡率最高的行业之一[1] . 因此,安全生产成为矿山企业永恒的主题,安全隐 患管理也受到了国家和企业的重视[2−3] . 随着矿山 安全管理体系日益完善,针对事故发生机理在人 类可控范围内对安全隐患进行及时的辨识、处理 与监控是矿山安全生产管理的重要手段. 对不同 的隐患数据有不同的辨识分析方法 , Martin 和 Morris 提出建立被控过程模型,通过数学模型将研 究对象的可测信息和通过模型表达的先验信息进 行比较,对残差结果进行分析处理,完成了对安全 隐患的确定[4] ,通过利用故障关系的先验模型建立 知识模型,利用被监控对象的定性描述建立定性 模型 ,从而完成了对安全隐患的定位与识别[5] . Dunia 等[6] 提出在描述对象的精确性及建模的可 行性上,介于以上两种方法之间,通过相关的频谱 分析、主元分析、小波变换等工具,直接分析可测 信号,提取诸如方差、幅值、频率等特征值,从而 检测安全隐患的存在. 李季等[7] 提出了完整、科学 的危险源信息和隐患辨识数据库,然后结合矿山 监测系统和人工监测提供的实时数据,完成了安 全隐患的捕捉与辨别. 秦文静[8] 通过事故树原理, 建立煤矿井下瓦斯爆炸危险源事故树,对煤矿瓦 斯爆炸危险源进行辨识. 张宝隆等[9] 提出了基于 本体的隐患辨识排查系统构建的方法,通过对煤 矿隐患知识分析,建立了隐患本体层次结构,定义 类的对象和属性,构建了煤矿事故隐患辨识排查 系统模型,从而解决了煤矿事故排查效率低,排查 不到位等问题. 为了有效分析安全隐患信息,有学者尝试了 将大数据分析技术应用到矿山安全管理中. 马小 平和代伟[10] 通过总结大数据技术在煤炭工业中的 应用,分析了大数据在煤矿设备故障诊断、灾害事 故预警与防治等方面的可行性. 孙继平[11] 运用大 数据技术实现了煤矿事故灾害的超前预警. 谭章 禄等[12] 借助文本分析方法,通过对隐患信息的预 处理,得到隐患事故高频词,进一步指导隐患治 理. 钱宇虹[13]、石记斌和石记红[14]、雷煜斌等[15] 采 用数据挖掘技术,应用 Apriori 算法和 FP-growth 算 法分析瓦斯与地质构造、煤结构等因素间的关联 关系. 随着计算机的发展,很多矿山搭建了安全大 数据平台或相应的管理系统[16−18] ,并将安全检查 中发现的隐患信息录入到大数据平台中. 随着企 业运行,平台中会积累海量以安全检查信息为主 的非结构化文本数据,而且数据具有内容繁杂、规 模大、不规范等特征. 据数据显示,矿山一年的数 据量可达上百 GB[19−20] . 虽然大数据平台为安全隐 患数据提供了存储平台,但是由于缺少安全隐患 分析模型,在数据的分析利用方面存在短板[21] ,大 量安全数据只是用于完成简单的问题处理、报表 分析和数据统计,导致这些有价值的信息生命周 期很短暂,在完成隐患排查后即以分散化、无序化 的形式存储,成为历史数据,未能发挥这些数据对 安全生产的指导作用,从而导致上述海量数据的 浪费. 另外,矿山安全隐患数据的记录内容较短, 每条数据的有效信息少,具有明显的短文本特征, 所以选择适用于短文本挖掘的分析方法构建数据 挖掘模型,从多角度探究隐患数据的内在联系,借 助可视化手段对挖掘结果进行可视化展示,指导 矿山安全隐患排查治理是当前矿山企业隐患治理 中亟待解决的问题. 因此,本文在数据预处理的基础上对隐患信 息进行多维度辨识,得到隐患在时间和空间两个 维度上的分布规律;针对矿山隐患信息的短文本 特征,采用双词主题模型(Biterm topic model, BTM) 对安全隐患进行主题挖掘,得到了 13 个隐患主 题 ,有效避免了潜在狄利克雷分配模型( Latent Dirichlet allocation, LDA) 算法不适用于短文本挖 掘的不足;最后通过 Apriori 算法对隐患数据进行 了关联规则挖掘,得到了多条有效的关联规则,并 对其进行了可视化展示. 1 基于大数据的安全隐患分析模型 构建安全隐患分析模型,首先对隐患数据进 行预处理,然后基于大数据分析方对隐患信息进 行多维度分析、主题挖掘、关联规则挖掘等,具体 流程如图 1 所示. 1.1 数据预处理 由于矿山安全隐患数据记录的内容繁杂且在 记录过程中缺乏规范性,因此为了保证文本挖掘 的效果,在进行文本挖掘之前需要对数据进行清 洗. 从矿山安全管理系统中导出的数据包含很多 内容,比如责任人、责任单位等内容对文本挖掘不 产生影响,因此将这些信息删除,仅保留数据中时 间、地点、隐患问题部分,用以降低文本挖掘维 度,提高文本挖掘处理的速度. 同时对记录中不规 范格式及错别字进行纠正. 数据清洗完成后用 R 语言自带的 jiebaR 包对数据进行分词,分词过程 可以理解为根据词库将文本分割成零碎的词汇, 而这些词汇就是数据文本的特征项,由矿山安全 隐患数据包含大量的采矿专业词汇,而这些专业 郭对明等: 基于文本挖掘的矿山安全隐患大数据分析与可视化 · 329 ·
330 工程科学学报,第44卷,第3期 Data cleaning Data preprocessing Tokenization Stop words removal Analysis on time distribution of Multi dimensional security risks Statistics of high hidden danger frequency words identification Analysis on spatial distribution of Force atlas graphic layout algorithm security risks BTM topic mining model Topic mining of Gibbs sampling security risks algorithm Perplexity Apriori association rules Association mining mining algorithm of security risks Visual display 图1基于大数据分析的隐患分析模型流程 Fig.I Hidden danger analysis model process based on big data analysis 词汇并不包含在R语言的词库中,为了提高数据 的Force Atlas图形布局算法,对隐患进行可视化 分词的准确性,再分词前添加自定义词库,词库内 表示,得到安全隐患时间分布图和空间分布图 容来源于采矿工程、矿井通风、矿山工程、矿山应 1.3隐患信息主题挖掘 急救援等专业词汇.分词结束后数据中依然存在 矿山安全隐患数据的数量庞大而且所涉及的 频率较高但没有实际意义的词,即停用词,因此需 种类复杂多样,在实际管理过程中很难通过人工 要对分词结束的数据去停用词,目的是对文本的 完成对隐患数据按照隐患类别进行分类统计,更 特征项降维减噪,提高文本挖掘工具的处理速度 难以发现安全隐患问题中隐藏的隐患主题.因此, 与处理能力 通过大数据分析中的主题挖掘算法构建矿山隐患 1.2隐患信息多维度辨识 信息的主题挖掘模型,对井下安全隐患数据进行 地下矿山安全隐患的发生不是杂乱无序的, 深层次分析,通过将众多的隐患归类,获得能够反 随着企业对隐患的治理,造成某些安全隐患数量 映井下生产安全问题的隐患主题,更加有针对性 随着时间的延长呈现出一定的波动起伏规律.为 的指导安全管理工作的开展 了分析安全隐患的变化,在数据预处理的基础上, 文本的主题挖掘是大数据分析中重要的组成 按照年份统计该年内出现频率较高的隐患词,对 部分,该方法可以将众多的数据按照一定的规则 高频词按时间顺序进行分析,得到历年隐患数量 进行高度概括,按照不同的隐患内容划分为不同 随时间变化的曲线,从而在时间维度上对隐患的 的隐患主题.BTM主题挖掘模型四]与传统的 发展变化进行把握.同样,隐患并不是在井下任何 LDA主题挖掘模型1的相似点在于,两种主题算 地点都存在,一些特定的隐患会在某些关键地点 法的先验分布均服从狄利克雷分布(Dirichlet 出现且出现的次数较高,为了明确井下隐患发生 distribution,Dir(a),区别在于BTM是对词对进行 的重点区域,指导企业对危险区域的排查,通过统 建模而不是单独的词语,然后利用共轭分布对主 计隐患数据中的地点并提取频繁出现的地点,对 题模型进行推理.该模型通过对短文本语料进行 高频地点对应的隐患信息进行分析,得到该地点 词对扩充,改善了短文本建模的稀疏问题.该模型 可能发生的相关隐患, 的概率模型如图2所示 为了更加直观的展示安全隐患在时间和空间 上图2中,Z为一个主题,k为维度,0为短文 两个维度上的分布规律,利用大数据分析方法中 本集合中k个主题的分布,4为主题维度k的词汇
词汇并不包含在 R 语言的词库中,为了提高数据 分词的准确性,再分词前添加自定义词库,词库内 容来源于采矿工程、矿井通风、矿山工程、矿山应 急救援等专业词汇. 分词结束后数据中依然存在 频率较高但没有实际意义的词,即停用词,因此需 要对分词结束的数据去停用词,目的是对文本的 特征项降维减噪,提高文本挖掘工具的处理速度 与处理能力. 1.2 隐患信息多维度辨识 地下矿山安全隐患的发生不是杂乱无序的, 随着企业对隐患的治理,造成某些安全隐患数量 随着时间的延长呈现出一定的波动起伏规律. 为 了分析安全隐患的变化,在数据预处理的基础上, 按照年份统计该年内出现频率较高的隐患词,对 高频词按时间顺序进行分析,得到历年隐患数量 随时间变化的曲线,从而在时间维度上对隐患的 发展变化进行把握. 同样,隐患并不是在井下任何 地点都存在,一些特定的隐患会在某些关键地点 出现且出现的次数较高,为了明确井下隐患发生 的重点区域,指导企业对危险区域的排查,通过统 计隐患数据中的地点并提取频繁出现的地点,对 高频地点对应的隐患信息进行分析,得到该地点 可能发生的相关隐患. 为了更加直观的展示安全隐患在时间和空间 两个维度上的分布规律,利用大数据分析方法中 的 Force Atlas 图形布局算法,对隐患进行可视化 表示,得到安全隐患时间分布图和空间分布图. 1.3 隐患信息主题挖掘 矿山安全隐患数据的数量庞大而且所涉及的 种类复杂多样,在实际管理过程中很难通过人工 完成对隐患数据按照隐患类别进行分类统计,更 难以发现安全隐患问题中隐藏的隐患主题. 因此, 通过大数据分析中的主题挖掘算法构建矿山隐患 信息的主题挖掘模型,对井下安全隐患数据进行 深层次分析,通过将众多的隐患归类,获得能够反 映井下生产安全问题的隐患主题,更加有针对性 的指导安全管理工作的开展. 文本的主题挖掘是大数据分析中重要的组成 部分,该方法可以将众多的数据按照一定的规则 进行高度概括,按照不同的隐患内容划分为不同 的隐患主题 . BTM 主题挖掘模型 [22] 与传统 的 LDA 主题挖掘模型[23] 的相似点在于,两种主题算 法 的 先 验 分 布 均 服 从 狄 利 克 雷 分 布 (Dirichlet distribution, Dir(α)),区别在于 BTM 是对词对进行 建模而不是单独的词语,然后利用共轭分布对主 题模型进行推理. 该模型通过对短文本语料进行 词对扩充,改善了短文本建模的稀疏问题. 该模型 的概率模型如图 2 所示. 上图 2 中 ,Z 为一个主题,k 为维度,θ 为短文 本集合中 k 个主题的分布,φk 为主题维度 k 的词汇 Data preprocessing Data cleaning Tokenization Stop words removal Force atlas graphic layout algorithm BTM topic mining model Gibbs sampling algorithm Perplexity Visual display Statistics of high frequency words Topic mining of security risks Apriori association rules mining algorithm Association mining of security risks Multi dimensional hidden danger identification Analysis on time distribution of security risks Analysis on spatial distribution of security risks 图 1 基于大数据分析的隐患分析模型流程 Fig.1 Hidden danger analysis model process based on big data analysis · 330 · 工程科学学报,第 44 卷,第 3 期
郭对明等:基于文本挖掘的矿山安全隐患大数据分析与可视化 331· 的经典算法之一242,该算法通过构建候选集和 建立规则挖掘频繁项集,其核心是基于两阶段频 集思想的递推算法.Apriori算法对关联规则的挖 掘主要分为两个步骤,首先要构建一组最小支持 度的频繁项,然后根据所建立的频繁项集构造关 联规则,具体步骤如图3所示 Construction of mine safety hazard data set D 图2BTM概率图模型 Proposed minimum support Fig.2 BTM probability graph model (min_supp)and minimum confidence(min conf) 分布,NB为文档数目,a、B为词对与主题分布和主 Scan the data set and Candidate 1 itemsets C count each item 题与单词分布的狄利克雷分布的超参数.模型的 计算过程如下所示: Y ①对于每一个主题Z,其主题维度下的词分布 Prune min supp Frequent 1 itemsets L 为p=Dir(B): ②对于短文本语料集,确定一个全局的主题 Connect Candidate 2 itemsets C 分布0=Dir(B: ③对于词对WW中每一个词,执行: Frequent k itemsets La 从全局主题分布0中,抽取一个主题Z,即 ¥ Candidate +1 Z=Mult(0); Connect itemsets C+ 从被抽取的主题中,抽取两个词w,和w,:其中 每个词对都是从一个独立主题中产生,即",w于 N Y Frequent +1 Mult(o). Prune Support of item Sets≥min_supp itemsets La BTM模型采用Gibbs抽样算法进行采样,主 题分布的最终化简如下式所示 L=Empty set (nwik+B)(nwk+B) P(ZIZ-w.W.a.B)c(n.+a)- (1) (∑wmwk+BM)2 Output association rules (confidence>min_supp) 式中:Z为除去当前词对的主题分布,Z为主题, n:为分配到主题Z的次数,nwk、nwk、nwk分别为 Calculate the lift of association rules and 词对w、w、W分配到主题Z的次数,M为语料集 expla in the rules 中不同的词语数 图3基于Apriori算法矿山安全隐患关联规则挖掘流程 之后根据公式(2)和公式(3)对超参数进行估计 Fig.3 Mining process of association rules for mine safety hazard based 0s及+B on Apriori algorithm (2) B+Ka 2基于大数据隐患分析模型应用与结果分析 nwkz +B P=∑wnt+ME (3) 2.1数据描述与处理 1.4隐患信息关联规则挖掘 本文以某矿山的GIS安全管理系统中抽取得 导致矿山安全事故产生的原因往往不止一 到安全隐患排查数据为研究对象,该数据从2013 种,多种安全隐患的出现增加了矿山安全事故发 年至2019年,共计34000条,记录了隐患发生的 生的概率,这表明安全隐患并不是孤立存在,他们 时间、位置、隐患单位、具体问题、整改意见等 往往存在着一定的联系.因此分析不同隐患之间 内容 的内在联系,理清隐患之间的因果关系,对有效治 对收集的隐患数据进行预处理,经过分词和 理隐患,预防隐患产生起到事半功倍的作用 去停用词后提取词频前200的高频词汇作为有效 Apriori算法是挖掘布尔关联规则频繁项目集 结果(最小词频大于200),部分高频词如表1所示
分布,NB 为文档数目,α、β 为词对与主题分布和主 题与单词分布的狄利克雷分布的超参数. 模型的 计算过程如下所示: ① 对于每一个主题 Z,其主题维度下的词分布 为 φ=Dir(β); ② 对于短文本语料集,确定一个全局的主题 分布 θ=Dir(β); ③ 对于词对 WW 中每一个词,执行: 从全局主题分 布 θ 中 ,抽取一个主 题 Z, 即 Z=Mult(θ); 从被抽取的主题中,抽取两个词 wi 和 wj;其中 每个词对都是从一个独立主题中产生,即 wi,wj= Mult(φ). BTM 模型采用 Gibbs 抽样算法进行采样,主 题分布的最终化简如下式所示. P(Z|Z−w,W,α, β) ∝ (nz +α) (nwi |z +β)(nwj |z +β) ( ∑ wnw|z +βM) 2 (1) nw|z nwi |z nwj |z 式中: Z−w 为除去当前词对的主题分布,Z 为主题, nz 为分配到主题 Z 的次数, 、 、 分别为 词对 w、wi、wj 分配到主题 Z 的次数,M 为语料集 中不同的词语数. 之后根据公式 (2) 和公式 (3) 对超参数进行估计. θ = nz +β B+Kα (2) φ = nw|z +β ∑ w nw|z + Mβ (3) 1.4 隐患信息关联规则挖掘 导致矿山安全事故产生的原因往往不止一 种,多种安全隐患的出现增加了矿山安全事故发 生的概率,这表明安全隐患并不是孤立存在,他们 往往存在着一定的联系. 因此分析不同隐患之间 的内在联系,理清隐患之间的因果关系,对有效治 理隐患,预防隐患产生起到事半功倍的作用. Apriori 算法是挖掘布尔关联规则频繁项目集 的经典算法之一[24−25] ,该算法通过构建候选集和 建立规则挖掘频繁项集,其核心是基于两阶段频 集思想的递推算法. Apriori 算法对关联规则的挖 掘主要分为两个步骤,首先要构建一组最小支持 度的频繁项,然后根据所建立的频繁项集构造关 联规则,具体步骤如图 3 所示. Construction of mine safety hazard data set D Proposed minimum support (min_supp) and minimum confidence (min_conf) Scan the data set and count each item ... N Y Candidate 1 itemsets C1 Frequent 1 itemsets L1 Support of item sets≥min_supp Prune Frequent k itemsets Lk Connect Candidate 2 itemsets C2 Connect Candidate k+1 itemsets Ck+1 Support of item sets≥min_supp Frequent k+1 itemsets Lk+1 Prune L=Empty set Output association rules (confidence>min_supp) Calculate the lift of association rules and expla in the rules N Y 图 3 基于 Apriori 算法矿山安全隐患关联规则挖掘流程 Fig.3 Mining process of association rules for mine safety hazard based on Apriori algorithm 2 基于大数据隐患分析模型应用与结果分析 2.1 数据描述与处理 本文以某矿山的 GIS 安全管理系统中抽取得 到安全隐患排查数据为研究对象,该数据从 2013 年至 2019 年,共计 34000 条,记录了隐患发生的 时间、位置、隐患单位、具体问题、整改意见等 内容. 对收集的隐患数据进行预处理,经过分词和 去停用词后提取词频前 200 的高频词汇作为有效 结果 (最小词频大于 200),部分高频词如表 1 所示. α θ β φk wi wj NB k Z 图 2 BTM 概率图模型 Fig.2 BTM probability graph model 郭对明等: 基于文本挖掘的矿山安全隐患大数据分析与可视化 · 331 ·
332 工程科学学报,第44卷,第3期 表1安全隐患高颜词(部分) Table 1 High frequency words of hidden danger(part) Number Hidden danger vocabulary Word frequency Proportion/ Number Hidden danger vocabulary Word frequency Proportion/% Support 9493 5.27 Civilized production 2440 1.36 3 Roof 9174 5.10 12 Pavement 2327 1.29 Pumice 8756 4.86 13 Roadway's sides 2232 1.24 Illumination 6145 3.41 14 Not in place 2190 1.22 Head-on 5237 2.91 15 Fan 2112 1.17 6 Much more 4931 2.74 16 Work 2099 1.17 7 Hydrops 2909 1.62 17 Distribution box 2011 1.12 8 Roof and sidewalls 2773 1.54 18 Fracture 1900 1.06 9 Facilities 2659 1.48 19 Explosive 1798 1.00 10 Rock bolt 2456 1.36 20 Jeep 1538 0.85 通过上表的词频统计可以清楚的看出在矿山 隐患词汇进行分析,得到30种以上共有的隐患, 安全隐患中支护的相关问题出现的频率最高,其 如表2所示为部分共有隐患 次是顶板和浮石问题.为了更直观的看出隐患文 本的分词结果,对表2中的数据进行可视化展示, 通过R语言自带的词云展示工具对分词结果进行 词云展示.在词云展示过程中,词汇的字体越大, 代表着该词在分词结果中出现的频率越高,这样 可以让读者对分析结果有快速、直观的理解.如 图4所示,在例如,支护、顶板、浮石等词在分词结 果中出现的频率较高,因此在图中的字体大小较大 表2不同年份共有隐患词汇统计表(部分) 配电箱等文明生产 Table 2 Statistical table of common hidden danger vocabulary (part) 图4矿山安全隐患词云图 Word frequency Fig.4 Cloud chart of mine safety hidden danger Hidden danger vocabulary 2013201420152016201720182019 Multi dimensional hidden Roof 6058728181080135817161246 danger identification Illumination 45154740548993811761106 Rock bolt 161220360259321322235 Place Mining Middle Sublevel Mining Pumice 59385010141326131717481234 area segment district Time Distribution box 176226156237333391303 Year Mouth Day Head-on 4844773876187651242794 Support 7047818491152127421161687 图5隐患数据维度分析图 Fan 221254167210363302313 Fig.5 Dimension analysis chart of hidden danger data Hydrops 280280278296459592484 为了分析上述共有隐患词汇随时间的变化规 … 律,对上述隐患词汇绘制隐患发生频率随时间的 变换曲线,如图6所示 2.2安全隐患时空分布规律分析 由图6可以看出大部分隐患呈现出从2013年 在数据预处理的基础上,进行隐患信息的多 开始先增长,到2018年达到最大值,之后减少的 维度辨识,从时间和空间两个维度上对数据进行 趋势.其中支护、浮石、顶板、迎头问题出远高于 分析,得到隐患在时间和地点上的分布规律.具体 其他隐患,且从2013~2018年有明显增加,但2018 维度划分如图5所示 年之后出现下降,表明四种问题得到了一定程度 为了推测矿山安全隐患出现的趋势,分析矿 的改善,但整体出现频率依然很高,表明依然是威 山安全隐患随时间变化的规律,将安全隐患数据 胁员工井下生产的主要隐患,需要矿山开采过程 按照时间进行分类统计词频.选取各年中相同的 中重点关注.配电箱、风机、安全背甲、漏电等隐
表 1 安全隐患高频词 (部分) Table 1 High frequency words of hidden danger (part) Number Hidden danger vocabulary Word frequency Proportion/% Number Hidden danger vocabulary Word frequency Proportion/% 1 Support 9493 5.27 11 Civilized production 2440 1.36 2 Roof 9174 5.10 12 Pavement 2327 1.29 3 Pumice 8756 4.86 13 Roadway’s sides 2232 1.24 4 Illumination 6145 3.41 14 Not in place 2190 1.22 5 Head-on 5237 2.91 15 Fan 2112 1.17 6 Much more 4931 2.74 16 Work 2099 1.17 7 Hydrops 2909 1.62 17 Distribution box 2011 1.12 8 Roof and sidewalls 2773 1.54 18 Fracture 1900 1.06 9 Facilities 2659 1.48 19 Explosive 1798 1.00 10 Rock bolt 2456 1.36 20 Jeep 1538 0.85 通过上表的词频统计可以清楚的看出在矿山 安全隐患中支护的相关问题出现的频率最高,其 次是顶板和浮石问题. 为了更直观的看出隐患文 本的分词结果,对表 2 中的数据进行可视化展示, 通过 R 语言自带的词云展示工具对分词结果进行 词云展示. 在词云展示过程中,词汇的字体越大, 代表着该词在分词结果中出现的频率越高,这样 可以让读者对分析结果有快速、直观的理解[26] . 如 图 4 所示,在例如,支护、顶板、浮石等词在分词结 果中出现的频率较高,因此在图中的字体大小较大. 表 2 不同年份共有隐患词汇统计表 (部分) Table 2 Statistical table of common hidden danger vocabulary (part) Hidden danger vocabulary Word frequency 2013 2014 2015 2016 2017 2018 2019 Roof 605 872 818 1080 1358 1716 1246 Illumination 451 547 405 489 938 1176 1106 Rock bolt 161 220 360 259 321 322 235 Pumice 593 850 1014 1326 1317 1748 1234 Distribution box 176 226 156 237 333 391 303 Head-on 484 477 387 618 765 1242 794 Support 704 781 849 1152 1274 2116 1687 Fan 221 254 167 210 363 302 313 Hydrops 280 280 278 296 459 592 484 … … … … … … … … 2.2 安全隐患时空分布规律分析 在数据预处理的基础上,进行隐患信息的多 维度辨识,从时间和空间两个维度上对数据进行 分析,得到隐患在时间和地点上的分布规律. 具体 维度划分如图 5 所示. 为了推测矿山安全隐患出现的趋势,分析矿 山安全隐患随时间变化的规律,将安全隐患数据 按照时间进行分类统计词频. 选取各年中相同的 隐患词汇进行分析,得到 30 种以上共有的隐患, 如表 2 所示为部分共有隐患. 图 4 矿山安全隐患词云图 Fig.4 Cloud chart of mine safety hidden danger Mining area Middle segment Sublevel Year Mouth Day Mining district Multi dimensional hidden danger identification Place Time 图 5 隐患数据维度分析图 Fig.5 Dimension analysis chart of hidden danger data 为了分析上述共有隐患词汇随时间的变化规 律,对上述隐患词汇绘制隐患发生频率随时间的 变换曲线,如图 6 所示. 由图 6 可以看出大部分隐患呈现出从 2013 年 开始先增长,到 2018 年达到最大值,之后减少的 趋势. 其中支护、浮石、顶板、迎头问题出远高于 其他隐患,且从 2013~2018 年有明显增加,但 2018 年之后出现下降,表明四种问题得到了一定程度 的改善,但整体出现频率依然很高,表明依然是威 胁员工井下生产的主要隐患,需要矿山开采过程 中重点关注. 配电箱、风机、安全背甲、漏电等隐 · 332 · 工程科学学报,第 44 卷,第 3 期
郭对明等:基于文本挖掘的矿山安全隐患大数据分析与可视化 333· 2000 Safety hat Hydrops Safety carapace leep Transformer Pry detection rd 1500 plosive ump unit Ele leakage Overstaffing Rock bolt Detonating tube Caving 1000 Cable Fire extinguisher Root Distribution box Chamber Ventilation Protective fence Production of civilization Wind belt Head-on 500 Fan Pumice 0 2013201420152016201720182019 Year 图6隐患-时间变化图 Fig.6 Hidden danger-time 患问题出现的频率相对较低,且随着时间变化表 患在矿山生产中普遍存在,但对生产威胁较小 现为波动增长,但是增长幅度不明显,表明虽然在 为了更加直观显示隐患在时间维度上的分 矿山开采过程中对上述三种隐患控制的比较好, 布,运用大数据分析方法中的Force Atlas图形布 但矿山企业仍需要加强对此类隐患进行的管理. 局算法绘制矿山安全隐患与时间规律分布图,如 其他隐患数量相对较少,且变化不大,说明这些隐 图7所示 主复道井下 An 存 2017 2016 2015 2018 0意 2014 头 2019 2013 成取 纹地场销坏 口行东水 电东车 用触 配备 困7矿山安全隐患与时间规律分布 Fig.7 Hidden danger of mine safety and time distribution
患问题出现的频率相对较低,且随着时间变化表 现为波动增长,但是增长幅度不明显,表明虽然在 矿山开采过程中对上述三种隐患控制的比较好, 但矿山企业仍需要加强对此类隐患进行的管理. 其他隐患数量相对较少,且变化不大,说明这些隐 患在矿山生产中普遍存在,但对生产威胁较小. 为了更加直观显示隐患在时间维度上的分 布,运用大数据分析方法中的 Force Atlas 图形布 局算法绘制矿山安全隐患与时间规律分布图,如 图 7 所示. 2017 2018 2015 2014 2019 2013 2016 图 7 矿山安全隐患与时间规律分布 Fig.7 Hidden danger of mine safety and time distribution 2000 1500 1000 500 2013 2014 2015 2016 Year 2017 2018 2019 Frequency 0 Hydrops Jeep Pry detection Grounding electrode Mud Electric leakage Rock bolt Caving Fire extinguisher Distribution box Ventilation Production of civilization Head-on Explosive Illumination Support Safety hat Safety carapace Transformer Sign board Residual explosive Load-haul-dump unit Overstaffing Detonating tube Cable Roof Chamber Protective fence Wind belt Fan Pumice 图 6 隐患−时间变化图 Fig.6 Hidden danger−time 郭对明等: 基于文本挖掘的矿山安全隐患大数据分析与可视化 · 333 ·
334 工程科学学报,第44卷,第3期 由图7可以清晰的看出隐患随时间的分布情 0.由表可以看出高频隐患地点中有7个属于S矿 况,中间部分的隐患词表示该隐患为2013~2019 区,9个属于X矿区 年间共有的隐患,例如顶板问题、通风问题、照明 问题等.年份节点外部边缘部分隐患词表示该年 表3高颜隐患地点统计表(前20) 份特有的隐患问题,例如2013年电话损坏、顶板 Table 3 Statistical table of high frequency hidden danger location(top 20) 裂缝、排水管问题、卸载站等词出现频率较高、说 Hidden danger location Quantity Hidden danger location Number 明这些隐患在2013年出现角度且问题突出 Slope mouth 509 S13155 149 S12186 254 X06111 144 对隐患数据按照隐患发生地点进行统计,提 S14186 239 X08059 141 取隐患数量排名前20的隐患地点并分别进行分 X07097 228 S18156 140 析和词频统计,如表3所示,选取各隐患地点排名 X07087 226 X08055 132 前lO0的高频词,利用Force Atlas图形布局算法绘 X07105 225 X05103 123 制隐患与空间规律分布图,如图8所示 S13186 202 S15186 122 如表中所示,隐患地点编码守卫代表矿区,即 Assistant ramp 197 S10167 115 X矿区和S矿区,中间两位代表中段,后三位代表 X09105 170 X05111 108 勘探线,取中间勘探线(三位数),不足三位前面补 Main ramp 164 West ventilating shaft 105 细年睡年梦 降后 数从A我植口无果 斜井口选 婚和轮鱼压移”马 停载 成水装工人药感修水 连称生水所大 和东a青要全超 考道T到 安全 下鞋 充填运培东 士道 房些机有冰给投约教内 气银 旺头辅助被道 整井机款车刷空 置 水看立林 容峰制卷 地装大玉森 S14186 s13186 线路 工 S10们67米物gS S13155 人S12186 容压入试 上口场修福库 天积木精酒码活台不 红他饰后 困8矿山安全隐患与空间规律分布 Fig.8 Hidden danger of mine safety and its spatial distribution 从上图可以看出,隐患地点构成了四个主要的 有的隐患.地点节点对应的颜色越深代表该地点隐 群,其中两个较为突出的地点群分别有S矿区的 患问题越多.例如,S13186地点岩爆、围岩、地压等 7个采场区域和X矿区的9个采场区域构成,另外 隐患词出现频繁,说明该地点采场地压问题严重, 两个较小的地点群分别由辅助斜坡道、主斜坡道和 因此为保证井下作业安全,应及时对井下进行支护 西风井构成.图中隐患词在地点群中交叉的部分为 2.3隐患数据主题挖掘结果分析 各区域共有隐患,没有交叉部分的隐患为各区域特 利用BTM主题挖掘模型对矿山井下安全隐
由图 7 可以清晰的看出隐患随时间的分布情 况,中间部分的隐患词表示该隐患为 2013~2019 年间共有的隐患,例如顶板问题、通风问题、照明 问题等. 年份节点外部边缘部分隐患词表示该年 份特有的隐患问题,例如 2013 年电话损坏、顶板 裂缝、排水管问题、卸载站等词出现频率较高、说 明这些隐患在 2013 年出现角度且问题突出. 对隐患数据按照隐患发生地点进行统计,提 取隐患数量排名前 20 的隐患地点并分别进行分 析和词频统计,如表 3 所示,选取各隐患地点排名 前 100 的高频词,利用 Force Atlas 图形布局算法绘 制隐患与空间规律分布图,如图 8 所示. 如表中所示,隐患地点编码守卫代表矿区,即 X 矿区和 S 矿区,中间两位代表中段,后三位代表 勘探线,取中间勘探线 (三位数),不足三位前面补 0. 由表可以看出高频隐患地点中有 7 个属于 S 矿 区,9 个属于 X 矿区. 表 3 高频隐患地点统计表 (前 20) Table 3 Statistical table of high frequency hidden danger location (top 20) Hidden danger location Quantity Hidden danger location Number Slope mouth 509 S13155 149 S12186 254 X06111 144 S14186 239 X08059 141 X07097 228 S18156 140 X07087 226 X08055 132 X07105 225 X05103 123 S13186 202 S15186 122 Assistant ramp 197 S10167 115 X09105 170 X05111 108 Main ramp 164 West ventilating shaft 105 斜井口 主斜坡道 辅助斜坡道 S13186 S14186 X07097 X08059 X09105 X07105 X06111 X05103 X08055 X05111 X07087 S18156 S10167 S15186 S13155 S12186 西风井 主斜坡道 斜井口 辅助斜坡道 S13186 S14186 X07097 X08059 X09105 X07105 X06111 X05103 X08055 X05111 X07087 S18156 S10167 S15186 S13155 S12186 西风井 图 8 矿山安全隐患与空间规律分布 Fig.8 Hidden danger of mine safety and its spatial distribution 从上图可以看出,隐患地点构成了四个主要的 群,其中两个较为突出的地点群分别有 S 矿区的 7 个采场区域和 X 矿区的 9 个采场区域构成,另外 两个较小的地点群分别由辅助斜坡道、主斜坡道和 西风井构成. 图中隐患词在地点群中交叉的部分为 各区域共有隐患,没有交叉部分的隐患为各区域特 有的隐患. 地点节点对应的颜色越深代表该地点隐 患问题越多. 例如,S13186 地点岩爆、围岩、地压等 隐患词出现频繁,说明该地点采场地压问题严重, 因此为保证井下作业安全,应及时对井下进行支护. 2.3 隐患数据主题挖掘结果分析 利用 BTM 主题挖掘模型对矿山井下安全隐 · 334 · 工程科学学报,第 44 卷,第 3 期
郭对明等:基于文本挖掘的矿山安全隐患大数据分析与可视化 335 患数据进行分析,首先利用困惑度对最优主题数 160A 目进行判断,困惑度越小,主题挖掘的质量越好, 150 相反越差.将主题范围设置为2~100,步长设置 为5,迭代次数1000次,得到困惑度与主题数目的 关系图,如图9所示 130 由图9可以观察到随着主题数目的增加,困惑 120 度表现出明显的波动,在主题数目为15时困惑度 110 最低,表明此时为最佳主题数目,为了保证对隐患 100 主题分类的准确性和标准性,参考张勇7对生产 0102030405060708090100 安全事故隐患分类的方法和《安全生产事故隐患 Number of topic 排查治理暂行规定》2、《金属非金属矿山重大生 图9困感度-主题数目关系图 产安全事故隐患判定标准(试行)》四,在对各个主 Fig.9 Perplexity-topic number graph 题词归纳统计的基础上对主题进行命名,并将相 对隐患文本做进一步分析,针对每个隐患主题提 近的主题合并,最终得到13个隐患主题.为了对 取对应的特征词,剔除隐患主题中的噪声词后即 各个隐患主题有直观的了解,确定主题数目之后, 可得到各个主题对应的隐患主题词,如表4所示 表4BTM矿山安全隐患主题与隐患主题词表 Table4 BTM mine safety hidden danger theme and hidden danger keywords list Number Safety hidden danger theme Hidden danger keywords Hidden danger of support Support,roof,roadway's sides,network degree,measures,not in place,invalid,fracture 2 Hidden danger of roof Roof,joint,caving,fragment,pumice,dangerous rock,crack,development 3 Hidden danger of transport Overload,ramp,violation,jeep,down,fire extinguisher,load-haul-dump unit 4 Hidden danger of rock bolt Rock bolt,network degree,not in time,follow-up,lack,long-cable,too long 5 Hidden danger of pipeline Wind belt,cable,set up,follow-up,damaged,hang.stringing.drop,water pipe 6 Hidden danger of ventilation and three prevention Fire extinguisher,fire water pipe,fire box dustaow,oxygen,air quality,ventilation 7 Hidden danger of operation Operation,grouting,excavation,scene,top brush,people,construction,not completely 8 Hidden danger of safety protection Safety hat,protect,protective fence,sign,carapace,measures,sign 9 Hidden danger of electromechanical Fan,distribution box,transformer,switch,ground wire,grounding electrode,cable 10 Hidden danger of blasting operation Smooth blasting,explosive,detonating tube,explosive box,lock,lying around 11 Hidden danger of road Pavement,out-of-flatness,silt,potholes,sundries,hydrops 12 Hidden danger of water disaster Hydrops,too much,deeper,ditch,water pump,puddles,drain 3 Hidden danger of environmental Silt,mud,clean up,poor,hydrops,sundries,purling 通过表4可以清楚地了解到每个隐患主题包 板、浮石、支护,因此本文设置最小支持度和最小 含的主要内容.例如,支护隐患主题中主要包含了 置信度分别为0.005和0.5,执行算法后得到了 支护、顶帮、两帮、网度、不到位等隐患主题词, 296条关联规则,由于过低的提升度不具备现实意 这些主题词既描述了支护隐患容易发生的地点, 义,因此将关联规则按照提升度进行排序,去除提 同时也描述了该隐患的主要表现形式,能够为矿 升度小于3规则后作为最终的有效规则,最终得 山井下安全检查和隐患排查工作提供必要的指 到了超过237条有效关联规则,表5中列举了有效 导,使现场安全检查过程中更具精确性和针对性, 关联规则中典型的10条规则. 可以迅速捕捉生产中的隐患,从而提高对安全隐 从表5可以看出隐患数据之间存在一定的联 患危险源的排查效率和隐患治理效率 系,通过文本挖掘得到的关联规则能够切实提高 2.4隐患数据关联规则挖掘分析 井下安全隐患检查工作的效率.例如:井下从事运 利用R语言中“arules'”工具包对矿山隐患文 输工作的司机更多的安全隐患是不佩戴或者不正 本进行关联规则挖掘,R语言中默认的最小支持 确佩戴安全帽,该类安全隐患占全部隐患数据的 度与最小置信度分别为0.1和0.8,该支持度对于 0.504%,参照该关联规则在对井下四级进行隐患 本文分析相对过小,导致得到的规则过于侧重顶 排查过程中与随机排查相比效率可以提高50倍
患数据进行分析,首先利用困惑度对最优主题数 目进行判断,困惑度越小,主题挖掘的质量越好, 相反越差. 将主题范围设置为 2~100,步长设置 为 5,迭代次数 1000 次,得到困惑度与主题数目的 关系图,如图 9 所示. 由图 9 可以观察到随着主题数目的增加,困惑 度表现出明显的波动,在主题数目为 15 时困惑度 最低,表明此时为最佳主题数目. 为了保证对隐患 主题分类的准确性和标准性,参考张勇[27] 对生产 安全事故隐患分类的方法和《安全生产事故隐患 排查治理暂行规定》[28]、《金属非金属矿山重大生 产安全事故隐患判定标准 (试行)》 [29] ,在对各个主 题词归纳统计的基础上对主题进行命名,并将相 近的主题合并,最终得到 13 个隐患主题. 为了对 各个隐患主题有直观的了解,确定主题数目之后, 对隐患文本做进一步分析,针对每个隐患主题提 取对应的特征词,剔除隐患主题中的噪声词后即 可得到各个主题对应的隐患主题词,如表 4 所示. 表 4 BTM 矿山安全隐患主题与隐患主题词表 Table 4 BTM mine safety hidden danger theme and hidden danger keywords list Number Safety hidden danger theme Hidden danger keywords 1 Hidden danger of support Support, roof, roadway’s sides, network degree, measures, not in place, invalid, fracture 2 Hidden danger of roof Roof, joint, caving, fragment, pumice, dangerous rock, crack, development 3 Hidden danger of transport Overload, ramp, violation, jeep, down, fire extinguisher, load-haul-dump unit 4 Hidden danger of rock bolt Rock bolt, network degree, not in time, follow-up, lack, long- cable, too long 5 Hidden danger of pipeline Wind belt, cable, set up, follow-up, damaged, hang, stringing, drop, water pipe 6 Hidden danger of ventilation and three prevention Fire extinguisher, fire water pipe, fire box, dust, airflow, oxygen, air quality, local ventilation 7 Hidden danger of operation Operation, grouting, excavation, scene, top brush, people, construction, not completely 8 Hidden danger of safety protection Safety hat, protect, protective fence, sign, carapace, measures, sign 9 Hidden danger of electromechanical Fan, distribution box, transformer, switch, ground wire, grounding electrode, cable 10 Hidden danger of blasting operation Smooth blasting, explosive, detonating tube, explosive box, lock, lying around 11 Hidden danger of road Pavement, out-of-flatness, silt, potholes, sundries, hydrops 12 Hidden danger of water disaster Hydrops, too much, deeper, ditch, water pump, puddles, drain 13 Hidden danger of environmental Silt, mud, clean up, poor, hydrops, sundries, purling 通过表 4 可以清楚地了解到每个隐患主题包 含的主要内容. 例如,支护隐患主题中主要包含了 支护、顶帮、两帮、网度、不到位等隐患主题词, 这些主题词既描述了支护隐患容易发生的地点, 同时也描述了该隐患的主要表现形式,能够为矿 山井下安全检查和隐患排查工作提供必要的指 导,使现场安全检查过程中更具精确性和针对性, 可以迅速捕捉生产中的隐患,从而提高对安全隐 患危险源的排查效率和隐患治理效率. 2.4 隐患数据关联规则挖掘分析 利用 R 语言中“arules”工具包对矿山隐患文 本进行关联规则挖掘,R 语言中默认的最小支持 度与最小置信度分别为 0.1 和 0.8,该支持度对于 本文分析相对过小,导致得到的规则过于侧重顶 板、浮石、支护,因此本文设置最小支持度和最小 置信度分别 为 0.005 和 0.5,执行算法后得到 了 296 条关联规则,由于过低的提升度不具备现实意 义,因此将关联规则按照提升度进行排序,去除提 升度小于 3 规则后作为最终的有效规则,最终得 到了超过 237 条有效关联规则,表 5 中列举了有效 关联规则中典型的 10 条规则. 从表 5 可以看出隐患数据之间存在一定的联 系,通过文本挖掘得到的关联规则能够切实提高 井下安全隐患检查工作的效率. 例如:井下从事运 输工作的司机更多的安全隐患是不佩戴或者不正 确佩戴安全帽,该类安全隐患占全部隐患数据的 0.504%,参照该关联规则在对井下四级进行隐患 排查过程中与随机排查相比效率可以提高 50 倍 0 10 20 30 40 Number of topic Perplexity 100 110 120 130 140 150 160 50 60 70 80 90 100 图 9 困惑度−主题数目关系图 Fig.9 Perplexity−topic number graph 郭对明等: 基于文本挖掘的矿山安全隐患大数据分析与可视化 · 335 ·
336 工程科学学报,第44卷,第3期 表5矿山安全隐患关联规则挖掘(部分) 达到了隐患总数的0.9%,根据该规则对炸药隐患 Table 5 Mining association rules of mine hidden danger(part) 进行检查能够提高隐患排查效率20倍以上, Number Association rules Support Confidence Lift Count 为了更加直观的分析得到的关联规则,利用 driver=> R语言中的arulesViz包对关联规则进行可视化展 (safety hat 0.00504270.720833351.200060173 示,如下图10~图11所示 2 (pry detection=> top brush 0.01588600.966312149.332244545 Scatter plot for 296 riles 3 (pavement=> (potholes,uneven) 0.01241730.948775141.891410426 1.0 4 (network degree 0.01232990.927631622.348495423 =>bigger) 0.9 5 froof and sidewalls, 0.01390390.91730774.151725477 head-on)=>(pumice) 60 roadway's sides, 6 illumination, 0.01026030.90488434.095497352 08 facility=>pumice (lying around=> 7 0.00912350.874301722.317461313 fexplosive 50.7h 40 (landing}=>(an}0.00635440.556122411.322785218 pumice,ventilation facilities 0.00615030.59269664.800199211 0.6 20 =>illumination 10 residual explosive)=>oof90.01235900.70549083.445306424 0.5 以上;矿山生产过程中炸药的使用具有较大安全 0.02 0.04 0.06 0.08 Support 隐患,也是企业重点关注的对象,通过对隐患数据 图10矿山井下安全隐患关联规则散点图 的挖掘得出了在对炸药的处理过程中经常出现不 Fig.10 Scatter diagram of association rules for underground safety 按规定放置的现象,比如炸药裸放.这种隐患占比 hazards Graph of 80 rules Size:confidence(0.503-0.987) Color:lif(2.365-49.332) 因11基于图的矿山安全隐患关联规则可视化 Fig.11 Visualization of mine hidden danger association rules based on graph 从图10可以看出通过文本挖掘得到的296条 度从0.5~1.0呈现均匀分布,图中每个点的颜色代 关联规则的支持度主要分布在0~0.02之间,置信 表了不同的提升度,颜色越深表示提升度越高.从
以上;矿山生产过程中炸药的使用具有较大安全 隐患,也是企业重点关注的对象,通过对隐患数据 的挖掘得出了在对炸药的处理过程中经常出现不 按规定放置的现象,比如炸药裸放. 这种隐患占比 达到了隐患总数的 0.9%,根据该规则对炸药隐患 进行检查能够提高隐患排查效率 20 倍以上. 为了更加直观的分析得到的关联规则,利用 R 语言中的 arulesViz 包对关联规则进行可视化展 示,如下图 10~图 11 所示. 1.0 Scatter plot for 296 riles 0.9 0.8 Confidence 0.7 0.6 0.5 0.02 0.04 Support 0.06 0.08 Lift 20 40 60 80 图 10 矿山井下安全隐患关联规则散点图 Fig.10 Scatter diagram of association rules for underground safety hazards Graph of 80 rules Size: confidence (0.503−0.987) Color: lift (2.365−49.332) 图 11 基于图的矿山安全隐患关联规则可视化 Fig.11 Visualization of mine hidden danger association rules based on graph 从图 10 可以看出通过文本挖掘得到的 296 条 关联规则的支持度主要分布在 0~0.02 之间,置信 度从 0.5~1.0 呈现均匀分布,图中每个点的颜色代 表了不同的提升度,颜色越深表示提升度越高. 从 表 5 矿山安全隐患关联规则挖掘 (部分) Table 5 Mining association rules of mine hidden danger (part) Number Association rules Support Confidence Lift Count 1 {driver}=> {safety hat} 0.0050427 0.7208333 51.200060 173 2 {pry detection}=> {top brush} 0.0158860 0.9663121 49.332244 545 3 {pavement}=> {potholes, uneven} 0.0124173 0.9487751 41.891410 426 4 {network degree} =>{bigger} 0.0123299 0.9276316 22.348495 423 5 {roof and sidewalls, head-on}=>{pumice} 0.0139039 0.9173077 4.151725 477 6 {roadway’s sides, illumination, facility}=>{pumice} 0.0102603 0.9048843 4.095497 352 7 {lying around}=> {explosive} 0.0091235 0.8743017 22.317461 313 8 {landing}=>{fan} 0.0063544 0.5561224 11.322785 218 9 {pumice, ventilation facilities} =>{illumination} 0.0061503 0.5926966 4.800199 211 10 {residual explosive}=>{roof} 0.0123590 0.7054908 3.445306 424 · 336 · 工程科学学报,第 44 卷,第 3 期