《工程科学学报》：基于变量选择的尖点突变模型的两步构建方法（北京科技大学）.pdf_大学文库

《工程科学学报》录用稿，https://doi.org/10.13374/i,issn2095-9389.2021.07.19.006©北京科技大学2020 工程科学学报DO: 基于变量选择的尖点突变模型的两步构建方法张明2)，付冬梅2区，程学群34四，杨丙坤)，郝文魁)，陈云) 1)北京科技大学自动化学院北京市工业波谱成像工程技术研究中心，北京1000832)北京科技大学顺德研究生院，佛山5283003)北京科技大学新材料技术研究院，北京1000834)国家材料腐蚀与防护科学数据中心，北京1000835)全球能源互联网研究院有限公司先进输电技术国家重点实验室，北京102209 ☒通信f作者，E-mail:fdm_ustb@ustb.edu.cn,chengxuequn@ustb.edu.cn 摘要突变是工程实践过程中广泛存在的现象。当系统的状态发生跳跃性变化时，基于徽积分的传统数学建模方法精度较低，人工神经网络等机器学习算法无法对突变现象作出合理的解释。基于突变理论的尖点突变模型可以用来解释系统状态的不连续变化，然而在输入变量维度较大的情况下，传统的尖点突变模型复杂度高且精度较差。为了解决这一问题，提出了一种基于变量选择的尖点突变模型的两步构建方法。第步，利用多模型集成重要变量选择算法MEIVS)量化待选变量的重要性并提取重要变量：第二步，基子极大似然法MLE)利用所提取的重要变量构建尖点突变模型。仿真结果表明，在具有突变特征的数据集上，通过MVS降维后的尖点突变模型在评价指标上优于线性模型、Logistic模型和通过其他方法降维的尖点突变模型，以用来解释研究对象的不连续变化。关键词突变理论：突变特征：尖点突变模型：变量选择：分类号0192，TP181 A two-step method for constructing a cusp catastrophe model based on the selection of important variables ZHANG Ming2,FU Dong-i CHENG Xue-gun YANG Bing-kun,HAO Wen-ku,CHEN Yun) 1)Beijing Engineering Research Center of Industrial Spectrum Imaging,School of Automation and Electrical Engineering,University of Science and Technology Beijing,.China 2) Shunde Graduate School of University of Science and Technology Beijing,Foshan 528300,China 3) Institution fof Ad ed Materials and Technology,University of Science and Technology Beijing,Beijing 100083,China National Materials Corrosion and Protection Data Center,Beijing 100083,China 5) State Key Laboratory of Advanced Transmission Technology,Global Energy Interconnection Research Institute Limited Company,Beijing 102209,China Corresponding author,E-mail:fdm_ustb@ustb.edu.cn;chengxuequn@ustb.edu.cn ABSTRACT Sudden transition is a widely existing phenomenon in engineering practice.When the state of system has sudden transition abruptly,traditional mathematical modeling methods based on calculus have low accuracy,although 收篇日期：2021-07-19 金顺目：科技部科技基础资源调查专项资助项目(2019FY101404):国家电网公司总部科技项目一基于电网大气腐蚀图的数据挖掘及电网设备服役寿命评价技术研究(5200-202058470A-0-0-00)

工程科学学报 DOI: 1基于变量选择的尖点突变模型的两步构建方法张明 2)，付冬梅 1,2)，程学群 3,4) ，杨丙坤 5)，郝文魁 5)，陈云 5) 1) 北京科技大学自动化学院北京市工业波谱成像工程技术研究中心，北京 100083 2) 北京科技大学顺德研究生院，佛山 528300 3) 北京科技大学新材料技术研究院，北京 100083 4) 国家材料腐蚀与防护科学数据中心，北京 100083 5) 全球能源互联网研究院有限公司先进输电技术国家重点实验室，北京 102209  通信作者，E-mail: fdm_ustb@ustb.edu.cn; chengxuequn@ustb.edu.cn 摘要突变是工程实践过程中广泛存在的现象。当系统的状态发生跳跃性变化时，基于微积分的传统数学建模方法精度较低，人工神经网络等机器学习算法无法对突变现象作出合理的解释。基于突变理论的尖点突变模型可以用来解释系统状态的不连续变化，然而在输入变量维度较大的情况下，传统的尖点突变模型复杂度高且精度较差。为了解决这一问题，提出了一种基于变量选择的尖点突变模型的两步构建方法。第一步，利用多模型集成重要变量选择算法(MEIVS)量化待选变量的重要性并提取重要变量；第二步，基于极大似然法(MLE)利用所提取的重要变量构建尖点突变模型。仿真结果表明，在具有突变特征的数据集上，通过 MEIVS 降维后的尖点突变模型在评价指标上优于线性模型、Logistic 模型和通过其他方法降维的尖点突变模型，并且可以用来解释研究对象的不连续变化。关键词突变理论；突变特征；尖点突变模型；变量选择；模型集成分类号 O192;TP181 A two-step method for constructing a cusp catastrophe model based on the selection of important variables ZHANG Ming2) , FU Dong-mei1,2) , CHENG Xue-qun3,4) , YANG Bing-kun5) , HAO Wen-kui5) , CHEN Yun5) 1) Beijing Engineering Research Center of Industrial Spectrum Imaging, School of Automation and Electrical Engineering, University of Science and Technology Beijing, Beijing 100083, China 2) Shunde Graduate School of University of Science and Technology Beijing, Foshan 528300, China 3) Institution for Advanced Materials and Technology, University of Science and Technology Beijing, Beijing 100083, China 4) National Materials Corrosion and Protection Data Center, Beijing 100083, China 5) State Key Laboratory of Advanced Transmission Technology, Global Energy Interconnection Research Institute Limited Company, Beijing 102209, China  Corresponding author, E-mail: fdm_ustb@ustb.edu.cn; chengxuequn@ustb.edu.cn ABSTRACT Sudden transition is a widely existing phenomenon in engineering practice. When the state of system has sudden transition abruptly, traditional mathematical modeling methods based on calculus have low accuracy, although 1收稿日期:2021-07-19 基金项目:科技部科技基础资源调查专项资助项目(2019FY101404)；国家电网公司总部科技项目—基于电网大气腐蚀图的数据挖掘及电网设备服役寿命评价技术研究(5200-202058470A-0-0-00) 《工程科学学报》录用稿，https://doi.org/10.13374/j.issn2095-9389.2021.07.19.006 ©北京科技大学 2020 录用稿件，非最终出版稿

theoretically machine learning algorithms such as artificial neural networks can approximate any nonlinear function,this type of black box method makes no reasonable explanation for sudden transition phenomenon.The cusp catastrophe model based on catastrophe theory can be applied to explain discontinuous changes of system state,however,the construction of traditional cusp catastrophe models is often based on large amounts of prior knowledge to select input variables for modeling. On the condition that there is a lack of prior knowledge and comparatively large dimensions of input variables,the model has high complexity and poor accuracy.In order to solve the above-mentioned problems,researchers have put forward a two-step method for constructing a cusp catastrophe model based on the selection of variables.The first step is to apply Multi-model Ensemble Important Variable Selection (MEIVS)to quantify the importance of the variables to be selected and extract important variables.The second step is to use the extracted important variables to construct a cusp catastrophe model on the basis of the framework of Maximum Likelihood Estimation(MLE).The results indicate that on a data set with characteristics of catastrophe,the cusp catastrophe model is simple in form by using MEIVS dimensionality reduction algorithm and outperforms than the unreduced cusp catastrophe model and reduced cusp catastrophe model by using other dimensionality reduction algorithms in terms of evaluation indicators,which shows that the algorithm proposed in this paper had improved the accuracy and reduced the complexity of the cusp catastrophe model.At the same time, catastrophe model enjoys higher accuracy compared with linear model and logistic model,thereby it can be used n the e discontinuous changes of the research object,and it has a practical engineering significance. KEY WORDS catastrophe theory;catastrophe flag;cusp catastrophe model;varia tion;model integration 在复杂的系统中，外界因素的变化可能会导致系统状态的跳跃式变化，称为突变。Qa0等认为深埋隧道围岩的失稳是一种突变现象，给矿井的全生产带来极大威胁，并通过分析得出围岩失稳发生在第3至4步开挖过程中。Zi等通过分析得到使腐蚀速率急剧变化的环境变量的阈值，当环境变量超过该阈值时，腐蚀速率会发生突变。裴单绅等认为化工事故是由危险源和不安全因素引起的突发事件，二者的综合影响导致系统的安全厌态发生突变。其他诸如股市崩盘1、人的心理状态变化阿、电力系统故障等也属于突变现象。此类现象包含复杂的系统行为，既有连续性变化又有突发的不连续性变化，且影响因素往往众多，给实际工程问题的建模和解释带来困难。对于小样本工程数据，线性模型、灰色模型是常用的方法：对于大样本工程数据，人工神经网络例、随机森林(Random Forests:)o等机器学习模型通常可以获得较好的建模效果。虽然机器学习模型具有强大的非线性映射能，但无法解释研究对象的突变现象。突变理论是用以解释复杂系统中不连续性和质变现象的数学理论，由法国数学家Tom山提出。假定一个系统的动力学方程可以由一个光滑的势函数导出X根锯控制因子和状态因子个数的不同，Tom定义了七种基本的突变模型，并推导出每一种秧型势函数的解析形式。由于形式简单、直观，具有两个控制因子和一个状态因子的尖点突变模型应最为广泛，模型参数的估计可由Cobb提出的极大似然估计法(Maximum Likelihood Estimation,M①E)实现2，。作为解决工程领域中不连续性复杂问题的一种数学工具，突变理论在经济学生物学、物理学、心理学等领域应用广泛。在以往的尖点突变模型中，组成控制因子的输入变量往往依据经验或己有的结论来确定。如，文献[4,5]基于Zeeman!的理论基础，将股票市场中基本面交易者和技术分析交易者的多维数据作为输入变量构建股票市场的尖点突变模型。这种建模方式受限于特定学科，不利于推广，且输入变量的实际价值难以判断。在待选的输入变量较多且突变机理不明确的情况下，如何利用少量的重要变量构建尖点突变模型依然是一个难点。常见的变量选择方法分为过滤法、嵌入法、封装法。其中，过滤法依据待选变量统计特性的各项指标来选择重要变量，如皮尔逊相关系数法、方差过滤法：嵌入法依据机器学习算法本身来分析待选变量的重要性，如RF的排列变量重要性算法，，：封装法基于构造的最终模型来选择使模型性能达到最优的变量子集，最终模型可以是支持向量机(Support Vector Regression,,SVR)I、梯度提升回归树(Gradient Boosted Regression Trees,GBRT)lI等机器学习

theoretically machine learning algorithms such as artificial neural networks can approximate any nonlinear function, this type of black box method makes no reasonable explanation for sudden transition phenomenon. The cusp catastrophe model based on catastrophe theory can be applied to explain discontinuous changes of system state, however, the construction of traditional cusp catastrophe models is often based on large amounts of prior knowledge to select input variables for modeling. On the condition that there is a lack of prior knowledge and comparatively large dimensions of input variables, the model has high complexity and poor accuracy. In order to solve the above-mentioned problems, researchers have put forward a two-step method for constructing a cusp catastrophe model based on the selection of variables. The first step is to apply Multi-model Ensemble Important Variable Selection (MEIVS) to quantify the importance of the variables to be selected and extract important variables. The second step is to use the extracted important variables to construct a cusp catastrophe model on the basis of the framework of Maximum Likelihood Estimation (MLE). The results indicate that on a data set with characteristics of catastrophe, the cusp catastrophe model is simple in form by using MEIVS dimensionality reduction algorithm and outperforms than the unreduced cusp catastrophe model and reduced cusp catastrophe model by using other dimensionality reduction algorithms in terms of evaluation indicators, which shows that the algorithm proposed in this paper had improved the accuracy and reduced the complexity of the cusp catastrophe model. At the same time, cusp catastrophe model enjoys higher accuracy compared with linear model and logistic model, thereby it can be used to explain the discontinuous changes of the research object, and it has a practical engineering significance. KEY WORDS catastrophe theory; catastrophe flag; cusp catastrophe model; variable selection; model integration 在复杂的系统中，外界因素的变化可能会导致系统状态的跳跃式变化，称为突变。Qiao 等[1]认为深埋隧道围岩的失稳是一种突变现象，给矿井的安全生产带来极大威胁，并通过分析得出围岩失稳发生在第 3 至 4 步开挖过程中。Zhi 等[2]通过分析得到使腐蚀速率急剧变化的环境变量的阈值，当环境变量超过该阈值时，腐蚀速率会发生突变。裴甲坤等[3]认为化工事故是由危险源和不安全因素引起的突发事件，二者的综合影响导致系统的安全状态发生突变。其他诸如股市崩盘[4,5]、人的心理状态变化[6]、电力系统故障[7]等也属于突变现象。此类现象包含复杂的系统行为，既有连续性变化又有突发的不连续性变化，且影响因素往往众多，给实际工程问题的建模和解释带来困难。对于小样本工程数据，线性模型、灰色模型[8]是常用的方法；对于大样本工程数据，人工神经网络[9]、随机森林(Random Forest, RF)[10]等机器学习模型通常可以获得较好的建模效果。虽然机器学习模型具有强大的非线性映射能力，但无法解释研究对象的突变现象。突变理论是用以解释复杂系统中不连续性和质变现象的数学理论，由法国数学家 Thom[11]提出。假定一个系统的动力学方程可以由一个光滑的势函数导出，根据控制因子和状态因子个数的不同，Thom 定义了七种基本的突变模型，并推导出每一种模型势函数的解析形式。由于形式简单、直观，具有两个控制因子和一个状态因子的尖点突变模型应用最为广泛，模型参数的估计可由 Cobb 提出的极大似然估计法(Maximum Likelihood Estimation, MLE)实现[12,13]。作为解决工程领域中不连续性复杂问题的一种数学工具，突变理论在经济学、生物学、物理学、心理学等领域应用广泛。在以往的尖点突变模型中，组成控制因子的输入变量往往依据经验或已有的结论来确定。如，文献[4,5]基于 Zeeman[14]的理论基础，将股票市场中基本面交易者和技术分析交易者的多维数据作为输入变量构建股票市场的尖点突变模型。这种建模方式受限于特定学科，不利于推广，且输入变量的实际价值难以判断。在待选的输入变量较多且突变机理不明确的情况下，如何利用少量的重要变量构建尖点突变模型依然是一个难点。常见的变量选择方法分为过滤法、嵌入法、封装法。其中，过滤法依据待选变量统计特性的各项指标来选择重要变量，如皮尔逊相关系数法、方差过滤法；嵌入法依据机器学习算法本身来分析待选变量的重要性，如 RF 的排列变量重要性算法[10,15]；封装法基于构造的最终模型来选择使模型性能达到最优的变量子集，最终模型可以是支持向量机(Support Vector Regression, SVR)[16]、梯度提升回归树(Gradient Boosted Regression Trees, GBRT)[17]等机器学习录用稿件，非最终出版稿

算法。过滤法的评价标准独立于特定的学习算法，具有较好的通用性，但难以取得很好的建模效果；嵌入法、封装法虽然可以取得较好的建模效果，但是这种基于单一模型的变量选择算法存在特定的偏差，变量子集的选取依赖于特定模型，容易产生过拟合现象。采用集成方法，即通过组合不同方法的变量选择结果来产生变量子集，既减轻了对特定模型的依赖性，又可以很好地提高结果的准确性和稳定性1819,20。针对传统尖点突变模型依据经验建模的问题，提出基于变量选择的尖点突变模型的两步构建方法。该方法的通用性较强，可广泛应用于具有突变特征的系统的建模并能得到模型的数学解析式。建模过程分为两步。第一步，以RF、GBRT、SVR作为基学习器，利用多模型集成重要变量选择算法 (Multi-model Ensemble Important Variable Selection,MEIVS)来量化待选变量的重要性，提取得分之和超过总分90%的前个待选变量作为后续建模的输入变量：第二步，基于MLE算法构建尖点突变模型。本文首先介绍了尖点突变模型的原理、数据拟合方法以及突变特征，其次介绍了MEVS算法的实现流程，最后结合工程实例，验证了该方法的有效性。 1基本原理 1.1尖点文变横型与突变特征 1.1.1尖点突变模型突变理论描述了动力学系统中控制因子和状态因子之间的关在控制因子固定的情况下，系统始终寻求平衡状态，直到达到势函数的极小值或极大值为处。以动为学系统表达式来描述系统的状态因子：在控制因子α的影响下随时间1的变化： d (1) V仁：是系统的势函数。应用最广泛的尖点突变模型由两个控制因子a、B和一个状态因子：组成，其势函数的规范形式是： V a,B (2) 系统的平衡方程由(3)式确定、在无扰动的情况下，系统的状态不随时间变化： a,B (3) z3-Bz-a=0 当平衡点的势函数@以是关于z的极小值时，平衡点是稳定的，系统即使受到扰动的影响，也会随着时间1回到稳定状态：当平衡点的势函数V仁：α)是关于z的极大值时，平衡点是不稳定的，系统在扰动的影响下会偏离此平衡点，从而被稳定的平衡点吸引。在不同的α和B值下系统平衡点的数目和性质以由Cardan判别式δ判断，表示为： 6=27a2-4B (4) 当>0时，存在一个稳定的平衡点：当<0时，存在两个稳定的平衡点和一个不稳定的平衡点：当=0时，存在一个稳定的平衡点和一个不稳定的平衡点。图1给出了由平衡点的集合构成的平衡曲面和由控制因子构成的控制平面。平衡曲面的形状像一个有“褶皱”的连续曲面，并且由上叶、中叶、下叶三部分构成，上叶和下叶部分对应的平衡点是稳定的，中叶部分对应的平衡点是不稳定的。控制平面是平衡曲面在：轴方向上的投影，中叶区域在控制平面上的投影称为尖点突变模型的分叉集。图1中，若控制因子α、B沿红色轨迹A变化，状态因子：会在分叉集内发生突变，从平衡曲面的下叶直接跳变到上叶而不经过中叶：若控制因子α、B沿蓝色轨迹B变化，则状态因子：不会发生突变

算法。过滤法的评价标准独立于特定的学习算法，具有较好的通用性，但难以取得很好的建模效果；嵌入法、封装法虽然可以取得较好的建模效果，但是这种基于单一模型的变量选择算法存在特定的偏差，变量子集的选取依赖于特定模型，容易产生过拟合现象。采用集成方法，即通过组合不同方法的变量选择结果来产生变量子集，既减轻了对特定模型的依赖性，又可以很好地提高结果的准确性和稳定性[18,19,20]。针对传统尖点突变模型依据经验建模的问题，提出基于变量选择的尖点突变模型的两步构建方法。该方法的通用性较强，可广泛应用于具有突变特征的系统的建模并能得到模型的数学解析式。建模过程分为两步。第一步，以 RF、GBRT、SVR 作为基学习器，利用多模型集成重要变量选择算法 (Multi-model Ensemble Important Variable Selection, MEIVS)来量化待选变量的重要性，提取得分之和超过总分 90%的前 n 个待选变量作为后续建模的输入变量；第二步，基于 MLE 算法构建尖点突变模型。本文首先介绍了尖点突变模型的原理、数据拟合方法以及突变特征，其次介绍了 MEIVS 算法的实现流程，最后结合工程实例，验证了该方法的有效性。 1 基本原理 1.1 尖点突变模型与突变特征 1.1.1 尖点突变模型突变理论描述了动力学系统中控制因子和状态因子之间的关系，在控制因子固定的情况下，系统始终寻求平衡状态，直到达到势函数的极小值或极大值为止。以动力学系统表达式来描述系统的状态因子 z 在控制因子 a 的影响下随时间 t 的变化： dz V z; a   = dt z    (1) V(z;a)是系统的势函数。应用最广泛的尖点突变模型由两个控制因子 α、β 和一个状态因子 z 组成，其势函数的规范形式是：   1 1 4 2 4 2 V z; , α β    z βz αz (2) 系统的平衡方程由(3)式确定，在无扰动的情况下，系统的状态不随时间变化:   3 0 V z; , α β z βz α z      (3) 当平衡点的势函数 V(z;α,β)是关于 z 的极小值时，平衡点是稳定的，系统即使受到扰动的影响，也会随着时间 t 回到稳定状态；当平衡点的势函数 V(z;α,β)是关于 z 的极大值时，平衡点是不稳定的，系统在扰动的影响下会偏离此平衡点，从而被稳定的平衡点吸引。在不同的 α 和 β 值下系统平衡点的数目和性质可以由 Cardan 判别式 δ 判断，表示为： 2 3 δ   27 4 α β (4) 当 δ>0 时，存在一个稳定的平衡点；当 δ<0 时，存在两个稳定的平衡点和一个不稳定的平衡点；当 δ=0 时，存在一个稳定的平衡点和一个不稳定的平衡点。图 1 给出了由平衡点的集合构成的平衡曲面和由控制因子构成的控制平面。平衡曲面的形状像一个有“褶皱”的连续曲面，并且由上叶、中叶、下叶三部分构成，上叶和下叶部分对应的平衡点是稳定的，中叶部分对应的平衡点是不稳定的。控制平面是平衡曲面在 z 轴方向上的投影，中叶区域在控制平面上的投影称为尖点突变模型的分叉集。图 1 中，若控制因子 α、β 沿红色轨迹 A 变化，状态因子 z 会在分叉集内发生突变，从平衡曲面的下叶直接跳变到上叶而不经过中叶；若控制因子 α、β 沿蓝色轨迹 B 变化，则状态因子 z 不会发生突变。录用稿件，非最终出版稿

AIC=2k-2In(L) (10) BIC kIn(N)-2In(L) (11) 其中，元为第1个样本的预测值，片为第1个样本的实际值，刀为所有样本实际值的均值，k是模型参数个数，L是最大对数似然值。模型选择标准通常基于最低的AIC和BIC值，并以R作为参考。对于尖点突变模型，当α、B位于分叉集内部时，根据延迟约定，二的预测值在离实际值最近的平衡曲面上21,22。 1.1.3突变特征在系统的势函数未知的情况下，常常根据系统表现的外部性态来判断系统是否存在突变，这些性态被称为突变特征42。尖点突变有五个特征：(1)多模态：系统中可能出现9不同的状态；(2) 不可达性：系统存在不稳定的平衡态：(3)突跳：系统从一个势函数极小值跳到2个极小值：(4) 发散：控制因子的微小变化可以导致状态因子的质变：（⑤）滞后：当物理过程可逆时，发生突变时对应的控制参数位置可能不同。当系统存在突变现象时，对外往往表现为淇中的一个或几个的组合。在实际应用中，针对截面数据，应首先检查研究对象概率密度的双峰性，双峰性意味着系统可能存在多个状态；针对时序数据，则应首先检查时间序列中的跳变现象火 1.2多横型集成要变■选择算法而在传统的尖点突变模型的建模过程中，输入变量的迷取往往依赖于己有的实践或经验，这与目前数据规模的爆发式增长相矛盾，不利于尖点突变模型的普及应用。为了解决上述问题，同时提高模型的精度、降低模型的复杂度，本文基于排列想提出MEIVS算法。排列的思想借鉴于随机森林的变量重要性度量法<认为模型会更依赖于重要的输入变量做预测。当打乱某一变量在测试集上的观测序列后〈用新生成的数据做预测，更重要的输入变量会使模型的精度损失更大。MEVS算法组合了RFGBRT、SVR三种常用的机器学习算法，其中RF和 GBRT都属于决策树的集成学习算法，但它们采用的计算策略不同：SVR采用高斯核函数。文献 [24,25,26]中对每种方法的机理都作了解释。本文的损失函数采用的是均方根误差(Root Mean Squared Error,RMSE): (12) RMSE N 以样本的80%作类练集20%作为测试集，使用Z-Scor爬标准化方法对输入变量进行处理，经过处理的数据的均值为Q 标准差为1。记m个待选变量的集合为S,,S】,目标是得到n个重要变量的集合 ,作为尖点突变模型的输入变量。算法步骤及流程图如下：步骤1利用训练集训练RF、GBRT、SVR模型，记为M、M、M,对于所建立的每个模型M, 分别基于置换算法计算变量重要性，即执行步骤2、步骤3：步骤2计算模型M在测试集上的均方根误差并记为兴，对(S,,S,依次执行①H(3): (1)打乱S在测试集上的观测序列并重新计算模型的均方根误差，由于涉及随机性，此过程重复10次，分别记为必，…，% (2)计算S在测试集上的平均预测精度损失：

AIC k L   2 2ln   (10) BIC k N L   ln 2ln     (11) 其中， ˆ i y 为第 i 个样本的预测值， i y 为第 i 个样本的实际值， y 为所有样本实际值的均值，k 是模型参数个数，L 是最大对数似然值。模型选择标准通常基于最低的 AIC 和 BIC 值，并以 R 2作为参考。对于尖点突变模型，当 α、β 位于分叉集内部时，根据延迟约定，z 的预测值在离实际值最近的平衡曲面上[21,22]。 1.1.3 突变特征在系统的势函数未知的情况下，常常根据系统表现的外部性态来判断系统是否存在突变，这些性态被称为突变特征[14,21]。尖点突变有五个特征：(1)多模态：系统中可能出现两个不同的状态；(2) 不可达性：系统存在不稳定的平衡态；(3)突跳：系统从一个势函数极小值跳到另一个极小值；(4) 发散：控制因子的微小变化可以导致状态因子的质变；(5)滞后：当物理过程可逆时，发生突变时对应的控制参数位置可能不同。当系统存在突变现象时，对外往往表现为其中的一个或几个的组合。在实际应用中，针对截面数据，应首先检查研究对象概率密度的双峰性，双峰性意味着系统可能存在多个状态；针对时序数据，则应首先检查时间序列中的跳变现象[21]。 1.2 多模型集成重要变量选择算法而在传统的尖点突变模型的建模过程中，输入变量的选取往往依赖于已有的实践或经验，这与目前数据规模的爆发式增长相矛盾，不利于尖点突变模型的普及应用。为了解决上述问题，同时提高模型的精度、降低模型的复杂度，本文基于排列[23]的思想提出 MEIVS 算法。排列的思想借鉴于随机森林的变量重要性度量方法，认为模型会更依赖于重要的输入变量做预测。当打乱某一变量在测试集上的观测序列后，用新生成的数据做预测，更重要的输入变量会使模型的精度损失更大。MEIVS 算法组合了 RF、GBRT、SVR 三种常用的机器学习算法，其中 RF 和 GBRT 都属于决策树的集成学习算法，但它们采用的计算策略不同；SVR 采用高斯核函数。文献 [24,25,26]中对每种方法的机理都作了解释。本文的损失函数采用的是均方根误差(Root Mean Squared Error, RMSE):   2 1 ˆ N i i i y y RMSE N     (12) 以样本的 80%作为训练集，20%作为测试集，使用 Z-Score 标准化方法对输入变量进行处理，经过处理的数据的均值为 0，标准差为 1。记 m 个待选变量的集合为 S S 1 , ,  m ，目标是得到 n 个重要变量的集合 X X 1 , ,  n 作为尖点突变模型的输入变量。算法步骤及流程图如下：步骤 1 利用训练集训练 RF、GBRT、SVR 模型，记为 M1、M2、M3，对于所建立的每个模型 Mi，分别基于置换算法计算变量重要性，即执行步骤 2、步骤 3；步骤 2 计算模型 Mi在测试集上的均方根误差并记为 Mi L ，对 S S 1 , ,  m ，依次执行(1)-(3)： (1) 打乱 Sj在测试集上的观测序列并重新计算模型的均方根误差，由于涉及随机性，此过程重复 10 次，分别记为 1 10 , , M M i i L L j j  ； (2) 计算 Sj在测试集上的平均预测精度损失：录用稿件，非最终出版稿

将MEIVS方法与基于MLE的尖点突变模型参数估计方法相结合，分两步构建尖点突变模型。第一步，利用MEVS来量化特选变量S,S的重要住，提取重要变量(X,X:第二步，利用提取的n个重要变量，基于MLE算法构建尖点突变模型。 2仿真结果和分析本文以两个不同领域的、具有突变特征的数据集为例，验证了所提方法的有效性。其中，欧洲旅馆住宿价格数据集7为截面数据集，来源于Kaggle平台：北京大气腐蚀数据集为时序数据集，来源于北京地区的大气暴露实验。 2.1在截面数据集上的应用—以碳洲州旅馆住宿价格数据集为例 Kaggle平台的欧洲旅馆住宿价格数据集一共包含120个样本，每个样本包括每日住宿价格非最终出版 (Price)、星级(Star)、离市中心距离(Distance、评分(Rating)、房间数目(Room)、房间面积(Square)和所在城市(City),Price为输出变量，其余为输入变量，其中类别变量City以Pie的类别均值来编码。 Price概率密度的非参数估计如图3，非参估计的核函数选用高斯核，概率密度的双峰性暗示了Pce可能会发生突变，因此适用于建立尖点突变模型。 0.006 0.005 0004 0.003 0002 0.001 00 400 500 (KMd) 圆3每日住宿价格的概率密度非参数估计 Fig.3 Nonparametric estimation of probability density of daily accommodation price 两步构建方法中第一步为提取重要变量。利用MEIVS得到各个待选变量的重要性得分，如图 4。条形图中横轴表示影响每日住宿价格的待选变量，纵轴表示每个待选变量的重要性总得分，每个待选变量在各模型上的得分以不同的颜色区分，并且根据得分降序排列。依据MEVS算法中步骤 (⑤)，Square、Rating、Star郑RoOm为重要变量，设为X、2、X、X,每日住宿价格Price设为Y。算法基于R语言中的DALEX程序包2实现。 0.879 ■RF 0.853 0.777 ▣GBRT 08 ■SVR 0.6 0.4 0.348 0.095 0.049 Star Square Rating Room City Distance Variables to be selected 圆4欧洲旅馆住宿价格数据集待选变量重要性得分

将 MEIVS 方法与基于 MLE 的尖点突变模型参数估计方法相结合，分两步构建尖点突变模型。第一步，利用 MEIVS 来量化待选变量 S S 1 , ,  m 的重要性，提取重要变量  X X 1 , ,  n ；第二步，利用提取的 n 个重要变量，基于 MLE 算法构建尖点突变模型。 2 仿真结果和分析本文以两个不同领域的、具有突变特征的数据集为例，验证了所提方法的有效性。其中，欧洲旅馆住宿价格数据集[27]为截面数据集，来源于 Kaggle 平台；北京大气腐蚀数据集为时序数据集，来源于北京地区的大气暴露实验。 2.1 在截面数据集上的应用——以欧洲旅馆住宿价格数据集为例 Kaggle 平台的欧洲旅馆住宿价格数据集一共包含 120 个样本，每个样本包括每日住宿价格 (Price)、星级(Star)、离市中心距离(Distance)、评分(Rating)、房间数目(Room)、房间面积(Square)和所在城市(City)，Price 为输出变量，其余为输入变量，其中类别变量 City 以 Price 的类别均值来编码。 Price 概率密度的非参数估计如图 3，非参估计的核函数选用高斯核，带宽设置为 25，概率密度的双峰性暗示了 Price 可能会发生突变，因此适用于建立尖点突变模型。图 3 每日住宿价格的概率密度非参数估计 Fig.3 Nonparametric estimation of probability density of daily accommodation price 两步构建方法中第一步为提取重要变量。利用 MEIVS 得到各个待选变量的重要性得分，如图 4。条形图中横轴表示影响每日住宿价格的待选变量，纵轴表示每个待选变量的重要性总得分，每个待选变量在各模型上的得分以不同的颜色区分，并且根据得分降序排列。依据 MEIVS 算法中步骤 (5)，Square、Rating、Star 和 Room 为重要变量,设为 X1、X2、X3、X4，每日住宿价格 Price 设为 Y。算法基于 R 语言中的 DALEX 程序包[28]实现。图 4 欧洲旅馆住宿价格数据集待选变量重要性得分录用稿件，非最终出版稿

Fig.4 The importance score of the variables to be selected in European hotel accommodation price dataset 将MEIVS提取的重要变量X、X、X、X作为输入变量、每日住宿价格Y作为输出变量建立尖点突变模型，为了消除变量间量纲的影响，用Z-Sco标准化方法对原始输入变量进行处理。算法基于R语言Cusp程序包四实现。利用MLE算法和120条样本对参数 0={6,,4,4,4,4:4,44,4,4,b)进行估计，代入式(6)中，得到如下形式的尖点突变模型的平衡方程： a=-36.548+0.119X1+2.670X2+1.251X3+0.339X B=-2.811-0.018X1+0.845X2-0.357X3-0.727X4 (17) 2=-3.138+0.009Y 23-Bz-a=0 表1展示了采用两步构建法建立的尖点突变模型与经MEIVS降维后构建的线性模型、Logistic 模型的评价指标，同时与传统的直接建模方法、经斯皮尔曼相关系数(Spearman's Correlation Coefficient,.SCC)、最大互信息系数(Maximal Information Coefficient,.M随机森林变量重要性算法 (Random Forest Variable Importance Measure,RFVIM)降维的建模方法作较。其中，SCC和MIC剔除系数小于0.3的弱相关变量，RFVM提取累计变量重要性达到90%的前n个变量。结果显示，在考虑样本量的情况下，更高的R和更低的BC说明基于两步构建法所构建的尖点突变模型优于未降维的传统尖点突变模型以及经SCC、MIC、RFVIM降维后构建的尖点突变模型。表1或洲擦馆住言价格收据到结果评价 Table 1 Evaluation of the modeling results of European hotel accommodation price dataset Model /Npar R2 AIC BIC Linear 0.549 1306 1323 Logistic 0.626 1294 1324 Cusp(Based on two-step method 1) 07)7 195 228 Cusp(Based on traditional method) 16 0.697 190 235 Cusp(Based on SCC)/ 10 0572 204 232 Cusp(Based on MIC) 0.421 234 251 Cusp(Based on RFVIM) 12 0.565 210 243 图5()展示了样本在控制平面少的分布，其中散点的颜色代表经过(6)式线性变换后旅馆价格的数值大小。影响旅馆价格的控制因子的变化轨迹从左到右穿过了分叉集，表明旅馆的价格发生了突变。图5b)展示了样本在平衡曲面上的分布，平衡曲面设置为半透明状态，颜色较暗的散点位于平衡曲面下方。易观察到在较低的价格范围内旅馆价格的变化具有连续性，而从低价到高价的变化并不连续。 (a) 录用 (b) 0.5 -2 -15 -10 5 -20

Fig.4 The importance score of the variables to be selected in European hotel accommodation price dataset 将 MEIVS 提取的重要变量 X1、X2、X3、X4作为输入变量、每日住宿价格 Y 作为输出变量建立尖点突变模型，为了消除变量间量纲的影响，用 Z-Score 标准化方法对原始输入变量进行处理。算法基于 R 语言 Cusp 程序包 [22] 实现。利用 MLE 算法和 120 条样本对参数 θ   w w a a a a a b b b b b 0 1 0 1 2 3 4 0 1 2 3 4 , , , , , , , , , , ,  进行估计，代入式(6)中，得到如下形式的尖点突变模型的平衡方程： 1 2 3 4 1 2 3 4 3 36.548 0.119 2.670 1.251 0.339 2.811 0.018 0.845 0.357 0.727 3.138 0.009 0 α X X X X β X X X X z Y z βz α                          (17) 表 1 展示了采用两步构建法建立的尖点突变模型与经 MEIVS 降维后构建的线性模型、Logistic 模型的评价指标，同时与传统的直接建模方法、经斯皮尔曼相关系数(Spearman's Correlation Coefficient, SCC)、最大互信息系数(Maximal Information Coefficient, MIC)、随机森林变量重要性算法 (Random Forest Variable Importance Measure, RFVIM)降维的建模方法作比较。其中，SCC 和 MIC 剔除系数小于 0.3 的弱相关变量，RFVIM 提取累计变量重要性达到 90%的前 n 个变量。结果显示，在考虑样本量的情况下，更高的 R 2和更低的 BIC 说明基于两步构建法所构建的尖点突变模型优于未降维的传统尖点突变模型以及经 SCC、MIC、RFVIM 降维后所构建的尖点突变模型。表 1 欧洲旅馆住宿价格数据集建模结果评价 Table 1 Evaluation of the modeling results of European hotel accommodation price dataset Model Npar R 2 AIC BIC Linear 0.549 1306 1323 Logistic 0.626 1294 1324 Cusp(Based on two-step method) 12 0.727 195 228 Cusp(Based on traditional method) 16 0.697 190 235 Cusp(Based on SCC) 10 0.572 204 232 Cusp(Based on MIC) 6 0.421 234 251 Cusp(Based on RFVIM) 12 0.565 210 243 图 5(a)展示了样本在控制平面上的分布，其中散点的颜色代表经过(6)式线性变换后旅馆价格的数值大小。影响旅馆价格的控制因子的变化轨迹从左到右穿过了分叉集，表明旅馆的价格发生了突变。图 5(b)展示了样本在平衡曲面上的分布，平衡曲面设置为半透明状态，颜色较暗的散点位于平衡曲面下方。易观察到在较低的价格范围内旅馆价格的变化具有连续性，而从低价到高价的变化并不连续。录用稿件，非最终出版稿

圆5欧洲旅馆住宿价格数据在控制平面和平衡曲面上的分布.()欧洲旅馆住宿价格数据在控制平面上的分布，(b)欧洲旅馆住宿价格数据在平衡曲面上的分布 Fig.5 Distribution of European hotel accommodation price dataset on control plane and equilibrium surface:(a) distribution of European hotel accommodation price dataset on control plane;(b)distribution of European hotel accommodation price dataset on equilibrium surface 2.2在时序数据集上的应用—以北京大气离烛数据为例北京大气腐蚀数据集一共包含719个样本，采集时间为2018年8月5日16时至9月6日14时，采集地点为北京，每个样本包括大气腐蚀监测仪(Atmospheric Corrosion Monitor,,ACM)采集得到的早期大气腐蚀电偶电流(Galvanic current))、温度(T)、相对湿度(RH、降雨状态(Rainfall)以及大气环境中PM2.5、PM10、SO2、NO2、O3的浓度。电偶电流与腐蚀速率成正相关关系9，为了便于分析，取电偶电流的自然对数作为输出变量。图6展示了电偶电流的时间序列表明腐蚀偶电流波动较大，表明时间序列中具有突变的特性，因此适用于建立尖点突变模型。 10 10 10 100 20 600 700 圆6ACM采集到的电偶电流时间序列 Fig.6 Time series of galvanic current collected by ACM 通过MEIVS算法得到待选变量重要性得分如图7，可见T、RH和Rainfall为影响早期大气腐蚀的重要变量，设为X、X2、X, 对数化腐蚀电偶电流设为Y。其他污染物浓度的影响是微弱的。 467 ■RF GBRT 录用稿 ▣SVR 1.109 0.251 00500.0470.0350.0300.01L RH Rainfall T NO:PM10PM2.5 SO2 O Variables to be selected 圆7北京大气腐蚀数据集待选变量重要性得分 Fig.7 The importance score of the variables to be selected in Beijing atmospheric corrosion dataset 以Z-Score标准化后的X、X2、X作为输入变量、Y作为输出变量构建尖点突变模型，利用MLE 算法和719条样本对参 0={6,州，4,4,4,4,4,4，，么进行估计得到的平衡方程如下：

图 5 欧洲旅馆住宿价格数据在控制平面和平衡曲面上的分布. (a) 欧洲旅馆住宿价格数据在控制平面上的分布; (b) 欧洲旅馆住宿价格数据在平衡曲面上的分布 Fig.5 Distribution of European hotel accommodation price dataset on control plane and equilibrium surface: (a) distribution of European hotel accommodation price dataset on control plane; (b) distribution of European hotel accommodation price dataset on equilibrium surface 2.2 在时序数据集上的应用——以北京大气腐蚀数据为例北京大气腐蚀数据集一共包含 719 个样本，采集时间为 2018 年 8 月 5 日 16 时至 9 月 6 日 14 时，采集地点为北京，每个样本包括大气腐蚀监测仪(Atmospheric Corrosion Monitor, ACM)采集得到的早期大气腐蚀电偶电流(Galvanic current)、温度(T)、相对湿度(RH)、降雨状态(Rainfall)以及大气环境中 PM2.5、PM10、SO2、NO2、O3的浓度。电偶电流与腐蚀速率成正相关关系[29]，为了便于分析，取电偶电流的自然对数作为输出变量。图 6 展示了电偶电流的时间序列表明腐蚀电偶电流波动较大，表明时间序列中具有突变的特性，因此适用于建立尖点突变模型。图 6 ACM 采集到的电偶电流时间序列 Fig.6 Time series of galvanic current collected by ACM 通过 MEIVS 算法得到待选变量重要性得分如图 7,可见 T、RH 和 Rainfall 为影响早期大气腐蚀的重要变量，设为 X1、X2、X3，对数化腐蚀电偶电流设为 Y。其他污染物浓度的影响是微弱的。图 7 北京大气腐蚀数据集待选变量重要性得分 Fig.7 The importance score of the variables to be selected in Beijing atmospheric corrosion dataset 以 Z-Score 标准化后的 X1、X2、X3作为输入变量、Y 作为输出变量构建尖点突变模型，利用 MLE 算法和 719 条样本对参数θ   w w a a a a b b b b 0 1 0 1 2 3 0 1 2 3 , , , , , , , , ,  进行估计，得到的平衡方程如下：录用稿件，非最终出版稿

1 2 3 1 2 3 3 4.978 0.130 1.539 1.421 1.929 0.996 1.697 0.262 2.802 0.476 0 α X X X β X X X z Y z βz α                       (18) 此外，采用 2.1 节所述方法，表 2 的模型评估结果显示了两步构建法的优越性。表 2 北京大气腐蚀数据集建模结果评价 Table 2 Evaluation of the modeling results of Beijing atmospheric corrosion dataset Model Npar R 2 AIC BIC Linear 0.668 2180 2203 Logistic 0.755 1970 2011 Cusp(Based on two-step method) 10 0.778 670 716 Cusp(Based on traditional method) 20 0.775 672 764 Cusp(Based on SCC) 10 0.719 816 862 Cusp(Based on MIC) 8 0.725 820 857 Cusp(Based on RFVIM) 18 0.765 673 755 样本在控制平面和平衡曲面的分布情况如图 8(a)、8(b)，圆点代表未降雨时的样本，三角形代表降雨时的样本。当由温度、相对湿度、降雨组成的控制因子进入分叉集时，腐蚀电偶电流在平衡曲面的下叶和上叶之间跳跃。从图 8(a)观测到，降雨会促使腐蚀系统中的电偶电流不能沿着原有的轨迹运动，而是突变到新的演变轨迹上。图 8 北京大气腐蚀数据在控制平面和平衡曲面上的分布. (a) 北京大气腐蚀数据在控制平面上分布; (b) 北京大气腐蚀数据在控制平面和平衡曲面的分布 Fig.8 Distribution of Beijing atmospheric corrosion dataset on control plane and equilibrium surface: (a) distribution of Beijing atmospheric corrosion dataset on control plane; (b) distribution of Beijing atmospheric corrosion dataset on equilibrium surface 3 结论 (1) 对于存在突变现象的系统，通过理论和数据相结合的方式建立尖点突变模型是一种有效的建模手段。 (2) 提出了基于变量选择的尖点突变模型的两步构建方法。在具有突变特征的数据集上，相比于其他模型，利用本文所提方法构建的尖点突变模型拟合效果更优。 (3) 结合样本在控制平面和平衡曲面的分布图，尖点突变模型可以解释系统的突变行为。录用稿件，非最终出版稿