基于定量关联规则树的分类及回归预测算法

为了解决基于Apriori的分类关联规则算法挖掘数值型数据时效率和准确率偏低的问题,提出基于定量关联规则树的分类及回归预测算法.采用改进的定量关联规则算法挖掘数值型数据生成关联规则库,并基于关联规则树结构实现分类及回归预测.研究结果表明:改进的Apriori定量关联规则挖掘算法提高了分类预测的准确率并降低了计算复杂度;而采用关联规则树结构可使分类与回归预测时间明显加快,提高了样本匹配学习的速度.

团购合买资源类别：文库，文档格式：PDF，文档页数：7，文件大小：340.78KB

工程科学学报，第38卷，第6期：886892,2016年6月 Chinese Journal of Engineering,Vol.38,No.6:886-892,June 2016 DOI:10.13374/j.issn2095-9389.2016.06.020:http://journals.ustb.edu.cn 基于定量关联规则树的分类及回归预测算法玲12四，李树林12，吴璐璐2》 1)北京科技大学自动化学院，北京1000832)北京科技大学钢铁流程先进控制教有部重点实验室，北京100083 ☒通信作者，E-mail:lingwang@usth.ed.cen 摘要为了解决基于Apriori的分类关联规则算法挖掘数值型数据时效率和准确率偏低的问题，提出基于定量关联规则树的分类及回归预测算法.采用改进的定量关联规则算法挖掘数值型数据生成关联规则库，并基于关联规则树结构实现分类及回归预测.研究结果表明：改进的Apoi定量关联规则挖掘算法提高了分类预测的准确率并降低了计算复杂度：而采用关联规则树结构可使分类与回归预测时间明显加快，提高了样本匹配学习的速度关键词数值挖掘：算法：关联规则：分类方法：回归方法分类号TP311 Categorization and regression algorithm based on the quantitative association rule tree WANG Ling,LI Shu-in'),WU Lu-u2 1)School of Automation and Electrical Engineering,University of Science and Technology Beijing,Beijing 100083,China 2)Key Laboratory of Advanced Control of Iron and Steel Process (Ministry of Education),Beijing 100083,China Corresponding author,E-mail:lingwang@ustb.edu.cn ABSTRACT To solve the problem of the low efficiency and accuracy of numerical data mining based on the Apriori categorization association rule algorithm,this article introduces a categorization and regression algorithm based on the quantitative association rule tree.The modified quantitative association rule algorithm is adopted to mine numerical datasets to generate an association rule base, and the association rule tree (QART)is reconstructed to realize the categorization and regression prediction.The results show that quantitative association based on the modified Apriori algorithm is helpful for improving the accuracy of categorization and regression and reducing the computational complexity,and the quantitative association rule tree can improve the efficiency of categorization and regression and increase the rule matching speed. KEY WORDS data mining:algorithms;association rules;categorization methods:regression methods 关联规则挖掘是数据挖掘技术的主要研究内但占用了大量的内存.此外，关联规则算法一旦形成容，它表现了频繁出现在给定数据集中的属性-值之分类规则，在分类新样本时，需要多次扫描数据库且间的强关联.目前关联规则已用于解决分类问题，其需要逐条匹配每个侯选项集的关联规则，其效率会基本思想是搜索频繁模式与类标号之间的强关联，急剧下降，并且都不能实现对数值数据的回归预测. 其中关联分类算法CBA四最早被提出，它类似于本文在采用改进的Apriori网算法的基础上挖掘 Apriori算法，主要缺点是需要多次扫描数据库，产生定量关联规则，重构关联规则实现对分类及回归的大量的侯选项集，CMAR可算法则是采用频繁模式预测.为了便于规则存储及匹配学习，仅扫描两次关增长算法，只需扫描数据库两次就可以产生频繁项，联规则库，实现关联规则树的构建.对新样本预测收稿日期：2015-06-19 基金项目：国家自然科学基金资助项目(61572073)：中央高校基本科研业务费资助项目(RF-SD-12-009B):北京科技大学研究生教材专项基金资助项目

工程科学学报，第 38 卷，第 6 期: 886--892，2016 年 6 月 Chinese Journal of Engineering，Vol． 38，No． 6: 886--892，June 2016 DOI: 10． 13374 /j． issn2095--9389． 2016． 06． 020; http: / /journals． ustb． edu． cn 基于定量关联规则树的分类及回归预测算法王玲1，2) ，李树林1，2) ，吴璐璐1，2) 1) 北京科技大学自动化学院，北京 100083 2) 北京科技大学钢铁流程先进控制教育部重点实验室，北京 100083  通信作者，E-mail: lingwang@ ustb． edu． cn 摘要为了解决基于 Apriori 的分类关联规则算法挖掘数值型数据时效率和准确率偏低的问题，提出基于定量关联规则树的分类及回归预测算法．采用改进的定量关联规则算法挖掘数值型数据生成关联规则库，并基于关联规则树结构实现分类及回归预测．研究结果表明: 改进的 Apriori 定量关联规则挖掘算法提高了分类预测的准确率并降低了计算复杂度; 而采用关联规则树结构可使分类与回归预测时间明显加快，提高了样本匹配学习的速度．关键词数值挖掘; 算法; 关联规则; 分类方法; 回归方法分类号 TP311 Categorization and regression algorithm based on the quantitative association rule tree WANG Ling1，2)  ，LI Shu-lin1，2) ，WU Lu-lu1，2) 1) School of Automation and Electrical Engineering，University of Science and Technology Beijing，Beijing 100083，China 2) Key Laboratory of Advanced Control of Iron and Steel Process ( Ministry of Education) ，Beijing 100083，China  Corresponding author，E-mail: lingwang@ ustb． edu． cn ABSTＲACT To solve the problem of the low efficiency and accuracy of numerical data mining based on the Apriori categorization association rule algorithm，this article introduces a categorization and regression algorithm based on the quantitative association rule tree． The modified quantitative association rule algorithm is adopted to mine numerical datasets to generate an association rule base， and the association rule tree ( QAＲT) is reconstructed to realize the categorization and regression prediction． The results show that quantitative association based on the modified Apriori algorithm is helpful for improving the accuracy of categorization and regression and reducing the computational complexity，and the quantitative association rule tree can improve the efficiency of categorization and regression and increase the rule matching speed． KEY WOＲDS data mining; algorithms; association rules; categorization methods; regression methods 收稿日期: 2015--06--19 基金项目: 国家自然科学基金资助项目( 61572073) ; 中央高校基本科研业务费资助项目( FＲF － SD － 12 － 009B) ; 北京科技大学研究生教材专项基金资助项目关联规则挖掘是数据挖掘技术的主要研究内容，它表现了频繁出现在给定数据集中的属性!值之间的强关联．目前关联规则已用于解决分类问题，其基本思想是搜索频繁模式与类标号之间的强关联，其中关联分类算法 CBA［1］最早被提出，它类似于 Apriori 算法，主要缺点是需要多次扫描数据库，产生大量的侯选项集． CMAＲ［2］算法则是采用频繁模式增长算法，只需扫描数据库两次就可以产生频繁项，但占用了大量的内存．此外，关联规则算法一旦形成分类规则，在分类新样本时，需要多次扫描数据库且需要逐条匹配每个侯选项集的关联规则，其效率会急剧下降，并且都不能实现对数值数据的回归预测．本文在采用改进的 Apriori［3］算法的基础上挖掘定量关联规则，重构关联规则实现对分类及回归的预测．为了便于规则存储及匹配学习，仅扫描两次关联规则库，实现关联规则树的构建．对新样本预测

王玲等：基于定量关联规则树的分类及回归预测算法 ·887· 时，可以有效提高预测的快速性及精确性 Rule,If min (c.)<x<max(c), 算法主要步骤如下：(1)将训练样本表示成标称 min(c2.,）<x2<max(c2.）, 向量的形式：(2)利用改进的Apriori定量关联规则挖掘算法找出各类别的频繁模式集，每个频繁模式与所 …,min(ca.)<xn<max(c）属类别构造分类与回归规则，并计算规则置信度：(3) Then min(c)<<max(c), 构建关联规则树实现规则的存储：(4)找出与新样本 y=a+店 (1) 匹配的分类与回归规则，预测其输出. 其中Rule,表示第I条规则，规则前件是定量关联规则 1概念与算法导出的规则前件，min(c.)和max(c.t)分别表示属性 1.1基本理论概念 x,第i,(1≤i,≤n,)个离散状态区间的最小和最大值. 定义1属性的离散化表示：给定原始数据集规则后件min(c.n)<y0<max(c.m）是输出类别为m D.={T,T2,…,Tw},其中N为数据样本的个数，每个的离散状态区间.规则后件还可表达为一个回归预测样本为T=(x,,…,),其中T(1≤j≤N)∈D., 函数，其系数a可由最小二乘算法估计得出. (1≤i≤n)表示第j样本的第i维属性.通过基于聚 1.2改进的定量关联规则挖掘算法类的离散化技术，属性x:离散化为项集c:={c.1c.2, 为了利用Apriori算法实现数值型数据的规则挖 …,cn},其中cn表示第i维属性的第n:个离散状态掘，同时减少数据库的扫描次数，提高该算法的运行效区间，状态区间数用1到n:的一组整数表示，这些整率，首先提出一种改进的定量关联规则挖掘算法，实现数不代表任何特定的顺序. 定量关联规则的高效快速挖掘，算法流程图如图1 定义2项集的标称向量表示：对一个特定状态所示的属性维，对应该状态值的二元变量为1，而其他的二由离散化数据构建标称向量矩阵X, 元变量为0.对应这种形式的编码，样本可以表示为标称向量.比如，对于样本{x,x},属性x,和x2分别构建支持度存储向量S,并得到频繁1-项集离散化为三个状态和两个状态，则离散化项集{1,2} 表示为标称向量v=(10001),属性x,的第1个状态赋由频繁k-1项集L,得到候选频繁-项集C, 值为1，其余状态赋值为0，属性2的第2个状态赋值并山知阵运算得到颇繁k-项集L 为1，其余状态赋值为0. 定义3支持度：已知数据样本集D.,其对应的标令=k+】.判断称向量矩阵表示为X。,频繁k项集L的标称向量表频繁项集L,是否为空示为，频繁k-项集L4在D,中的支持度是矩阵X:与标称向量v相乘得到的向量中“k”的个数，记为S,则是上算规则置信度，保留数值大于min col的项集称S。为项集L的支持度得到定量关联规则定义4支持度存储向量：向量S记录所有频繁k 图1算法流程图项集的支持度，对某个频繁k-项集L形成一个标称向 Fig.1 Flow chart of algorithm 量v,并将其看成一组二进制数据，进而转换成十进制数为d,利用向量S的第d位存储项集L的支持度，构步骤1将离散化的数据转化为标称向量矩阵成的向量S称为支持度存储向量. 定义5频繁模式：给定最小支持度阈值minsup, 步骤2将标称向量矩阵每列的元素相加，得到若项集L4的支持度大于等于minsup,称项集L4是频一个支持度存储向量S,行向量中每一位元素代表相繁的，频繁项集也称频繁模式。应变量类别的支持度，如果该支持度大于最小支持度定义6分类与回归预测关联规则：将频繁k项 minsup,则为频繁l-项集L,并将每个频繁l-项集的支集L,的各个频繁项集中输入变量作为规则前件（记为持度记录在向量S中.令k=2,继续挖掘频繁k-项集. A),将输出变量作为规则后件（记为B),形成定量关步骤3将频繁k-1项集L-中只有一项不同的联规则A三B. 项集两两连接，作为候选频繁k项集C.利用矩阵运通过引入TS模糊规则推理，将已有的定量关联规算统计项集的支持度，将各项集的支持度同样记录在则改写为式(1)，其与TS模糊规则有类似前后件表达向量S中，并与最小支持度相比较得出频繁k-项集L: 式，并可以利用模糊推理计算回归预测输出值. 步骤4令k=k+1,如果频繁项集L-1为空，则

王玲等: 基于定量关联规则树的分类及回归预测算法时，可以有效提高预测的快速性及精确性．算法主要步骤如下: ( 1) 将训练样本表示成标称向量的形式; ( 2) 利用改进的 Apriori 定量关联规则挖掘算法找出各类别的频繁模式集，每个频繁模式与所属类别构造分类与回归规则，并计算规则置信度; ( 3) 构建关联规则树实现规则的存储; ( 4) 找出与新样本匹配的分类与回归规则，预测其输出． 1 概念与算法 1. 1 基本理论概念定义 1 属性的离散化表示: 给定原始数据集 Ds = { T1，T2，…，TN } ，其中 N 为数据样本的个数，每个样本为 Tj = ( xj 1，xj 2，…，xj n ) ，其中 Tj ( 1≤j≤N) ∈Ds， xj i ( 1≤i≤n) 表示第 j 样本的第 i 维属性．通过基于聚类的离散化技术，属性 xi 离散化为项集 ci = { ci，1，ci，2， …，ci，ni } ，其中 ci，ni 表示第 i 维属性的第 ni 个离散状态区间，状态区间数用 1 到 ni 的一组整数表示，这些整数不代表任何特定的顺序．定义 2 项集的标称向量表示: 对一个特定状态的属性维，对应该状态值的二元变量为 1，而其他的二元变量为 0．对应这种形式的编码，样本可以表示为标称向量 v．比如，对于样本{ x1，x2 } ，属性 x1 和 x2 分别离散化为三个状态和两个状态，则离散化项集{ 1，2} 表示为标称向量 v = ( 10001) ，属性 x1 的第 1 个状态赋值为 1，其余状态赋值为 0，属性 x2 的第 2 个状态赋值为 1，其余状态赋值为 0．定义 3 支持度: 已知数据样本集 Ds，其对应的标称向量矩阵表示为 XB，频繁 k-项集 Lk 的标称向量表示为 v，频繁 k-项集 Lk 在 Ds 中的支持度是矩阵 XB 与标称向量 v 相乘得到的向量中“k”的个数，记为 Sk，则称 Sk 为项集 Lk 的支持度．定义 4 支持度存储向量: 向量 S 记录所有频繁 k 项集的支持度，对某个频繁 k-项集 Lk 形成一个标称向量 v，并将其看成一组二进制数据，进而转换成十进制数为 d，利用向量 S 的第 d 位存储项集 Lk 的支持度，构成的向量 S 称为支持度存储向量．定义 5 频繁模式: 给定最小支持度阈值 minsup，若项集 Lk 的支持度大于等于 minsup，称项集 Lk 是频繁的，频繁项集也称频繁模式．定义 6 分类与回归预测关联规则: 将频繁 k-项集 Lk 的各个频繁项集中输入变量作为规则前件( 记为 A) ，将输出变量作为规则后件( 记为 B) ，形成定量关联规则 AB．通过引入 TS 模糊规则推理，将已有的定量关联规则改写为式( 1) ，其与 TS 模糊规则有类似前后件表达式，并可以利用模糊推理计算回归预测输出值．Ｒulel : If min( c1，i1 ) ＜ x1 ＜ max( c1，i1 ) ， min( c2，i2 ) ＜ x2 ＜ max( c2，i2 ) ， …，min( cn，i n ) ＜ xn ＜ max( cn，i n ) Then min( cy，m ) ＜ y ( l) ＜ max( cy，m ) ， y ( l) = a( m) 0 + ∑ n i = 1 a( m) i xi ( 1) 其中Ｒulel 表示第 l 条规则，规则前件是定量关联规则导出的规则前件，min( c1，i1 ) 和 max( c1，i1 ) 分别表示属性 x1 第 i1 ( 1≤i1≤n1 ) 个离散状态区间的最小和最大值．规则后件 min( cy，m ) ＜ y ( l) ＜ max( cy，m ) 是输出类别为 m 的离散状态区间．规则后件还可表达为一个回归预测函数，其系数 a( m) i 可由最小二乘算法估计得出． 1. 2 改进的定量关联规则挖掘算法为了利用 Apriori 算法实现数值型数据的规则挖掘，同时减少数据库的扫描次数，提高该算法的运行效率，首先提出一种改进的定量关联规则挖掘算法，实现定量关联规则的高效快速挖掘，算法流程图如图 1 所示．图 1 算法流程图 Fig． 1 Flow chart of algorithm 步骤 1 将离散化的数据转化为标称向量矩阵 XB ．步骤 2 将标称向量矩阵每列的元素相加，得到一个支持度存储向量 S，行向量中每一位元素代表相应变量类别的支持度，如果该支持度大于最小支持度 minsup，则为频繁 1-项集 L1，并将每个频繁 1-项集的支持度记录在向量 S 中．令 k = 2，继续挖掘频繁 k-项集．步骤 3 将频繁 k － 1 项集 Lk － 1中只有一项不同的项集两两连接，作为候选频繁 k-项集 Ck ．利用矩阵运算统计项集的支持度，将各项集的支持度同样记录在向量 S 中，并与最小支持度相比较得出频繁 k-项集 Lk ．步骤 4 令 k = k + 1，如果频繁项集 Lk － 1 为空，则 · 788 ·

·888· 工程科学学报，第38卷，第6期跳转到步骤5.否则返回步骤3. cass=0.0151-0.0900x2+0.1694x3+0.4979x4 步骤5首先删除不包含输出变量的项集，然后 (3) 将各个频繁项集的输入变量作为规则前件（记为在扫描第1条关联规则时，由于当前关联规则树 A),将输出作为规则后件（记为B),计算规则的置信为空，所以第1条关联规则即为关联规则树的第1个度.此时无需再次扫描数据库，直接根据向量中记录分支，关联规则第1项成为关联规则树根节点的子节的项集支持度即可.保留置信度大于最小置信度阈点，其余各项沿着路径分支依次链接。继续扫描下一值min cof的项集，令关联规则前件为项集中所有输条关联规则，首先判断关联规则树第1层节点中是否入变量相关项，关联规则后件为输出变量相关项. 存在该条关联规则的第1项，如果存在则树中第1层为了实现分类和回归预测，在改进的定量关联规无需新增节点，反之亦然.依此类推，如果关联规则的则挖掘算法的基础上，对关联规则库进行重构.考虑第2项已经是关联规则树第1层节点的子节点，则关到规则存储的便捷，同时为了提高数据与规则匹配学联规则树第2层无需新增节点，否则需要新增节点. 习的效率，提出了一种关联规则树的构建方法，确保快当扫描到某条关联规则的最后一项（假设为该条规则速并准确地实现新数据的分类和回归预测. 第i项)时，在树的相应层（第i层）新增一个叶节点， 1.3关联规则树构建并在叶节点中记录这条关联规则的后件的输出类别、与频繁模式树构建方法不同，利用已形成的关联关联规则后件线性表达式系数和置信度.如此进行，规则的基础上构建关联规则树，无需扫描原始数据集，形成最终的关联规则树. 只需要扫描两遍关联规则库.主要分为以下两步. 表1lis数据集关联规则项头表第1遍扫描关联规则库生成项头表.计算各个 Table 1 Header table of association rules with Iris dataset 1-项集在关联规则库中的支持度，并按支持度降序的序号变量编码类别支持度重要度最小值最大值宽度顺序排序.将其中输入输出变量所含项集分别按其支 1 4 360.021.01.50.170106 持度的降序进行排序构成项头表的两部分，分别记为 4 4 0.020.1 0.30.056955 filist,filist-2.若两项的支持度相同，则按其重要度排 3 3 3 4 0.02 3.0 4.3 0.343608 序项，重要度定义如下式： 3 0.02 2.0 2.70.186982 Importance(I,)=∑ p(L,0) 5 3 2 2 0.02 0.116697 (2) 1.5 1.9 P (I)p(O) 6 002 1.0 1.40.108530 式中，！和O分别表示输入及输出变量的相关项集， 7 1.6 2.0 0.127210 ko表示输出变量的类别数.p(I,O)表示项集(I,O) 57 5.90.204978 在规则库中的支持度，p(I:)和p(O)分别表示项I:和 9 2.1 2.5 0.135571 0在规则库中的支持度 10 3.2 3.50.112706 以Iis数据集为例，表1给出了扫描关联规则库 0.02 4.4 5.10.245571 后生成的项头表.项头表记录着项变量及所属类别、 3 007 4.8 5 0.083095 支持度、项重要度、项变量某一类别的最大最小值、项 2 1 0.02 2.8 3.10.104878 变量某一类别的宽度（数据方差的平方根）.当有新的 14 0 2.0 2.00 预测样本时，可以根据项头表判断该数据的每个维度 1.0 1.00 是否与规则库中涉及的变量类别相匹配，实现新样本 16 5 3 0 3.0 3.00 的离散化. 第2遍扫描关联规则库构造关联规则树，用项头关联规则树构建算法：表中的序号来表示每个关联规则中对应的各个项.例步骤1第1次扫描关联规则库，统计规则库中如表1中变量为4且类别为3的项对应项头表中的序每个项的支持度，将有关输入输出变量的项分别按支号为1，因此可以用序号1来表示这一项.按照此方法持度和重要度进行降序排序作为项头表的两部分，并将所有关联规则中的项转化为各个项集的序号.例如合并为最终的项头表. 一条关联规则如式(3)所示（其中x,中i为变量编码），步骤2因为关联规则中的每一项与项头表中转换得到表达形式为“1and3and4==>14” 的记录一一对应，再次扫描关联规则库时，用项头表 f2≤x2≤2.7，and3≤x3≤4.3，中项的序号表示原始关联规则.初始创建规则树是 and1≤x.≤1.5，空树，没有节点（记为T).假设pIP]是其中一条关 Then class is 2, 联规则ule,p即为rule的第1项，P为rule的剩余

工程科学学报，第 38 卷，第 6 期跳转到步骤 5．否则返回步骤 3．步骤 5 首先删除不包含输出变量的项集，然后将各个频繁项集的输入变量作为规则前件 ( 记为 A) ，将输出作为规则后件( 记为 B) ，计算规则的置信度．此时无需再次扫描数据库，直接根据向量中记录的项集支持度即可．保留置信度大于最小置信度阈值min cof的项集，令关联规则前件为项集中所有输入变量相关项，关联规则后件为输出变量相关项．为了实现分类和回归预测，在改进的定量关联规则挖掘算法的基础上，对关联规则库进行重构．考虑到规则存储的便捷，同时为了提高数据与规则匹配学习的效率，提出了一种关联规则树的构建方法，确保快速并准确地实现新数据的分类和回归预测． 1. 3 关联规则树构建与频繁模式树构建方法不同，利用已形成的关联规则的基础上构建关联规则树，无需扫描原始数据集，只需要扫描两遍关联规则库．主要分为以下两步．第 1 遍扫描关联规则库生成项头表．计算各个 1-项集在关联规则库中的支持度，并按支持度降序的顺序排序．将其中输入输出变量所含项集分别按其支持度的降序进行排序构成项头表的两部分，分别记为 filist-1，filist-2．若两项的支持度相同，则按其重要度排序．项 Ii 重要度定义如下式: Importance( Ii ) = ∑ kO j = 1 p( Ii，Oj ) p( Ii ) p( Oj ) ． ( 2) 式中，Ij 和 Oj 分别表示输入及输出变量的相关项集， kO 表示输出变量的类别数． p( Ii，Oj) 表示项集( Ii，Oj) 在规则库中的支持度，p( Ii ) 和 p( Oj) 分别表示项 Ii 和 Oj 在规则库中的支持度．以 Iris 数据集为例，表 1 给出了扫描关联规则库后生成的项头表．项头表记录着项变量及所属类别、支持度、项重要度、项变量某一类别的最大最小值、项变量某一类别的宽度( 数据方差的平方根) ．当有新的预测样本时，可以根据项头表判断该数据的每个维度是否与规则库中涉及的变量类别相匹配，实现新样本的离散化．第 2 遍扫描关联规则库构造关联规则树，用项头表中的序号来表示每个关联规则中对应的各个项．例如表 1 中变量为 4 且类别为 3 的项对应项头表中的序号为 1，因此可以用序号 1 来表示这一项．按照此方法将所有关联规则中的项转化为各个项集的序号．例如一条关联规则如式( 3) 所示( 其中 xi中 i 为变量编码) ，转换得到表达形式为“1 and 3 and 4 = = ＞ 14”． If 2≤x2≤2. 7，and 3≤x3≤4. 3， and 1≤x4≤1. 5， Then class is 2， class = 0. 0151 － 0. 0900x2 + 0. 1694x3 + 0. 4979x4 ( 3) 在扫描第 1 条关联规则时，由于当前关联规则树为空，所以第 1 条关联规则即为关联规则树的第 1 个分支，关联规则第 1 项成为关联规则树根节点的子节点，其余各项沿着路径分支依次链接．继续扫描下一条关联规则，首先判断关联规则树第 1 层节点中是否存在该条关联规则的第 1 项，如果存在则树中第 1 层无需新增节点，反之亦然．依此类推，如果关联规则的第 2 项已经是关联规则树第 1 层节点的子节点，则关联规则树第 2 层无需新增节点，否则需要新增节点．当扫描到某条关联规则的最后一项( 假设为该条规则第 i 项) 时，在树的相应层( 第 i 层) 新增一个叶节点，并在叶节点中记录这条关联规则的后件的输出类别、关联规则后件线性表达式系数和置信度．如此进行，形成最终的关联规则树．表 1 Iris 数据集关联规则项头表 Table 1 Header table of association rules with Iris dataset 序号变量编码类别支持度重要度最小值最大值宽度 1 4 3 6 0. 02 1. 0 1. 5 0. 170106 2 4 1 4 0. 02 0. 1 0. 3 0. 056955 3 3 3 4 0. 02 3. 0 4. 3 0. 343608 4 2 1 3 0. 02 2. 0 2. 7 0. 186982 5 3 2 2 0. 02 1. 5 1. 9 0. 116697 6 3 1 2 0. 02 1. 0 1. 4 0. 108530 7 4 4 1 0. 02 1. 6 2. 0 0. 127210 8 3 5 1 0. 02 5. 2 5. 9 0. 204978 9 4 5 1 0. 02 2. 1 2. 5 0. 135571 10 2 3 1 0. 02 3. 2 3. 5 0. 112706 11 3 4 1 0. 02 4. 4 5. 1 0. 245571 12 1 3 1 0. 02 4. 8 5 0. 083095 13 2 2 1 0. 02 2. 8 3. 1 0. 104878 14 5 2 8 0 2. 0 2. 0 0 15 5 1 7 0 1. 0 1. 0 0 16 5 3 3 0 3. 0 3. 0 0 关联规则树构建算法: 步骤 1 第 1 次扫描关联规则库，统计规则库中每个项的支持度，将有关输入输出变量的项分别按支持度和重要度进行降序排序作为项头表的两部分，并合并为最终的项头表．步骤 2 因为关联规则中的每一项与项头表中的记录一一对应，再次扫描关联规则库时，用项头表中项的序号表示原始关联规则．初始创建规则树是空树，没有节点( 记为 T) ．假设［p | P］是其中一条关联规则 rule，p 即为 rule 的第 1 项，P 为 rule 的剩余 · 888 ·

王玲等：基于定量关联规则树的分类及回归预测算法 889 项，调用insert-tree([plP],T)方法不断向关联规则径中有多个输出类别，选择置信度最高的叶节点所表树中增加节点，具体做法是如果当前树非空，则遍历示的输出类别即为样本预测输出类别.否则跳转到步树的孩子节点，看是否存在节点Node,使得Node. 骤3. name=p.若存在，则无需新增节点：否则建立一个新步骤3若在关联规则树中不存在与样本x相匹的节点Node,令Node.name=p.将节点Node的父节配的规则，则利用模糊推理的方法实现对新数据输出点指针指向父节点T,并将相同的节点通过节点链指的精确预测，如下式：针链接.如果P非空，则递归地调用insert-tree(P,T) 直到关联规则最后一项.当扫描到某条关联规则的 y= (4) 最后一项（假设为该条规则第项），在树的相应层 (第i层)新增一个叶节点，并在叶节点中记录这条关联规则的后件的输出类别、关联规则后件线性表达式系数和置信度.一直重复步骤2直到所有关联 (5) 规则扫描完毕为止 1.4规则匹配与推理式中，=口4，R表示挖据得到的关联规则个数，基于上述构建的关联规则树，当有新样本待预测 ”表示样本x对第I条关联规则中第h个项集的高时，规则匹配过程分为两个阶段：用项头表中项的序号斯隶属度，M(1≤M≤n)表示第l条关联规则中包含项来表示原始数据实现新样本离散化：然后从关联规则集的个数，”表示第1条规则第h个项集的均值，σ” 表示第l条规则第h个项集的标准差.和σ”也树的根节点开始逐一与离散化以后的新样本匹配，如分别表示各个维度的聚类中心和聚类方差. 果沿根节点开始的某一条分支路径，没有与新数据相匹配的节点，则停止查询，否则将一直沿着这条路径匹 2算法性能分析及实例应用配到叶节点得出输出类别.令Node表示关联规则树中第i层第j(I≤j≤n:)个节点，Node.Next表示第i层 2.1算法性能分析的子节点，具体的算法如下所示为了验证本算法的预测性能以及学习效率，使用步骤1假设待预测样本为x,首先将样本按照项 UCI基准数据库中的ris、Wine、Seed以及Breast 头表离散化，然后沿着关联规则树的根节点开始，指向 Cancer作为实验数据集进行仿真. 第1层子节点Node,=1,2,…,n,). 这里以is数据集为例，首先获得关联规则项头步骤2从第i层子节点开始查询每一个子节点表，如表1所示，然后利用关联规则项头表的序号来表中是否存在与x相匹配的节点.如果存在，则沿着该示每个关联规则中对应的各个项，进而构建is数据节点的分支路径继续查询第i+1层中是否存在与输集的关联规则树，当有新待预测样本时，可快速获得预入数据相匹配的子节点，直到到达叶节点，如果分支路测输出，如图2所示 ○根节点 6) 12 3 ④ 图2Iis数据集关联规则树 Fig.2 Association rule tree of Iris dataset 图3对比了关联规则树匹配以及关联规则逐条匹关联规则树匹配查询新样本输出类别所需的时间明显配两种方法预测新样本输出类别的效率，对于is、少于关联规则逐条匹配的查询方法. Wine、Seed和Breast Cancer数据集，利用关联规则树匹 2.2应用实例配查询新样本所需的时间分别为0.022、0.043、0.038 由于钢铁行业中中厚板生产过程复杂，影响产品和0.081s,而采用关联规则逐条匹配查询所需时间分质量的因素众多，本文提出采用定量关联规则树方法别为0.030、.0.100、0.061和0.209s.可以看出，利用从中厚板生产过程数据中提取重要信息，发现它们与

王玲等: 基于定量关联规则树的分类及回归预测算法项，调用insert-tree( ［p | P］，T) 方法不断向关联规则树中增加节点，具体做法是如果当前树非空，则遍历树的孩子节点，看是否存在节点 Node，使得 Node． name = p．若存在，则无需新增节点; 否则建立一个新的节点 Node，令 Node． name = p．将节点 Node 的父节点指针指向父节点 T，并将相同的节点通过节点链指针链接．如果 P 非空，则递归地调用 insert-tree( P，T) 直到关联规则最后一项．当扫描到某条关联规则的最后一项( 假设为该条规则第 i 项) ，在树的相应层 ( 第 i 层) 新增一个叶节点，并在叶节点中记录这条关联规则的后件的输出类别、关联规则后件线性表达式系数和置信度．一直重复步骤 2 直到所有关联规则扫描完毕为止． 1. 4 规则匹配与推理基于上述构建的关联规则树，当有新样本待预测时，规则匹配过程分为两个阶段: 用项头表中项的序号来表示原始数据实现新样本离散化; 然后从关联规则树的根节点开始逐一与离散化以后的新样本匹配，如果沿根节点开始的某一条分支路径，没有与新数据相匹配的节点，则停止查询，否则将一直沿着这条路径匹配到叶节点得出输出类别．令 Nodeij表示关联规则树中第 i 层第 j( 1≤j≤ni ) 个节点，Nodeij． Next 表示第 i 层的子节点，具体的算法如下所示．步骤 1 假设待预测样本为 x，首先将样本按照项头表离散化，然后沿着关联规则树的根节点开始，指向第 1 层子节点 Node1j ( j = 1，2，…，ni ) ．步骤 2 从第 i 层子节点开始查询每一个子节点中是否存在与 x 相匹配的节点．如果存在，则沿着该节点的分支路径继续查询第 i + 1 层中是否存在与输入数据相匹配的子节点，直到到达叶节点，如果分支路径中有多个输出类别，选择置信度最高的叶节点所表示的输出类别即为样本预测输出类别．否则跳转到步骤 3．步骤 3 若在关联规则树中不存在与样本 x 相匹配的规则，则利用模糊推理的方法实现对新数据输出的精确预测，如下式: y = ∑ Ｒ l = 1 τly ( l) ∑ Ｒ l = 1 τl ， ( 4) μ ( l) h = e － ( xh － x － ( l) h ) 2 2( σ( l) h ) 2 ． ( 5) 式中，τl = ∏ M h = 1 μ ( l) h ，Ｒ表示挖掘得到的关联规则个数， μ ( l) h 表示样本 x 对第 l 条关联规则中第 h 个项集的高斯隶属度，M( 1≤M≤n) 表示第 l 条关联规则中包含项集的个数，x( l) h 表示第 l 条规则第 h 个项集的均值，σ( l) h 表示第 l 条规则第 h 个项集的标准差． x( l) h 和 σ( l) h 也分别表示各个维度的聚类中心和聚类方差． 2 算法性能分析及实例应用 2. 1 算法性能分析为了验证本算法的预测性能以及学习效率，使用 UCI 基准数据库［4］中的 Iris、Wine、Seed 以及 Breast Cancer 作为实验数据集进行仿真．这里以 Iris 数据集为例，首先获得关联规则项头表，如表 1 所示，然后利用关联规则项头表的序号来表示每个关联规则中对应的各个项，进而构建 Iris 数据集的关联规则树，当有新待预测样本时，可快速获得预测输出，如图 2 所示．图 2 Iris 数据集关联规则树 Fig． 2 Association rule tree of Iris dataset 图 3 对比了关联规则树匹配以及关联规则逐条匹配两种方法预测新样本输出类别的效率，对于 Iris、 Wine、Seed 和 Breast Cancer 数据集，利用关联规则树匹配查询新样本所需的时间分别为 0. 022、0. 043、0. 038 和 0. 081 s，而采用关联规则逐条匹配查询所需时间分别为 0. 030、0. 100、0. 061 和 0. 209 s．可以看出，利用关联规则树匹配查询新样本输出类别所需的时间明显少于关联规则逐条匹配的查询方法． 2. 2 应用实例由于钢铁行业中中厚板生产过程复杂，影响产品质量的因素众多，本文提出采用定量关联规则树方法从中厚板生产过程数据中提取重要信息，发现它们与 · 988 ·

·890 工程科学学报，第38卷，第6期 0.25 0.5833 ☑关联规则树匹配查询 ☒关联规则逐条匹配查询 Then0.4687≤s≤0.5777， 0.20 31=-0.3265-4.4205×(Cr）-3.3825× 1w(H)+3.4450×w(Mo)+0.2379×w(Si)- 0.15 0.6286×0(S) 0.10 Rule2:f0.0945<Te≤0.1435，and0.4638< TnAe≤0.681l,and 0.05 0.1430<TAa≤0.1576，and0.4409< w(Mn)≤0.6929and Iris Wine Seed BreaslCancer 0.2667<e(0)≤0.3778，and0.0000< 数据集 w(Si)≤0.0580，and 图3关联规则查询效率对比 0.3229<心(S)≤0.4271， Fig.3 Comparison of query efficiency for association rule Then0.5913≤s2≤0.7275，产品质量的关联关系，最终实现中厚板质量的预测，为 s2=0.0111+16.1103Te-0.0397TA- 生产提供有价值的决策支持. 16.1699Ta=+0.1243×w(Mn)-0.9588× 通过数据预处理，最终确定中厚板的力学性能指 e(0)+0.4298×w(Si)-0.0316×w(S) 标一屈服度作为输出变量，其他15个重要变量作为影其中，T。为中厚板数据中的钢卷厚度，Tn为终轧响该质量指标的主要因素，分别为钢卷厚度、终轧温度温度平均值，T。为平均温度，w(Mn)为元素锰的质平均值、平均温度、铬、铜、碳、氢、锰、钼、镍、氮、氧、硅、量分数，w(0)为氧元素的质量分数，心(Si)为硅元素硫和钛的质量分数，并进一步实现离散化.在此基础的质量分数，w(S)为硫元素的质量分数，w(Cr)为铬上，首先利用上文提出的算法提取定量关联规则，并根元素的质量分数，心(H)为氢元素的质量分数，据定义6重构定量关联规则.针对关联规则前后件各心(Mo)为钼元素的质量分数，s,为第I条关联规则的项表示的各个维度的取值区间，获取前后件高斯隶属屈服度度函数.为了实现定量关联规则的精确推理预测，将 Rule2中0.0945<Te≤0.1435”表示输入变量Tc 数据按照输出类别划分训练数据，分别对每个规则后相关的1项集，0.5913≤s2≤0.7275表示输出变量屈件采用最小二乘算法估计线性表达式系数.此处仅列服强度相关的1项集. 出了两条中厚板定量关联规则：为了实现规则的快速匹配学习，根据上文的关联 Rule,:f0.8135<w(Cr)≤0.8645，and0.3333< 规则树的构建方法，第1遍扫描中厚板关联规则得到 w(H)≤0.6333，and 中厚板关联规则项头表如表2所示.接着用表2中的 0.5000<t(Mo)≤1.0000，and0.1530< 序号表示关联规则的各个项，再次扫描转化后的关联 w(Si)≤0.2296，and0.4479<w(S）≤ 规则，构建关联规则树，树中每个中间节点表示项头表表2中厚板关联规则树项头表 Table 2 Header table of association rule tree with plates 序号变量类别支持度重要度最小值最大值宽度 20 256 0.001577118 0 0.058047493 0.058047 2 18 1 240 0.002638180 0 0 0 3 14 3 208 0.000542179 0.165354331 0.283464567 0.015805 4 13 1 172 0.002591298 0 0 0 10 160 0.003019993 0.033898305 0.033898305 0 6 17 1 128 0.000579059 0 0.196078431 0.196078 … … … 子 23 2 280 0.305177112 0.455040872 0.0350094 23 3 183 0.468664850 0.5776566769 0.030269 30 23 5 31 0 0.291553134 0.291553 31 23 1 19 0.591280654 0.727520436 0.023767 32 23 15 0 0.058047493 0.058047

工程科学学报，第 38 卷，第 6 期图 3 关联规则查询效率对比 Fig． 3 Comparison of query efficiency for association rule 产品质量的关联关系，最终实现中厚板质量的预测，为生产提供有价值的决策支持．通过数据预处理，最终确定中厚板的力学性能指标—屈服度作为输出变量，其他 15 个重要变量作为影响该质量指标的主要因素，分别为钢卷厚度、终轧温度平均值、平均温度、铬、铜、碳、氢、锰、钼、镍、氮、氧、硅、硫和钛的质量分数，并进一步实现离散化．在此基础上，首先利用上文提出的算法提取定量关联规则，并根据定义 6 重构定量关联规则．针对关联规则前后件各项表示的各个维度的取值区间，获取前后件高斯隶属度函数．为了实现定量关联规则的精确推理预测，将数据按照输出类别划分训练数据，分别对每个规则后件采用最小二乘算法估计线性表达式系数．此处仅列出了两条中厚板定量关联规则: Ｒule1 : If 0. 8135 ＜ w( Cr) ≤0. 8645，and 0. 3333 ＜ w( H) ≤0. 6333，and 0. 5000 ＜ w( Mo) ≤1. 0000，and 0. 1530 ＜ w( Si) ≤0. 2296，and 0. 4479 ＜ w( S) ≤ 0. 5833 Then 0. 4687≤sy1≤0. 5777， sy1 = － 0. 3265 － 4. 4205 × w( Cr) － 3. 3825 × w( H) + 3. 4450 × w( Mo) + 0. 2379 × w( Si) － 0. 6286 × w( S) Ｒule2 : If 0. 0945 ＜ TC ≤ 0. 1435，and 0. 4638 ＜ TFt_Aver≤0. 6811，and 0. 1430 ＜ TAver ≤0. 1576，and 0. 4409 ＜ w( Mn) ≤0. 6929 and 0. 2667 ＜ w( O) ≤0. 3778，and 0. 0000 ＜ w( Si) ≤0. 0580，and 0. 3229 ＜ w( S) ≤0. 4271， Then 0. 5913≤sy2≤0. 7275， sy2 = 0. 0111 + 16. 1103TC － 0. 0397TFt_Aver － 16. 1699TAver + 0. 1243 × w ( Mn) － 0. 9588 × w( O) + 0. 4298 × w( Si) － 0. 0316 × w( S) 其中，TC 为中厚板数据中的钢卷厚度，TFt_Aver为终轧温度平均值，TAver为平均温度，w( Mn) 为元素锰的质量分数，w( O) 为氧元素的质量分数，w( Si) 为硅元素的质量分数，w( S) 为硫元素的质量分数，w( Cr) 为铬元素的质量分数，w ( H) 为氢元素的质量分数， w( Mo) 为钼元素的质量分数，syl为第 l 条关联规则的屈服度．Ｒule2 中“0. 0945 ＜ TC≤0. 1435”表示输入变量 TC 相关的 1-项集，0. 5913≤sy2≤0. 7275 表示输出变量屈服强度相关的 1-项集．为了实现规则的快速匹配学习，根据上文的关联规则树的构建方法，第 1 遍扫描中厚板关联规则得到中厚板关联规则项头表如表 2 所示．接着用表 2 中的序号表示关联规则的各个项，再次扫描转化后的关联规则，构建关联规则树，树中每个中间节点表示项头表表 2 中厚板关联规则树项头表 Table 2 Header table of association rule tree with plates 序号变量类别支持度重要度最小值最大值宽度 1 20 1 256 0. 001577118 0 0. 058047493 0. 058047 2 18 1 240 0. 002638180 0 0 0 3 14 3 208 0. 000542179 0. 165354331 0. 283464567 0. 015805 4 13 1 172 0. 002591298 0 0 0 5 10 3 160 0. 003019993 0. 033898305 0. 033898305 0 6 17 1 128 0. 000579059 0 0. 196078431 0. 196078 … … … … … … … … 28 23 2 280 — 0. 305177112 0. 455040872 0. 0350094 29 23 3 183 — 0. 468664850 0. 5776566769 0. 030269 30 23 5 31 — 0 0. 291553134 0. 291553 31 23 1 19 — 0. 591280654 0. 727520436 0. 023767 32 23 4 15 — 0 0. 058047493 0. 058047 · 098 ·

王玲等：基于定量关联规则树的分类及回归预测算法 891 对应的项，每个叶节点除了记录输出类别外还记录对条路径的叶节点是与输出相关变量的而且记录每条关应规则的置信度，以及关联规则后件线性表达式系数联规则的输出类别、关联规则后件线性表达式系数和通过构建中厚板关联规则树，实现中厚板质量影响因置信度.在规则匹配时，为了解决待预测新样本与多素之间的关联分析. 条规则相互匹配，难以确定输出类别的问题，将置信度图4显示生成的关联规则树结构.从图中可以看最高的叶节点所表示的输出类别作为新样本的预测输出，中厚板关联规则树共有八层节点，树中节点与中厚出，同时可以利用模糊推理实现对新样本输出值的精板关联规则树项头表中的序号所代表的项相对应，每确预测. )根节点 …(16 3 (9) (13 282828 图4中厚板关联规则树 Fig.4 Association rule tree of plates 选用1000个中厚板数据样本作为训练数据，用保证了较高的预测精度. 500个中厚板数据样本作为测试数据.为了对比本文从图5可以看出，在训练阶段，基于QART算法构提出的QART算法与其他预测方法，我们在中厚板数建的中厚板质量模型的对实际屈服度的拟合度较高，据集上分别用本文的方法、BP神经网络回、RBF圆、支在模型测试阶段虽然模型对测试样本的拟合度较训练持向量机回归模型切、CART模型图以及ANFIS模阶段稍稍降低，但仍有较好的拟合精度，由此可得出基型回进行预测，采用相同训练数据和测试数据得到模于QART算法构建的中厚板质量模型对轧钢产品质量型的训练和测试误差对比结果如表3所示预测以及对钢铁企业生产提供决策支持有着重要的表3模型误差对比作用. Table 3 Comparison of model erors 3结论算法训练误差测试误差 BP神经网络 0.2064 0.4439 根据现有关联规则挖掘方法应用于数值数据进行 RBF神经网络 0.2205 0.5753 分类及回归预测时存在的问题，提出基于定量关联规支持向量机回归模型 0.9760 0.8263 则树的分类及回归预测算法.为了验证算法性能及有 CART模型 1.1040 1.0745 效性，采用UCI基准数据库中ris、Wine、Seed以及 ANFIS模型 1.0423 1.0037 Breast Cancer数据集作为实验数据进行仿真，同时将 QART算法（本文） 0.1858 0.1989 该算法应用于实际轧钢生产过程的产品质量预测.结果表明，由于采用改进的定量关联规则算法挖掘数值从表3中可以看出，在训练阶段和测试阶段基于型数据生成关联规则库，减少了数据库扫描次数，提高 QART算法构建的中厚板质量模型时均方根误差仅为了算法效率；利用关联规则树结构，不仅加快了分类及 0.1858和0.1989，其预测模型性能均优于其他模型，回归预测的速度，而且提高了预测准确性

王玲等: 基于定量关联规则树的分类及回归预测算法对应的项，每个叶节点除了记录输出类别外还记录对应规则的置信度，以及关联规则后件线性表达式系数．通过构建中厚板关联规则树，实现中厚板质量影响因素之间的关联分析．图 4 显示生成的关联规则树结构．从图中可以看出，中厚板关联规则树共有八层节点，树中节点与中厚板关联规则树项头表中的序号所代表的项相对应，每条路径的叶节点是与输出相关变量的而且记录每条关联规则的输出类别、关联规则后件线性表达式系数和置信度．在规则匹配时，为了解决待预测新样本与多条规则相互匹配，难以确定输出类别的问题，将置信度最高的叶节点所表示的输出类别作为新样本的预测输出，同时可以利用模糊推理实现对新样本输出值的精确预测．图 4 中厚板关联规则树 Fig． 4 Association rule tree of plates 选用 1000 个中厚板数据样本作为训练数据，用 500 个中厚板数据样本作为测试数据．为了对比本文提出的 QAＲT 算法与其他预测方法，我们在中厚板数据集上分别用本文的方法、BP 神经网络［5］、ＲBF［6］、支持向量机回归模型［7］、CAＲT 模型［8］以及 ANFIS 模型［9］进行预测，采用相同训练数据和测试数据得到模型的训练和测试误差对比结果如表 3 所示．表 3 模型误差对比 Table 3 Comparison of model errors 算法训练误差测试误差 BP 神经网络 0. 2064 0. 4439 ＲBF 神经网络 0. 2205 0. 5753 支持向量机回归模型 0. 9760 0. 8263 CAＲT 模型 1. 1040 1. 0745 ANFIS 模型 1. 0423 1. 0037 QAＲT 算法( 本文) 0. 1858 0. 1989 从表 3 中可以看出，在训练阶段和测试阶段基于 QAＲT 算法构建的中厚板质量模型时均方根误差仅为 0. 1858 和 0. 1989，其预测模型性能均优于其他模型，保证了较高的预测精度．从图 5 可以看出，在训练阶段，基于 QAＲT 算法构建的中厚板质量模型的对实际屈服度的拟合度较高，在模型测试阶段虽然模型对测试样本的拟合度较训练阶段稍稍降低，但仍有较好的拟合精度，由此可得出基于 QAＲT 算法构建的中厚板质量模型对轧钢产品质量预测以及对钢铁企业生产提供决策支持有着重要的作用． 3 结论根据现有关联规则挖掘方法应用于数值数据进行分类及回归预测时存在的问题，提出基于定量关联规则树的分类及回归预测算法．为了验证算法性能及有效性，采用 UCI 基准数据库中 Iris、Wine、Seed 以及 Breast Cancer 数据集作为实验数据进行仿真，同时将该算法应用于实际轧钢生产过程的产品质量预测．结果表明，由于采用改进的定量关联规则算法挖掘数值型数据生成关联规则库，减少了数据库扫描次数，提高了算法效率; 利用关联规则树结构，不仅加快了分类及回归预测的速度，而且提高了预测准确性． · 198 ·

点击下载完整版文档（PDF格式）

已到末页，全文结束

点击下载（PDF格式）

浏览记录

基于定量关联规则树的分类及回归预测算法