工程科学学报，第 38 卷，第 6 期跳转到步骤 5．否则返回步骤 3

正在加载图片...

·888· 工程科学学报，第38卷，第6期跳转到步骤5.否则返回步骤3. cass=0.0151-0.0900x2+0.1694x3+0.4979x4 步骤5首先删除不包含输出变量的项集，然后 (3) 将各个频繁项集的输入变量作为规则前件（记为在扫描第1条关联规则时，由于当前关联规则树 A),将输出作为规则后件（记为B),计算规则的置信为空，所以第1条关联规则即为关联规则树的第1个度.此时无需再次扫描数据库，直接根据向量中记录分支，关联规则第1项成为关联规则树根节点的子节的项集支持度即可.保留置信度大于最小置信度阈点，其余各项沿着路径分支依次链接。继续扫描下一值min cof的项集，令关联规则前件为项集中所有输条关联规则，首先判断关联规则树第1层节点中是否入变量相关项，关联规则后件为输出变量相关项. 存在该条关联规则的第1项，如果存在则树中第1层为了实现分类和回归预测，在改进的定量关联规无需新增节点，反之亦然.依此类推，如果关联规则的则挖掘算法的基础上，对关联规则库进行重构.考虑第2项已经是关联规则树第1层节点的子节点，则关到规则存储的便捷，同时为了提高数据与规则匹配学联规则树第2层无需新增节点，否则需要新增节点. 习的效率，提出了一种关联规则树的构建方法，确保快当扫描到某条关联规则的最后一项（假设为该条规则速并准确地实现新数据的分类和回归预测. 第i项)时，在树的相应层（第i层）新增一个叶节点， 1.3关联规则树构建并在叶节点中记录这条关联规则的后件的输出类别、与频繁模式树构建方法不同，利用已形成的关联关联规则后件线性表达式系数和置信度.如此进行，规则的基础上构建关联规则树，无需扫描原始数据集，形成最终的关联规则树. 只需要扫描两遍关联规则库.主要分为以下两步. 表1lis数据集关联规则项头表第1遍扫描关联规则库生成项头表.计算各个 Table 1 Header table of association rules with Iris dataset 1-项集在关联规则库中的支持度，并按支持度降序的序号变量编码类别支持度重要度最小值最大值宽度顺序排序.将其中输入输出变量所含项集分别按其支 1 4 360.021.01.50.170106 持度的降序进行排序构成项头表的两部分，分别记为 4 4 0.020.1 0.30.056955 filist,filist-2.若两项的支持度相同，则按其重要度排 3 3 3 4 0.02 3.0 4.3 0.343608 序项，重要度定义如下式： 3 0.02 2.0 2.70.186982 Importance(I,)=∑ p(L,0) 5 3 2 2 0.02 0.116697 (2) 1.5 1.9 P (I)p(O) 6 002 1.0 1.40.108530 式中，！和O分别表示输入及输出变量的相关项集， 7 1.6 2.0 0.127210 ko表示输出变量的类别数.p(I,O)表示项集(I,O) 57 5.90.204978 在规则库中的支持度，p(I:)和p(O)分别表示项I:和 9 2.1 2.5 0.135571 0在规则库中的支持度 10 3.2 3.50.112706 以Iis数据集为例，表1给出了扫描关联规则库 0.02 4.4 5.10.245571 后生成的项头表.项头表记录着项变量及所属类别、 3 007 4.8 5 0.083095 支持度、项重要度、项变量某一类别的最大最小值、项 2 1 0.02 2.8 3.10.104878 变量某一类别的宽度（数据方差的平方根）.当有新的 14 0 2.0 2.00 预测样本时，可以根据项头表判断该数据的每个维度 1.0 1.00 是否与规则库中涉及的变量类别相匹配，实现新样本 16 5 3 0 3.0 3.00 的离散化. 第2遍扫描关联规则库构造关联规则树，用项头关联规则树构建算法：表中的序号来表示每个关联规则中对应的各个项.例步骤1第1次扫描关联规则库，统计规则库中如表1中变量为4且类别为3的项对应项头表中的序每个项的支持度，将有关输入输出变量的项分别按支号为1，因此可以用序号1来表示这一项.按照此方法持度和重要度进行降序排序作为项头表的两部分，并将所有关联规则中的项转化为各个项集的序号.例如合并为最终的项头表. 一条关联规则如式(3)所示（其中x,中i为变量编码），步骤2因为关联规则中的每一项与项头表中转换得到表达形式为“1and3and4==>14” 的记录一一对应，再次扫描关联规则库时，用项头表 f2≤x2≤2.7，and3≤x3≤4.3，中项的序号表示原始关联规则.初始创建规则树是 and1≤x.≤1.5，空树，没有节点（记为T).假设pIP]是其中一条关 Then class is 2, 联规则ule,p即为rule的第1项，P为rule的剩余工程科学学报，第 38 卷，第 6 期跳转到步骤 5．否则返回步骤 3．步骤 5 首先删除不包含输出变量的项集，然后将各个频繁项集的输入变量作为规则前件 ( 记为 A) ，将输出作为规则后件( 记为 B) ，计算规则的置信度．此时无需再次扫描数据库，直接根据向量中记录的项集支持度即可．保留置信度大于最小置信度阈值min cof的项集，令关联规则前件为项集中所有输入变量相关项，关联规则后件为输出变量相关项．为了实现分类和回归预测，在改进的定量关联规则挖掘算法的基础上，对关联规则库进行重构．考虑到规则存储的便捷，同时为了提高数据与规则匹配学习的效率，提出了一种关联规则树的构建方法，确保快速并准确地实现新数据的分类和回归预测． 1. 3 关联规则树构建与频繁模式树构建方法不同，利用已形成的关联规则的基础上构建关联规则树，无需扫描原始数据集，只需要扫描两遍关联规则库．主要分为以下两步．第 1 遍扫描关联规则库生成项头表．计算各个 1-项集在关联规则库中的支持度，并按支持度降序的顺序排序．将其中输入输出变量所含项集分别按其支持度的降序进行排序构成项头表的两部分，分别记为 filist-1，filist-2．若两项的支持度相同，则按其重要度排序．项 Ii 重要度定义如下式: Importance( Ii ) = ∑ kO j = 1 p( Ii，Oj ) p( Ii ) p( Oj ) ． ( 2) 式中，Ij 和 Oj 分别表示输入及输出变量的相关项集， kO 表示输出变量的类别数． p( Ii，Oj) 表示项集( Ii，Oj) 在规则库中的支持度，p( Ii ) 和 p( Oj) 分别表示项 Ii 和 Oj 在规则库中的支持度．以 Iris 数据集为例，表 1 给出了扫描关联规则库后生成的项头表．项头表记录着项变量及所属类别、支持度、项重要度、项变量某一类别的最大最小值、项变量某一类别的宽度( 数据方差的平方根) ．当有新的预测样本时，可以根据项头表判断该数据的每个维度是否与规则库中涉及的变量类别相匹配，实现新样本的离散化．第 2 遍扫描关联规则库构造关联规则树，用项头表中的序号来表示每个关联规则中对应的各个项．例如表 1 中变量为 4 且类别为 3 的项对应项头表中的序号为 1，因此可以用序号 1 来表示这一项．按照此方法将所有关联规则中的项转化为各个项集的序号．例如一条关联规则如式( 3) 所示( 其中 xi中 i 为变量编码) ，转换得到表达形式为“1 and 3 and 4 = = ＞ 14”． If 2≤x2≤2. 7，and 3≤x3≤4. 3， and 1≤x4≤1. 5， Then class is 2， class = 0. 0151 － 0. 0900x2 + 0. 1694x3 + 0. 4979x4 ( 3) 在扫描第 1 条关联规则时，由于当前关联规则树为空，所以第 1 条关联规则即为关联规则树的第 1 个分支，关联规则第 1 项成为关联规则树根节点的子节点，其余各项沿着路径分支依次链接．继续扫描下一条关联规则，首先判断关联规则树第 1 层节点中是否存在该条关联规则的第 1 项，如果存在则树中第 1 层无需新增节点，反之亦然．依此类推，如果关联规则的第 2 项已经是关联规则树第 1 层节点的子节点，则关联规则树第 2 层无需新增节点，否则需要新增节点．当扫描到某条关联规则的最后一项( 假设为该条规则第 i 项) 时，在树的相应层( 第 i 层) 新增一个叶节点，并在叶节点中记录这条关联规则的后件的输出类别、关联规则后件线性表达式系数和置信度．如此进行，形成最终的关联规则树．表 1 Iris 数据集关联规则项头表 Table 1 Header table of association rules with Iris dataset 序号变量编码类别支持度重要度最小值最大值宽度 1 4 3 6 0. 02 1. 0 1. 5 0. 170106 2 4 1 4 0. 02 0. 1 0. 3 0. 056955 3 3 3 4 0. 02 3. 0 4. 3 0. 343608 4 2 1 3 0. 02 2. 0 2. 7 0. 186982 5 3 2 2 0. 02 1. 5 1. 9 0. 116697 6 3 1 2 0. 02 1. 0 1. 4 0. 108530 7 4 4 1 0. 02 1. 6 2. 0 0. 127210 8 3 5 1 0. 02 5. 2 5. 9 0. 204978 9 4 5 1 0. 02 2. 1 2. 5 0. 135571 10 2 3 1 0. 02 3. 2 3. 5 0. 112706 11 3 4 1 0. 02 4. 4 5. 1 0. 245571 12 1 3 1 0. 02 4. 8 5 0. 083095 13 2 2 1 0. 02 2. 8 3. 1 0. 104878 14 5 2 8 0 2. 0 2. 0 0 15 5 1 7 0 1. 0 1. 0 0 16 5 3 3 0 3. 0 3. 0 0 关联规则树构建算法: 步骤 1 第 1 次扫描关联规则库，统计规则库中每个项的支持度，将有关输入输出变量的项分别按支持度和重要度进行降序排序作为项头表的两部分，并合并为最终的项头表．步骤 2 因为关联规则中的每一项与项头表中的记录一一对应，再次扫描关联规则库时，用项头表中项的序号表示原始关联规则．初始创建规则树是空树，没有节点( 记为 T) ．假设［p | P］是其中一条关联规则 rule，p 即为 rule 的第 1 项，P 为 rule 的剩余 · 888 ·

<<向上翻页向下翻页>>

点击下载：基于定量关联规则树的分类及回归预测算法