【人工智能基础】基于可决系数的自适应关联规则挖掘算法

团购合买资源类别：文库，文档格式：PDF，文档页数：8，文件大小：1.36MB

第15卷第2期智能系统学报 Vol.15 No.2 2020年3月 CAAI Transactions on Intelligent Systems Mar.2020 D0:10.11992/tis.201809030 网络出版地址：http:/kns.cnki.net/kcms/detail/23.1538.TP.20190513.1210.002.html 基于可决系数的自适应关联规则挖掘算法王雪平，林甲祥，巫建伟2，高敏节 (1.福建农林大学计算机与信息学院，福建福州350002：2.自然资源部第三海洋研究所，福建厦门361001) 摘要：针对以频繁项集产生-规则产生为核心的两阶段关联规则挖掘，存在需要人工以先验知识指定最小支持度和最小置信度阈值的缺陷。本文提出以支持数和置信度为依据，采用曲线拟合技术，根据可决系数自动确定曲线的次数及对应多项式的算法AARM_BR(Adaptation Association Rule Mining Based on Determination Coeffi- cient R),从而确定支持度和置信度阈值。在标准数据集Trolley和Groceries上进行关联规则挖掘实验，结果表明本算法更具有数据依赖性，在用户不具备先验知识的情况下，无须人为指定多项式阶次、支持度和置信度阈值的优点。关键词：关联规则；阶次；自适应；可决系数：规则；支持度；置信度：曲线拟合；多项式；数据挖掘中图分类号：TP391 文献标志码：A 文章编号：1673-4785(2020)02-0352-08 中文引用格式：王雪平，林甲样，巫建伟，等.基于可决系数的自适应关联规则挖掘算法.智能系统学报，2020,15(2)： 352-359. 英文引用格式：VANG Xueping,LIN Jiaxiang,.U Jianwei,et al.Adaptive-association-rule mining algorithm based on determina- tion coefficientJ].CAAI transactions on intelligent systems,2020,15(2):352-359. Adaptive-association-rule mining algorithm based on determination coefficient WANG Xueping',LIN Jiaxiang',WU Jianwei,GAO Minjie' (1.College of Computer and Information Sciences,Fujian Agriculture and Forestry University,Fuzhou 350002,China;2.Third Insti- tute of Oceanography,Ministry of Natural Resources,Xiamen 361001,China) Abstract:The two-stage association-rule-mining algorithm based on the frequent item set generation and rule genera- tion requires the manual assigning of minimum support and minimum confidence.To overcome this defect,this paper proposes a new method using the curve fitting technology based on the number of supports and confidence,in which the number of the order of curve and corresponding polynomial is automatically determined by a determination coefficient, which is called "adaptation association rule mining based on the determination coefficient R(AARM BR).As the pro- posed AARM_BR method is driven by data,the thresholds of support and confi-dence can be automatically obtained. The experiments on two standard datasets Trolley and Groceries show that compared with a recently published method, the proposed method is more data-dependent and automatically determines the number of order of polynomial and the threshold of support and confidence under the circumstance of not having a priori knowledge. Keywords:association rule;order,adaptive;coefficient of determination;rule;support;confidence;curve fitting;poly- nomial;data mining 收稿日期：2018-09-15.网络出版日期：2019-05-14. 关联规则挖掘是数据挖掘研究领域重要任务基金项目：国家自然科学基金项目(41401458)：福建省自然科之一，目标就是从事务数据集中发现隐藏的、有学基金项目(2018J01644,2018J01645,2016J01753) 中国-东盟海上合作基金项目(2020399)：国家海洋意义的联系，目前已广泛应用于购物篮分析、网局第三海洋研究所项目(2016020)：福建省中青年教师教育科研项目(JT180129). 络入侵检测、关联规则分类、交通事故模式分析、通信作者：王雪平，E-mail:熙gfvgu@163.com 药物成分关联分析、病人症型判断等领域。常

DOI: 10.11992/tis.201809030 网络出版地址: http://kns.cnki.net/kcms/detail/23.1538.TP.20190513.1210.002.html 基于可决系数的自适应关联规则挖掘算法王雪平1 ，林甲祥1 ，巫建伟2 ，高敏节1 （1. 福建农林大学计算机与信息学院，福建福州 350002; 2. 自然资源部第三海洋研究所，福建厦门 361001）摘要：针对以频繁项集产生−规则产生为核心的两阶段关联规则挖掘，存在需要人工以先验知识指定最小支持度和最小置信度阈值的缺陷。本文提出以支持数和置信度为依据，采用曲线拟合技术，根据可决系数自动确定曲线的次数及对应多项式的算法 AARM_BR(Adaptation Association Rule Mining Based on Determination Coefficient R2 )，从而确定支持度和置信度阈值。在标准数据集 Trolley 和 Groceries 上进行关联规则挖掘实验，结果表明本算法更具有数据依赖性，在用户不具备先验知识的情况下，无须人为指定多项式阶次、支持度和置信度阈值的优点。关键词：关联规则；阶次；自适应；可决系数；规则；支持度；置信度；曲线拟合；多项式；数据挖掘中图分类号：TP391 文献标志码：A 文章编号：1673−4785(2020)02−0352−08 中文引用格式：王雪平, 林甲祥, 巫建伟, 等. 基于可决系数的自适应关联规则挖掘算法 [J]. 智能系统学报, 2020, 15(2): 352–359. 英文引用格式：WANG Xueping, LIN Jiaxiang, WU Jianwei, et al. Adaptive-association-rule mining algorithm based on determination coefficient[J]. CAAI transactions on intelligent systems, 2020, 15(2): 352–359. Adaptive-association-rule mining algorithm based on determination coefficient WANG Xueping1 ，LIN Jiaxiang1 ，WU Jianwei2 ，GAO Minjie1 (1. College of Computer and Information Sciences, Fujian Agriculture and Forestry University, Fuzhou 350002, China; 2. Third Institute of Oceanography, Ministry of Natural Resources, Xiamen 361001, China) Abstract: The two-stage association-rule-mining algorithm based on the frequent item set generation and rule generation requires the manual assigning of minimum support and minimum confidence. To overcome this defect, this paper proposes a new method using the curve fitting technology based on the number of supports and confidence, in which the number of the order of curve and corresponding polynomial is automatically determined by a determination coefficient, which is called “adaptation association rule mining based on the determination coefficient R2 ” (AARM_BR). As the proposed AARM_BR method is driven by data, the thresholds of support and confi-dence can be automatically obtained. The experiments on two standard datasets Trolley and Groceries show that compared with a recently published method, the proposed method is more data-dependent and automatically determines the number of order of polynomial and the threshold of support and confidence under the circumstance of not having a priori knowledge. Keywords: association rule; order; adaptive; coefficient of determination; rule; support; confidence; curve fitting; polynomial; data mining 关联规则挖掘是数据挖掘研究领域重要任务之一，目标就是从事务数据集中发现隐藏的、有意义的联系，目前已广泛应用于购物篮分析、网络入侵检测、关联规则分类、交通事故模式分析、药物成分关联分析、病人症型判断等领域[1-3]。常收稿日期：2018−09−15. 网络出版日期：2019−05−14. 基金项目：国家自然科学基金项目 (41401458)；福建省自然科学基金项目 (2018J01644，2018J01645，2016J01753)；中国−东盟海上合作基金项目 (2020399)；国家海洋局第三海洋研究所项目 (2016020)；福建省中青年教师教育科研项目 (JT180129). 通信作者：王雪平，E-mail：gggfvgu@163.com. 第 15 卷第 2 期智能系统学报 Vol.15 No.2 2020 年 3 月 CAAI Transactions on Intelligent Systems Mar. 2020

第2期王雪平，等：基于可决系数的自适应关联规则挖掘算法 ·353· 用关联规则算法有Apriori、FP-Growth、Magnu- 种最小相关度优化PNARC算法的审计数据关联 mOpus、Closet等，，其中最常用也是最经典的挖规则挖掘模型，提高负关联规则的程度，减少不掘算法是Apriori算法。相关的关联规则，然后对最小相关度进行概率分为了挖取规模合适的规则，大部分关联规则析，降低无关规则的产生几率。董博等©针对传算法执行前需用户设置两个阈值：最小支持度和统关联规则挖掘方法存在计算冗余度过高的问最小置信度，以期找到所有超过用户设定阈值的题，提出一种后处理闭包算子最小单约束的关联规则。因此，用户必须具备一定的先验知识才能规则算法有效降低算法冗余计算，提高算法计算寻找到合适的最小支持度和最小置信度以便获得效率。Li等山提出了一种新的联想分类器Sg 有应用价值的规则。但在实际应用过程中，)不 Direct,利用Fisher的精确检验作为一种剪枝策同领域数据差异较大，导致算法在不同的数据集略，直接挖掘分类关联规则。在没有最小支持度中设置的最小支持数和最小置信度存在较大差和最小置信度等阈值设置的情况下，SigDirect能异，没有一个统一的标准；2)存在许多非专业用够找到非冗余的分类关联规则，这些规则在一组户，对算法参数的取值具有较大的随意性。因此先前项和随后的类标签之间表现出统计上的显著如何利用数据集本身的特性自动确定阈值而无须依赖性。还有一些学者提出利用智能技术进行关先验知识是一个很有意义且亟待解决的问题。本联规则挖掘，而无需设置最小支持度和最小置信文针对这一问题提出基于可决系数的自适应关联度，如Qodmanan等利用多目标遗传算法进行规则挖掘算法，依据待挖掘数据集中所有项的支 FP-Tree模式关联规则挖掘，Sarath等l提出使用持数和所有规则的置信度的数据分布特性，采用二进制粒子群优化策略，吴琼等针对量化关联曲线拟合技术，根据可决系数自动确定拟合多项规则的特点，提出基于多目标烟花算法全面搜索式，并在此基础上自动确定具有数据统计依赖意关联规则，Anping等提出了基于Pareto的多目义的最小支持度和置信度，使其关联规则挖掘的标二进制BAT算法(MBBA)。Can等I提出利用应用门槛降低。引力搜索算法(GSA)进行数值型关联规则挖掘。这些基于智能技术，通过搜索全域空间，无须设 1相关研究置最小支持度和最小置信度参数即可获取支持度针对上述所提的参数阈值设置方面问题，在最好、置信度最高的强关联规则，存在着需要很过去的十多年中，研究者们从不同角度提出了一大计算量的问题。另一角度是利用数据内在的某些解决方法。一种角度是优化参数或减少参数的些特性确定参数的方法。如王志愿等刃提出根方法。例如，Scheffer提出的预测Apriori算法据项集内部的语义相关度动态确定该项集的最小它自动解决了最小支持度和最小置信度这两个参支持度，并采用了项集语义相关度的增量计算方数之间的平衡问题，最大限度地提高了对数据集法。实验结果表明，DS-Apriori算法在很大程度进行精确预测的可能性。该算法利用贝叶斯方法上提高了关联规则挖掘算法的效率和效果。Saurav 计算了一个称为精确期望预测精度的参数，以实等1)提出了一种基于动态阈值的FP生长规则挖现精确的预测，从而提供规则的精确性信息。最掘算法，该算法将基于加权最短距离的基因表后的结果表明，预测Aprio算法的性能优于使用达、甲基化和蛋白-蛋白质相互作用剖面结合起增量因子的Apriori型算法。A-Magaleh等提出来，在多视点数据集中寻找不同基因对之间的新了一种有效的置信度综合算法，在挖掘频繁项集关联，该方法主要优点之一是它考虑了属于每个的过程中生成了真正有用的规则。吴瑞华等提规则的所有成对基因之间的定量和交互意义。与出了一种多重支持度关联规则挖掘算法，根据不以往的方法相比，该算法生成的规则更少，运行同数据项的特点定义多重支持度，通过挖掘数据时间也更短，并且为得到的顶级规则提供了更大库中的最大频繁项目集，计算最大频繁候选项目的生物学意义，但该方法是基于生物学基础的统集在数据库中的支持度来发现关联规则，可解决计，缺乏通用性。Jitendra等u9提出了一种基于项关联规则中经常出现的稀少数据项问题。陈柳等网集范围和相关系数的关联规则集粒子群算法提出了一个结合项集相关性的两级置信度阈值设 SARIC,该算法能快速、客观地自动确定支持度和置方法(PNMC-TWO),该方法不仅可以更好地确置信度。林甲祥等20提出一种新的自动确定支保提取出的关联规则有效和有趣，还可以显著地持度和置信度阈值的方法，该方法采用数据分布降低可信度低的关联规则数。于海燕提出了一特性进行曲线拟合确定阈值，为算法的更广泛合

用关联规则算法有 Apriori、FP-Growth、MagnumOpus、Closet 等 [1, 4] ，其中最常用也是最经典的挖掘算法是 Apriori 算法。为了挖取规模合适的规则，大部分关联规则算法执行前需用户设置两个阈值：最小支持度和最小置信度，以期找到所有超过用户设定阈值的规则。因此，用户必须具备一定的先验知识才能寻找到合适的最小支持度和最小置信度以便获得有应用价值的规则。但在实际应用过程中，1) 不同领域数据差异较大，导致算法在不同的数据集中设置的最小支持数和最小置信度存在较大差异，没有一个统一的标准；2) 存在许多非专业用户，对算法参数的取值具有较大的随意性。因此如何利用数据集本身的特性自动确定阈值而无须先验知识是一个很有意义且亟待解决的问题。本文针对这一问题提出基于可决系数的自适应关联规则挖掘算法，依据待挖掘数据集中所有项的支持数和所有规则的置信度的数据分布特性，采用曲线拟合技术，根据可决系数自动确定拟合多项式，并在此基础上自动确定具有数据统计依赖意义的最小支持度和置信度，使其关联规则挖掘的应用门槛降低。 1 相关研究针对上述所提的参数阈值设置方面问题，在过去的十多年中，研究者们从不同角度提出了一些解决方法。一种角度是优化参数或减少参数的方法。例如，Scheffer 提出的预测 Apriori 算法[5] ，它自动解决了最小支持度和最小置信度这两个参数之间的平衡问题，最大限度地提高了对数据集进行精确预测的可能性。该算法利用贝叶斯方法计算了一个称为精确期望预测精度的参数，以实现精确的预测，从而提供规则的精确性信息。最后的结果表明，预测 Apriori 算法的性能优于使用增量因子的 Apriori 型算法。AI-Maqaleh 等 [6] 提出了一种有效的置信度综合算法，在挖掘频繁项集的过程中生成了真正有用的规则。吴瑞华等[7] 提出了一种多重支持度关联规则挖掘算法，根据不同数据项的特点定义多重支持度，通过挖掘数据库中的最大频繁项目集，计算最大频繁候选项目集在数据库中的支持度来发现关联规则，可解决关联规则中经常出现的稀少数据项问题。陈柳等[8] 提出了一个结合项集相关性的两级置信度阈值设置方法 (PNMC-TWO)，该方法不仅可以更好地确保提取出的关联规则有效和有趣,还可以显著地降低可信度低的关联规则数。于海燕[9] 提出了一种最小相关度优化 PNARC 算法的审计数据关联规则挖掘模型，提高负关联规则的程度，减少不相关的关联规则，然后对最小相关度进行概率分析，降低无关规则的产生几率。董博等[10] 针对传统关联规则挖掘方法存在计算冗余度过高的问题，提出一种后处理闭包算子最小单约束的关联规则算法有效降低算法冗余计算，提高算法计算效率。Li 等 [11] 提出了一种新的联想分类器 SigDirect，利用 Fisher 的精确检验作为一种剪枝策略，直接挖掘分类关联规则。在没有最小支持度和最小置信度等阈值设置的情况下，SigDirect 能够找到非冗余的分类关联规则，这些规则在一组先前项和随后的类标签之间表现出统计上的显著依赖性。还有一些学者提出利用智能技术进行关联规则挖掘，而无需设置最小支持度和最小置信度，如 Qodmanan 等 [12] 利用多目标遗传算法进行 FP-Tree 模式关联规则挖掘，Sarath 等 [13] 提出使用二进制粒子群优化策略，吴琼等[14] 针对量化关联规则的特点，提出基于多目标烟花算法全面搜索关联规则，Anping 等 [15] 提出了基于 Pareto 的多目标二进制 BAT 算法 (MBBA)。Can 等 [16] 提出利用引力搜索算法 (GSA) 进行数值型关联规则挖掘。这些基于智能技术，通过搜索全域空间，无须设置最小支持度和最小置信度参数即可获取支持度最好、置信度最高的强关联规则，存在着需要很大计算量的问题。另一角度是利用数据内在的某些特性确定参数的方法。如王志愿等[17] 提出根据项集内部的语义相关度动态确定该项集的最小支持度，并采用了项集语义相关度的增量计算方法。实验结果表明，DS-Apriori 算法在很大程度上提高了关联规则挖掘算法的效率和效果。Saurav 等 [18] 提出了一种基于动态阈值的 FP-生长规则挖掘算法，该算法将基于加权最短距离的基因表达、甲基化和蛋白−蛋白质相互作用剖面结合起来，在多视点数据集中寻找不同基因对之间的新关联，该方法主要优点之一是它考虑了属于每个规则的所有成对基因之间的定量和交互意义。与以往的方法相比，该算法生成的规则更少，运行时间也更短，并且为得到的顶级规则提供了更大的生物学意义，但该方法是基于生物学基础的统计，缺乏通用性。Jitendra 等 [19] 提出了一种基于项集范围和相关系数的关联规则集粒子群算法 SARIC，该算法能快速、客观地自动确定支持度和置信度。林甲祥等[20] 提出一种新的自动确定支持度和置信度阈值的方法，该方法采用数据分布特性进行曲线拟合确定阈值，为算法的更广泛合第 2 期王雪平，等：基于可决系数的自适应关联规则挖掘算法 ·353·

·354· 智能系统学报第15卷理应用提供了可能。但该方法对数据拟合时采用础，在文献[20]所提基于自适应支持度和置信度固定阶次的多项式拟合方式，实际应用中不同的的基础上进一步改进，提出一种基于可决系数的数据往往需要采用不同阶次的多项式拟合。自适应关联规则挖掘算法AARM BR,该算法为因此，在文献[20]基础上提出一种多项式曲进一步确定更具统计意义的支持度和置信度阈值线拟合的阶次自动确定算法AARM BR(Adapta- 提供可能。文献[20]提出一种支持度和置信度自 tion Association Rule Mining Based on Determination 适应的无参化关联规则挖掘算法AdapARM,该算 Coefficient R),为进一步自动确定支持度和置信法是通过数学方法，拟合频繁项集支持数和规则度阈值提供更具有数据统计依赖意义的基础。置信度数据的曲线及其二阶导函数，确定数理意义上最适合的数值作为关联规则挖掘的minCount 2概念术语和minConf阈值。该文提出的自适应方法很有应定义1D是一个事务数据集，其中每个事用价值，但文中求取自适应支持度和自适应置信务T是由一系列具有唯一标识TD的项目组成的度时采用的拟合多项式是固定次数多项式。本文项集。令={i,2,,im}是事务数据集D中所有提出基于可决系数的自适应k次多项式拟合方项的集合，每个事务T对应1上的一个子集，即法，多项式次数k根据自动拟合精度确定，最后以 T,T可表示为T={t,2,,1},,eL,n为自然数此自适应确定最小支持度和置信度阈值。 (n≤m),表示事务T项集所含的项数。包含k个 3.1自适应k次多项式项的项集，称为k项集。首先，根据事务数据集D中各项的支持数或定义2项集X的支持度计数(nup(X)是指某个关联规则集的置信度，按从大到小顺序排序事务数据集D中包含项集X的事务个数。若项并建立“序-值”队列，如式(1)所示。其中，V,代集XcL,YsL,且XnY=中，则形如X=Y的蕴涵式称表某个项在事务数据集D中的支持数或某个规为关联规则。令事务数据集D中事务总个数为则的置信度。对于支持数，序对的个数1等于事 hot。规则X-Y的支持度Support(X=)是指事务务数据集D中项的个数：而对于置信度，1等于所数据集D中同时出现X,Y的事务占事务数据库产生的所有规则数目。的百分比；规则X=Y的置信度Confidence(X-) {(序列值，序号)》={y,x)》={(V,1),(V2,2),…,(V,} 是指事务数据集中同时出现X,Y的事务数与包 (1) 含X的事务数之比。其计算表达式分别为然后，以“序一值”队列中的序号为x,序列值 Support(X=Y)=amn(X UY) 为y建立有序的平面坐标点序列(x,y)(=1, 2,…,)。并采用k次多项式进行曲线拟合。拟合 Confidence(X→)="pXUy 的多项式曲线模型为几aal 定义3最小支持度minSup和最小置信度 y=fx)=】 minConf是用户或专家定义的分别衡量支持度和式中：k的取值根据自适应实现，从2次开始，每置信度的两个阈值。最小支持数(minCount)是指次递增1，求取对应多项式并判断曲线拟合程度，某个项集X为达到最小支持度在事务数据集中至少应出现的次数，等于最小支持度minSup乘于所本算法中选取可决系数判断曲线的拟合程度。有事务数：频繁项集是指支持度不小于最小支持可决系数衡量因变量与自变量关系密切程度的度minSup的项集；所谓强关联规则就是指满足最指标，取值范围在[0,1]之间，越大代表曲线拟小支持度minSup和最小置信度minConf的关联合越好。规则。本算法拟合结束以相邻两阶可决系数的差通常地，给定一个数据库D,挖掘关联规则的小于某个值（设为Rend)为终止条件，Rend由用过程可以转换成寻找满足最小支持度minSup和户指定。多项式次数取拟合结束时的k值。自话最小置信度minConf阈值的强关联规则过程，即应k次拟合多项式算法的具体流程如图1所示，分解成求解所有频繁项集和由频繁项集产生规则流程中Rend取0.05。两阶段实现。然后，根据确定的k次多项式求取拟合曲线的二阶导数f"(x): 3 AARM BR的设计与实现 y=f(=i-1)a2 以最经典的关联规则挖掘算法Apriori为基

理应用提供了可能。但该方法对数据拟合时采用固定阶次的多项式拟合方式，实际应用中不同的数据往往需要采用不同阶次的多项式拟合。因此，在文献 [20] 基础上提出一种多项式曲线拟合的阶次自动确定算法 AARM_BR(Adaptation Association Rule Mining Based on Determination Coefficient R2 )，为进一步自动确定支持度和置信度阈值提供更具有数据统计依赖意义的基础。 2 概念术语 ⊆ 定义 1 D 是一个事务数据集，其中每个事务 T 是由一系列具有唯一标识 TID 的项目组成的项集。令 I={i1，i2，···，im}是事务数据集 D 中所有项的集合，每个事务 T 对应 I 上的一个子集，即 T I，T 可表示为 T={t1，t2，···，tn}，ti∈I，n 为自然数 (n≤m)，表示事务 T 项集所含的项数。包含 k 个项的项集，称为 k-项集。 ⊆ ⊆ ⇒ ⇒ ⇒ ⇒ ⇒ 定义 2 项集 X 的支持度计数 (nsup(X)) 是指事务数据集 D 中包含项集 X 的事务个数。若项集 X I，Y I，且 X∩Y=Φ，则形如 X Y 的蕴涵式称为关联规则。令事务数据集 D 中事务总个数为 ntotal。规则 X Y 的支持度 Support(X Y) 是指事务数据集 D 中同时出现 X，Y 的事务占事务数据库的百分比；规则 X Y 的置信度 Confidence(X Y) 是指事务数据集中同时出现 X，Y 的事务数与包含 X 的事务数之比。其计算表达式分别为 Support(X ⇒ Y) = nsup(X U Y) ntatal Confidence(X ⇒ Y) = nsup(X U Y) ntatal 定义 3 最小支持度 minSup 和最小置信度 minConf 是用户或专家定义的分别衡量支持度和置信度的两个阈值。最小支持数 (minCount) 是指某个项集 X 为达到最小支持度在事务数据集中至少应出现的次数，等于最小支持度 minSup 乘于所有事务数；频繁项集是指支持度不小于最小支持度 minSup 的项集；所谓强关联规则就是指满足最小支持度 minSup 和最小置信度 minConf 的关联规则。通常地，给定一个数据库 D，挖掘关联规则的过程可以转换成寻找满足最小支持度 minSup 和最小置信度 minConf 阈值的强关联规则过程，即分解成求解所有频繁项集和由频繁项集产生规则两阶段实现。 3 AARM_BR 的设计与实现以最经典的关联规则挖掘算法 Apriori 为基础，在文献 [20] 所提基于自适应支持度和置信度的基础上进一步改进，提出一种基于可决系数的自适应关联规则挖掘算法 AARM_BR，该算法为进一步确定更具统计意义的支持度和置信度阈值提供可能。文献 [20] 提出一种支持度和置信度自适应的无参化关联规则挖掘算法 AdapARM，该算法是通过数学方法，拟合频繁项集支持数和规则置信度数据的曲线及其二阶导函数，确定数理意义上最适合的数值作为关联规则挖掘的 minCount 和 minConf 阈值。该文提出的自适应方法很有应用价值，但文中求取自适应支持度和自适应置信度时采用的拟合多项式是固定次数多项式。本文提出基于可决系数的自适应 k 次多项式拟合方法，多项式次数 k 根据自动拟合精度确定，最后以此自适应确定最小支持度和置信度阈值。 3.1 自适应 k 次多项式首先，根据事务数据集 D 中各项的支持数或某个关联规则集的置信度，按从大到小顺序排序并建立“序−值”队列，如式 (1) 所示。其中，Vt 代表某个项在事务数据集 D 中的支持数或某个规则的置信度。对于支持数，序对的个数 t 等于事务数据集 D 中项的个数；而对于置信度，t 等于所产生的所有规则数目。 {(序列值,序号)} = {(y, x)} = {(V1,1),(V2,2),··· ,(Vt ,t)} (1) 然后，以“序−值”队列中的序号为 x，序列值为 y 建立有序的平面坐标点序列 ( x i， y i )(i=1， 2，···，t)。并采用 k 次多项式进行曲线拟合。拟合的多项式曲线模型为 y = f(x) = ∑k i=0 aix j R 2 k R 2 k R 2 k 式中：k 的取值根据自适应实现，从 2 次开始，每次递增 1，求取对应多项式并判断曲线拟合程度，本算法中选取可决系数判断曲线的拟合程度。可决系数衡量因变量与自变量关系密切程度的指标，取值范围在 [0，1] 之间，越大代表曲线拟合越好。 R 2 本算法拟合结束以相邻两阶可决系数 k的差小于某个值 (设为 Rend) 为终止条件，Rend 由用户指定。多项式次数取拟合结束时的 k 值。自适应 k 次拟合多项式算法的具体流程如图 1 所示，流程中 Rend 取 0.05。 f ′′ (x) 然后，根据确定的 k 次多项式求取拟合曲线的二阶导数： y ′′ = f ′′(x) = ∑t i=2 i·(i−1)· ai · x i−2 ·354· 智能系统学报第 15 卷

第2期王雪平，等：基于可决系数的自适应关联规则挖掘算法 ·355· 开始输入事务数据集D,拟合结束条件Rend 输出所有强规则SR,SR={SR1,SR2,, 初始化=l,R=0,Rend=0.05 SR,} 1)C=find candidate 1-itemsets(D); 从大到小排列支持数/置信度 2)C'=sort_InDescOrder((C)/降序排序 ∥自适应确定多项式拟合曲线的次数k =k+1 3)k=find_k_polynomial_curve_fitting(C); 产生支持数k次多项式，创建次多项式进行曲线拟合，并计算阳 4)fx)=polynomial_curve_fitting(Ci,k); 5)find xo,where f"((xo)=0; Ri-Ri>Rend 6)minCount=int(xo),/∥xo下取整并赋给min- N Count; 7)(L,L2,,La)=find_all_frequent_k- 求k次多项式的二阶导，确定最小支持数 (minCount)/最小置信度(minConf) itemsets(D,minCount); 8){R1,R2,,R,)=generateRule_from_ 结束 frequent_k-itemsets((L,L2,,L,l/对所有规则按置信度降序排序；图1自适应k次拟合多项式流程 9)R'=sort InDescOrder(R,R2,·,R,∥自适应 Fig.1 The flow of adaptive k-order fitting polynomial 确定多项式拟合曲线的次数k 最后，求解拟合曲线中二阶导数f(x)=0的 10)k=find_k_polynomial_curve_fitting(R'); 点（记xo)及对应的函数值x,x下取整作为最产生k次多项式小支持数阈值minCount,.xo)作为最小置信度阈 11)h(x)=polynomial curve fitting(R,k); 值minConf。 12)find xo,where h"(xo)-0; 3.2 AARM BR算法实现 13)minConf=hx,/得到最小置信度；基于可决系数自适应阶次的多项式曲线拟合 14)(SR,SR2,,SR,)=find_strong_rules((R, 模型下确定最小支持数和置信度阈值的关联规则 R2,,R),minConf); 挖掘算法AARM BR的核心流程如图2所示。 15)Return{SR,SR2,,SR}∥得到所有强 AARM BR算法描述如下：规则。 2次从大到小排根据“序一列支持数/ 多项式值”对进行计算R肥置信度曲线拟合根据确定征数据确定求曲线二次数导从大到小排根据“序 n次列支持数/ 值”对进行计算吧多项式置信度曲线拟合由事务集D中所提取的特征（如支持数、置信度）→自动确定最小支持数minCount、最小置信度ninConf 图2 AARM BR核心流程 Fig.2 Key process of AARM_BR 4实验与分析 ies数据集。Trolley数据集总共有9条消费记录为了比较分析，选取文献[12]使用的数据集 (即9行)，包含7种不同商品；Groceries数据集有进行实验。具体数据集为关联规则挖掘购物车 9835条消费记录（即9835行），包含169种不同 Trolley数据集和开源软件RGUI里的Grocer- 商品。下面对自适应k次多项式的挖掘流程进行

f ′′ 最后，求解拟合曲线中二阶导数 (x) = 0 的点 (记 x0 ) 及对应的函数值 f(x0 )，x0 下取整作为最小支持数阈值 minCount，f(x0 ) 作为最小置信度阈值 minConf。 3.2 AARM_BR 算法实现基于可决系数自适应阶次的多项式曲线拟合模型下确定最小支持数和置信度阈值的关联规则挖掘算法 AARM_BR 的核心流程如图 2 所示。 AARM_BR 算法描述如下：输入事务数据集 D，拟合结束条件 Rend 输出所有强规则 SR，SR={SR1 , SR2 , ···, SRr} 1) C1 = find_candidate_1-itemsets(D); 2) C '1= sort_InDescOrder(C1 ); //降序排序 //自适应确定多项式拟合曲线的次数 k; 3) k=find_k_polynomial_curve_fitting(C '1 ); //产生支持数 k 次多项式; 4) f(x) = polynomial_curve_fitting(C '1 ,k); 5) find x0 , where f"((x0 )=0; 6) minCount =int(x0 ); //x0 下取整并赋给 minCount; 7) {L1 , L2 , ···, Lk}= find_all_frequent_kitemsets(D, minCount); 8) {R1 , R2 , ···, Rt}= generateRule_from_ frequent_k-itemsets(L1 , L2 , ···, Lk ); //对所有规则按置信度降序排序; 9) R '= sort_InDescOrder(R1 , R2 , ···, Rt ); //自适应确定多项式拟合曲线的次数 k 10) k=find_k_polynomial_curve_fitting(R'); //产生 k 次多项式 11) h(x) = polynomial_curve_fitting(R',k); 12) find x0 , where h"(x0 )=0; 13) minConf=h(x0 ); //得到最小置信度; 14) {SR1 , SR2 , ···, SRr} = find_strong_rules({R1 , R2 , ···, Rt}, minConf); 15) Return {SR1 , SR2 , ···, SRr} //得到所有强规则。由事务集D中所提取的特征 (如支持数、置信度)自动确定最小支持数minCount、最小置信度minConf 从大到小排列支持数/ 置信度从大到小排列支持数/ 置信度根据“序- 值”对进行曲线拟合根据“序- 值”对进行曲线拟合 … … 2次多项式 n次多项式 … 根据 R 2，确定曲线拟合次数确定支持数/ 置信度计算R 2 计算R 2 … 特征数据求曲线二阶导图 2 AARM_BR 核心流程 Fig. 2 Key process of AARM_BR 4 实验与分析为了比较分析，选取文献 [12] 使用的数据集进行实验。具体数据集为关联规则挖掘购物车 Trolley 数据集和开源软件 R GUI 里的 Groceries 数据集。Trolley 数据集总共有 9 条消费记录 (即 9 行)，包含 7 种不同商品；Groceries 数据集有 9 835 条消费记录 (即 9 835 行)，包含 169 种不同商品。下面对自适应 k 次多项式的挖掘流程进行开始从大到小排列支持数/置信度创建k次多项式进行曲线拟合，并计算Rk 2 Y 求k次多项式的二阶导，确定最小支持数 (minCount)/最小置信度 (minConf ) N 结束初始化k=1, R 2 k=0, Rend=0.05 k=k+1 Rk 2 -R 2 k-1>Rend 图 1 自适应 k 次拟合多项式流程 Fig. 1 The flow of adaptive k-order fitting polynomial 第 2 期王雪平，等：基于可决系数的自适应关联规则挖掘算法 ·355·

·356· 智能系统学报第15卷介绍，并对挖掘结果进行分析和讨论。表1 Trolley数据集中不同k下的minCount 4.1不同阶次拟合对比 Table 1 MinCount of Trolley datasets under different k 首先，分析不同阶次多项式对自动确定支持拟合曲线多项式 RminCount 度阈值的影响。下面给出Trolley数据集和Gro- y=0.0833x3-1.1429r2+3.5595x+4.28570.97544 ceries数据集两个数据集在不同阶次下曲线拟合得到的minCount,.分别如表l、2所示。 4y=0.0417x-0.5833x3+2.4583x2-3.9167x+9 1 1 表2 Groceries数据集中不同k下的minCount Table 2 MinCount of Groceries datasets under different k k 拟合曲线多项式 R minCount 3 y=-0.0013x340.4135x2-42.763x+1486.1 0.887 107 4 y=2×10x-0.0081x3+1.163x2-71.273r+1734.8 0.9298 77 5 y=-4x107X+0.02x-0.0313x2+2.6457x2-107.71+1949.8 0.9545 57 Groceries数据集下确定minCount的不同阶从表1和表2及图3可以看出：1)在相同的次的多项式拟合曲线如图3所示。结束条件下，不同数据集拟合采用的多项式次 +原始数据··二阶---三阶数不一定相同，如本实验中数据集Groceries下 -·-四阶一-五阶一一六阶确定最小支持度时k取4次，而Trolley数据集 3000 2500 下k取3次；2)同一数据集下，拟合选取不同次数的多项式，会影响minCount的值，从而也会影 2000 -.4x10440.0002.0.051342.6457r-107.7x+1949.8 -0.9545 响关联规则挖掘的效果。这说明不同的数据集延1500 -2×10rY-0.0081r+1.163r-71.273r+1734.8 空1000 e-09298 下，不能采取统一阶次的多项次拟合，多项式拟合的阶次应该根据数据拟合的实际情况自适应 500 确定。 0 其次，分析不同阶次多项式拟合对自动确定 -500 序号置信度阈值的影响。对于Trolley数据集和Gro 图3 Groceries中不同阶次多项式拟合曲线 ceries数据集在上步minCount约束下所得规则的 Fig.3 Polynomial fitting curve of Groceries under differ- 基础上，自适应拟合确定最小置信度minConf,.得 ent order 到如表3和表4所示结果。表3 Trolley数据集中不同k下的最小置信度 Table 3 MinConf of Trolley datasets under different k k 多项式拟合曲线公式 RE minConf 3 y=-6×10x3+0.0004x2-0.0199r+0.9358 0.9332 0.612 4 y=4×106x4-0.0003x3+0.0055x2-0.0565r+1.0007 0.9527 0.762 表4 Groceries数据集中不同k下的最小置信度 Table 4 MinConf of Groceries datasets under different k 多项式拟合曲线公式 R2 minConf 3 y=-7×1010x+2x105x2-0.0014r+0.5439 0.9954 0.094 4 y=8×105x-3×10x2+3x105x2-0.0018r+0.5647 0.9981 0.116 5 y=-1×1015x+4×102x-6×10”x3+4×1052-0.002r+0.5735 0.9985 0.065 同理，不同数据集中根据自动确定多项式次 0.02时，数据集Trolley下多项式次数为4次，而数是不完全相同的，如本实验拟合精度差Rend 数据集Groceries的多项式次数为3次。同一数据取O.O5时，数据集Trolley和数据集Groceries的多集下不同阶次的多项式下得到的minConf也不尽项式次数都是3次；而若拟合精度差Rend取相同，如Trolley数据集下k取3次时得到min-

介绍，并对挖掘结果进行分析和讨论。 4.1 不同阶次拟合对比首先，分析不同阶次多项式对自动确定支持度阈值的影响。下面给出 Trolley 数据集和 Groceries 数据集两个数据集在不同阶次下曲线拟合得到的 minCount，分别如表 1、2 所示。 Groceries 数据集下确定 minCount 的不同阶次的多项式拟合曲线如图 3 所示。 3 000 2 500 2 000 1 500 1 000 500 -500 0 序列值原始数据二阶三阶序号四阶五阶六阶 y=7×10-9x 6 -4×10-6x 5+0.000 8x 4 -0.925x 3+5.269 1x 2 -153.11x+2 144.5 R 2=0.970 4 y=-4×10-7 x 5+0.000 2x 4 -0.031 3x 3+2.645 7x 2 -107.71x+1949.8 R 2=0.954 5 y=2×10-5x 4 -0.008 1x 3+1.163x 2 -71.273x+1 734.8 R 2=0.929 8 y=-0.001 3x 5+0.413 5x 2 -42.763x+1 486.1 R 2=0.887 y=0.086 4x 2 -20.449x+1 165.3 R 2=0.791 2 1 6 11 16 21 26 31 36 41 46 51 56 61 66 71 76 81 86 91 96 101 106 111 116 121 126 131 136 141 146 151 156 161 166 图 3 Groceries 中不同阶次多项式拟合曲线 Fig. 3 Polynomial fitting curve of Groceries under different order 从表 1 和表 2 及图 3 可以看出：1) 在相同的结束条件下，不同数据集拟合采用的多项式次数不一定相同，如本实验中数据集 Groceries 下确定最小支持度时 k 取 4 次，而 Trolley 数据集下 k 取 3 次；2) 同一数据集下，拟合选取不同次数的多项式，会影响 minCount 的值，从而也会影响关联规则挖掘的效果。这说明不同的数据集下，不能采取统一阶次的多项次拟合，多项式拟合的阶次应该根据数据拟合的实际情况自适应确定。其次，分析不同阶次多项式拟合对自动确定置信度阈值的影响。对于 Trolley 数据集和 Groceries 数据集在上步 minCount 约束下所得规则的基础上，自适应拟合确定最小置信度 minConf，得到如表 3 和表 4 所示结果。同理，不同数据集中根据自动确定多项式次数是不完全相同的，如本实验拟合精度差 Rend 取 0.05 时，数据集 Trolley 和数据集 Groceries 的多项式次数都是 3 次；而若拟合精度差 Rend 取 0.02 时，数据集 Trolley 下多项式次数为 4 次，而数据集 Groceries 的多项式次数为 3 次。同一数据集下不同阶次的多项式下得到的 minConf 也不尽相同，如 Trolley 数据集下 k 取 3 次时得到 min- 表 1 Trolley 数据集中不同 k 下的 minCount Table 1 MinCount of Trolley datasets under different k k 拟合曲线多项式 Rk 2 minCount 3 y =0.083 3x 3 −1.142 9x 2 +3.559 5x+4.285 7 0.975 4 4 4 y =0.041 7x 4 −0.583 3x 3 +2.458 3x 2 −3.916 7x+9 1 1 表 2 Groceries 数据集中不同 k 下的 minCount Table 2 MinCount of Groceries datasets under different k k 拟合曲线多项式 Rk 2 minCount 3 y =−0.001 3x 3 +0.413 5x 2 −42.763x+1 486.1 0.887 107 4 y =2×10−5 x 4 −0.008 1x 3 +1.163x 2 −71.273x+1 734.8 0.929 8 77 5 y =−4×10−7 x 5 +0.000 2x 4 −0.031 3x 3 +2.645 7x 2 −107.71x+1 949.8 0.954 5 57 表 3 Trolley 数据集中不同 k 下的最小置信度 Table 3 MinConf of Trolley datasets under different k k 多项式拟合曲线公式 Rk 2 minConf 3 y =−6×10−6 x 3 +0.000 4x 2 −0.019 9x+0.935 8 0.933 2 0.612 4 y =4×10−6 x 4 −0.000 3x 3 +0.005 5x 2 −0.056 5x+1.000 7 0.952 7 0.762 表 4 Groceries 数据集中不同 k 下的最小置信度 Table 4 MinConf of Groceries datasets under different k k 多项式拟合曲线公式 Rk 2 minConf 3 y =−7×10−10 x 3 +2×10−6 x 2 −0.001 4x+0.543 9 0.995 4 0.094 4 y =8×10−13 x 4 −3×10−9 x 3 +3×10−6 x 2 −0.001 8x+0.564 7 0.998 1 0.116 5 y =−1×10−15 x 5 +4×10−12 x 4 −6×10−9 x 3 +4×10−6 x 2 −0.002x+0.573 5 0.998 5 0.065 ·356· 智能系统学报第 15 卷

第2期王雪平，等：基于可决系数的自适应关联规则挖掘算法 ·357· Conf为0.612，而k取4次时得到minConf为0.762；动确定k的次数及对应的多项式。k从2开始，以 Groceries数据集下k取3次时得到minConf为相邻两阶精度差R小于Rend为结束条件，本实 0.094,而k取4次时得到minConf为0.116。综合验以Rend取0.05为例。本步实验结果与文献[12] 上述两部分分析说明多项式的阶次会影响阈值，所提的AdapARM算法比较如表5所示。从而也会影响挖掘结果。如何自适应确定多项式然后，根据k阶多项式二阶导函数求取最小阶次是很有必要的。支持数，得到对应的二阶导函数及最小支持数 4.2结果对比与分析 minCount如表6所示。根据挖掘的流程，首先选取待挖掘数据集中按照Apriori算法思想，在上步求得的最小支各事务项支持数作为特征数据并按支持数大小进持数基础上，从一阶频繁项开始逐层向上，获取行降序排序建立“序-值”对序列。所有k阶频繁项集，并根据频繁项集产生关联规其次，采用文中所提的自动阶次拟合方法建则，得到如表7结果。立“序-值”对序列的k次多项式曲线拟合模型，自表5k次拟合多项式比较（支持数） Table 5 Comparison of k order polynomial fitting curves(support number) 数据集算法确定的拟合多项式（支持数） AARM BR 3 fx)=0.0833x3-1,1429r2+3.5595x+4.2857 Trolley AdapARM 3 fx=0.0833x-1.1429x2+3.5595r+4.2857 AARM BR ? f=2×10x-0.0081x3+1.163x2-71.273xr+1734.8 Groceries AdapARM fx-7x10-10x3+2×105x2-0.0014r+0.5439 表6最小支持数比较 Table 6 Comparison of Minimum support number 数据集算法二阶导函数（支持数） minCount AARM_BR "x)=-2.285740.5x 4 Trolley AdapARM f"x=-2.285740.5x 4 AARM_BR fcx2.3261-0.0488x42.4158×10x2 77 Groceries AdapARM fcx=0.8271-0.0077x 107 表7产生的规则数目比较根据数据集Trolley和数据集Groceries产生 Table 7 Comparison of the produced rules number 的关联规则的置信度从大到小排序并进行k次多项式曲线拟合，k从2开始，以相邻两阶精度差数据集算法求得的关联规则数目 R小于Rend为结束条件，本实验以Rend取0.05 AARM BR 30 Trolley 为例。在本步中，两个方法得到的阶次k均为3， AdapARM 30 确定的拟合多项式如表8所示。 AARM_BR 1146 根据k次多项式二阶导函数求取最小置信 Groceries AdapARM 498 度，h(x)和hc(x)的二阶导函数h:(x)和h:(x)公式及对应的最小置信度分别如表9所示。表8k次拟合多项式比较（置信度） Table 8 Comparison of k order polynomial fitting curves(confidence) 数据集算法确定的拟合多项式（置信度） AARM BR 3 hxF-6x10x3+0.0004r2-0.0199r+0.9358 Trolley AdapARM 3 hx=-6×10x3+0.0004x2-0.0199r+0.9358 AARM_BR 3 hcx=6.7744×1010x3+1.5988x105x2-0.0014r+0.5439 Groceries AdapARM hGx)=-6.4263x10x3+6.7023x105x2-0.0027x+0.523

Conf 为 0.612，而 k 取 4 次时得到 minConf 为 0.762； Groceries 数据集下 k 取 3 次时得到 minConf 为 0.094，而 k 取 4 次时得到 minConf 为 0.116。综合上述两部分分析说明多项式的阶次会影响阈值，从而也会影响挖掘结果。如何自适应确定多项式阶次是很有必要的。 4.2 结果对比与分析根据挖掘的流程，首先选取待挖掘数据集中各事务项支持数作为特征数据并按支持数大小进行降序排序建立“序−值”对序列。其次，采用文中所提的自动阶次拟合方法建立“序−值”对序列的 k 次多项式曲线拟合模型，自动确定 k 的次数及对应的多项式。k 从 2 开始，以相邻两阶精度差 R 2 小于 Rend 为结束条件，本实验以 Rend 取 0.05 为例。本步实验结果与文献 [12] 所提的 AdapARM 算法比较如表 5 所示。然后，根据 k 阶多项式二阶导函数求取最小支持数，得到对应的二阶导函数及最小支持数 minCount 如表 6 所示。按照 Apriori 算法思想，在上步求得的最小支持数基础上，从一阶频繁项开始逐层向上，获取所有 k 阶频繁项集，并根据频繁项集产生关联规则，得到如表 7 结果。表 5 k 次拟合多项式比较 (支持数) Table 5 Comparison of k order polynomial fitting curves (support number) 数据集算法 k 确定的拟合多项式(支持数) Trolley AARM_BR 3 fT (x)=0.083 3x 3 −1.142 9x 2 +3.559 5x+4.285 7 AdapARM 3 fT (x)=0.083 3x 3 −1.142 9x 2 +3.559 5x+4.285 7 Groceries AARM_BR 4 fG(x)=2×10−5 x 4 −0.008 1x 3 +1.163x 2 −71.273x+1 734.8 AdapARM 3 fG(x)=−7×10−10 x 3 +2×10−6 x 2 −0.001 4x+0.543 9 表 6 最小支持数比较 Table 6 Comparison of Minimum support number 数据集算法二阶导函数(支持数) minCount Trolley AARM_BR f"T (x)=−2.285 7+0.5x 4 AdapARM f"T (x)=−2.285 7+0.5x 4 Groceries AARM_BR f"G(x)=2.326 1−0.048 8 x+2.415 8×10−4 x 2 77 AdapARM f"G(x)=0.827 1−0.007 7 x 107 表 7 产生的规则数目比较 Table 7 Comparison of the produced rules number 数据集算法求得的关联规则数目 Trolley AARM_BR 30 AdapARM 30 Groceries AARM_BR 1 146 AdapARM 498 根据数据集 Trolley 和数据集 Groceries 产生的关联规则的置信度从大到小排序并进行 k 次多项式曲线拟合，k 从 2 开始，以相邻两阶精度差 R 2 小于 Rend 为结束条件，本实验以 Rend 取 0.05 为例。在本步中，两个方法得到的阶次 k 均为 3，确定的拟合多项式如表 8 所示。根据 k 次多项式二阶导函数求取最小置信度，hT (x) 和 hG(x) 的二阶导函数 h"T (x) 和 h"G (x) 公式及对应的最小置信度分别如表 9 所示。表 8 k 次拟合多项式比较 (置信度) Table 8 Comparison of k order polynomial fitting curves (confidence) 数据集算法 k 确定的拟合多项式(置信度) Trolley AARM_BR 3 hT (x)=−6×10−6 x 3 +0.000 4x 2 −0.019 9x+0.935 8 AdapARM 3 hT (x)=−6×10−6 x 3 +0.000 4x 2 −0.019 9x+0.935 8 Groceries AARM_BR 3 hG(x)=6.774 4×10−10 x 3 +1.598 8×10−6 x 2 −0.001 4x+0.543 9 AdapARM 3 hG(x)=−6.426 3×10−9 x 3 +6.702 3×10−6 x 2 −0.002 7x+0.523 第 2 期王雪平，等：基于可决系数的自适应关联规则挖掘算法 ·357·

·358· 智能系统学报第15卷表9最小置信度比较 Table 9 Comparison of minimum confidence 数据集算法二阶导函数（置信度） minConf AARM BR hx)=8.0101×10-3.3710x10x 0.6126373 Trolley AdapARM hfx)=8.0101×10-3.3710×103x 0.6126373 AARM BR h6(x=3.1976x106-4.0646×109x 0.0994309 Groceries AdapARM h6xF1.3405x105-3.8558×108x 0.1158444 最后，根据最小置信度确定强关联规则，得到持数和置信度阈值，进而获取数据依赖意义下最结果如表10所示。小支持数和最小置信度及其强关联规则。该方法上述算法挖掘结果比较可以看出，自适应多根据数据自身特点，在用户不具备经验知识、不项式挖掘的结果与人为确定多项式次数的挖掘结指定支持度和置信度阈值的情况下，自动确定拟果不一定相同，如Groceries数据集下人为确定次合曲线、最小支持度和最小置信度阈值。在两个数有可能遗漏一些重要的规则。根据数据本身的标准数据集Trolley和Groceries上的实验结果和特性确定多项式的拟合次数算法，不需要用户具分析表明，该方法对关联规则的进一步推广应用备先验知识，在不指定多项式阶数、不指定最小具有一定价值。支持度和最小置信度阈值的情况下，自动获取数据统计意义下的强关联规则。自适应多项式曲线参考文献：拟合方法为支持度和置信度的自动确定提供了更 [1]MALIK M,MAMTA,AGARWAL R P.A survey on asso- 具数据依赖意义的解决方案。 ciation rule mining[J].International journal of research in 表10强关联规则数目比较 engineering and applied sciences,2015,5(6):48-56. Table 10 Comparison of the strong association rules num- [2]XI Jianfeng,ZHAO Zhonghao,LI Wei,et al.A traffic ac- ber cident causation analysis method based on AHP-apriori[J]. 数据集算法强关联规则数目 Procedia engineering,2016,137:680-687 [3]ALWIDIAN J.HAMMO B H.OBEID N.WCBa: AARM BR 22 Trolley weighted classification based on association rules al- AdapARM 22 gorithm for breast cancer disease[J].Applied soft comput- AARM BR 786 ing.2018,62:536-549. Groceries AdapARM 339 [4]张良均，杨坦，肖刚，等.MATLAB数据分析与挖掘实战M个.北京：机械工业出版社，2016. 从时间复杂度角度分析，本算法只在经典算 [5]SCHEFFER T.Finding association rules that trade support 法Aprori算法的基础上增加了两个步骤：排序和 optimally against confidence[C]//European Conference on 多项式阶次自动确定，其中排序的时间复杂度为 Principles of Data Mining and Knowledge Discovery.Ber- O(nlogn)),多项式阶次的自动确定时间复杂度为 lin,Heidelberg,2001:424-435. Okm:与AdapARM算法比较，只多了一步自动确 [6]AL-MAQALEH B M,SHAAB S K.Efficient algorithm 定多项式阶次的单层循环。这里增加的时间在整 for mining association rules using confident frequent item- 个算法中占用很小，可忽略不计，同时对自动确 sets[C]//Third International Conference on Advanced 定最小支持度和最小置信度具有指导意义。 Computing and Communication Technologies.Rohtak,In- dia,2013 5结束语 [7]吴华瑞，张凤霞，赵春江.一种多重最小支持度关联规则挖掘算法[].哈尔滨工业大学学报，2008,40(9)：文中提出一种基于可决系数的数据自适应多 1447-1451 项式拟合曲线确定支持度和置信度阈值的关联规 WU Huarui,ZHANG Fengxia,ZHAO Chunjiang.An al- 则挖掘算法AARM BR。以曲线拟合的精确程度 gorithm for mining association rules with multiple minim- R为判断依据，自适应确定多项式拟合曲线的次 um supports[J].Journal of Harbin Institute of Technology, 数及多项式，在此基础上求取k次拟合多项式的 2008,40(9):1447-1451. 二阶导函数为零的点x及其函数值xo),作为支 [8]陈柳，冯山.正负关联规则两级置信度阈值设置方法

最后，根据最小置信度确定强关联规则，得到结果如表 10 所示。上述算法挖掘结果比较可以看出，自适应多项式挖掘的结果与人为确定多项式次数的挖掘结果不一定相同，如 Groceries 数据集下人为确定次数有可能遗漏一些重要的规则。根据数据本身的特性确定多项式的拟合次数算法，不需要用户具备先验知识，在不指定多项式阶数、不指定最小支持度和最小置信度阈值的情况下，自动获取数据统计意义下的强关联规则。自适应多项式曲线拟合方法为支持度和置信度的自动确定提供了更具数据依赖意义的解决方案。从时间复杂度角度分析，本算法只在经典算法 Aprori 算法的基础上增加了两个步骤：排序和多项式阶次自动确定，其中排序的时间复杂度为 O(nlogn)，多项式阶次的自动确定时间复杂度为 O(kn)；与 AdapARM 算法比较，只多了一步自动确定多项式阶次的单层循环。这里增加的时间在整个算法中占用很小，可忽略不计，同时对自动确定最小支持度和最小置信度具有指导意义。 5 结束语文中提出一种基于可决系数的数据自适应多项式拟合曲线确定支持度和置信度阈值的关联规则挖掘算法 AARM_BR。以曲线拟合的精确程度 R 2 为判断依据，自适应确定多项式拟合曲线的次数及多项式，在此基础上求取 k 次拟合多项式的二阶导函数为零的点 x0 及其函数值 f(x0 )，作为支持数和置信度阈值，进而获取数据依赖意义下最小支持数和最小置信度及其强关联规则。该方法根据数据自身特点，在用户不具备经验知识、不指定支持度和置信度阈值的情况下，自动确定拟合曲线、最小支持度和最小置信度阈值。在两个标准数据集 Trolley 和 Groceries 上的实验结果和分析表明，该方法对关联规则的进一步推广应用具有一定价值。参考文献： MALIK M, MAMTA, AGARWAL R P. A survey on association rule mining[J]. International journal of research in engineering and applied sciences, 2015, 5(6): 48–56. [1] XI Jianfeng, ZHAO Zhonghao, LI Wei, et al. A traffic accident causation analysis method based on AHP-apriori[J]. Procedia engineering, 2016, 137: 680–687. [2] ALWIDIAN J, HAMMO B H, OBEID N. WCBa: weighted classification based on association rules algorithm for breast cancer disease[J]. Applied soft computing, 2018, 62: 536–549. [3] 张良均, 杨坦, 肖刚, 等. MATLAB 数据分析与挖掘实战 [M]. 北京: 机械工业出版社, 2016. [4] SCHEFFER T. Finding association rules that trade support optimally against confidence[C]//European Conference on Principles of Data Mining and Knowledge Discovery. Berlin, Heidelberg, 2001: 424–435. [5] AL-MAQALEH B M, SHAAB S K. Efficient algorithm for mining association rules using confident frequent itemsets[C]//Third International Conference on Advanced Computing and Communication Technologies. Rohtak, India, 2013. [6] 吴华瑞, 张凤霞, 赵春江. 一种多重最小支持度关联规则挖掘算法 [J]. 哈尔滨工业大学学报, 2008, 40(9): 1447–1451. WU Huarui, ZHANG Fengxia, ZHAO Chunjiang. An algorithm for mining association rules with multiple minimum supports[J]. Journal of Harbin Institute of Technology, 2008, 40(9): 1447–1451. [7] [8] 陈柳, 冯山. 正负关联规则两级置信度阈值设置方法 [J]. 表 9 最小置信度比较 Table 9 Comparison of minimum confidence 数据集算法二阶导函数(置信度) minConf Trolley AARM_BR h"T (x)=8.010 1×10−4−3.371 0×10−5 x 0.612 637 3 AdapARM h"T (x)=8.010 1×10−4−3.371 0×10−5 x 0.612 637 3 Groceries AARM_BR h"G (x)=3.197 6×10−6−4.064 6×10−9 x 0.099 430 9 AdapARM h"G (x)=1.340 5×10−5−3.855 8×10−8 x 0.115 844 4 表 10 强关联规则数目比较 Table 10 Comparison of the strong association rules number 数据集算法强关联规则数目 Trolley AARM_BR 22 AdapARM 22 Groceries AARM_BR 786 AdapARM 339 ·358· 智能系统学报第 15 卷

第2期王雪平，等：基于可决系数的自适应关联规则挖掘算法 ·359· 计算机应用，2018,38(5)1315-1319,1338 法研究.计算机工程与设计，2011,32(3)：936-939， CHEN Liu,FENG Shan.Two-level confidence threshold 944 setting method for positive and negative association WANG Zhiyuan,XIA Shixiong,ZHANG Lei,et al. rules[J].Journal of computer applications,2018,38(5): Study on semantic-driven association rule mining al- 1315-1319.1338. gorithm[J].Computer engineering and design,2011, [9]于海燕.最小相关度优化PNARC算法的审计数据关联 32(3:936-939,944. 规则挖掘模型).科技通报，2017,3312：158-161 [18]MALLIK S,BHADRA T.MUKHERJI A.DTFP-growth: YU Haiyan.Research on audit data association rule min- dynamic threshold-based FP-growth rule mining al- ing model with minimal relevance optimized PNARC al- gorithm through integrating gene expression,methylation. gorithm[J].Bulletin of science and technology,2017, and protein-protein interaction profiles[J].IEEE transac- 33(12):158-161. tions on nanobioscience,2018,17(2):117-125. [10]董博，王雪.关联规则算法的计算效率优化研究).计 [19]AGRAWAL J.AGRAWAL S,SINGHAI A.et al.SET- 算机仿真，2017,349)：247-253. PSO-based approach for mining positive and negative as- DONG Bo,WANG Xue.Closure operator based post pro- sociation rules[J].Knowledge and information systems, cessing minimum single constraint association[J.Com- 2015,45(2):453-471. puter simulation,2017,34(9):247-253. [20]林甲祥，巫建伟，陈崇成.等.支持度和置信度自适应的 [11]LI Jundong,ZAIANE O.Exploiting statistically signific- 关联规则挖掘.计算机工程与设计，2018,39(12)： ant dependent rules for associative classification[].Intel- 3746-3754. ligent data analysis,2017,21(5):1155-1172 LIN Jiaxiang,WU Jianwei,CHEN Chongcheng,et al.As- [12]Qodmanan H R,Nasiri M,Minaei-Bidgoli B.Multi ob- jective association rule mining with genetic algorithm sociation rule mining algorithm with adaptive support and without specifying minimum support and minimum con- confidence[J].Computer engineering and design,2018, fidence[J].Expert systems with applications,2011,38(1): 39(12:3746-3754 288-298. 作者简介： [13]SARATH K N V D.RAVI V.Association rule mining us- 王雪平，讲师，主要研究方向为数 ing binary particle swarm optimization[J].Engineering 据挖掘、模式识别。主持省级科研项 applications of artificial intelligence,2013,26(8): 目1项，参与省级科研项目10余项。 1832-1840. [14]吴琼，曾庆鹏.基于多目标烟花算法的关联规则挖掘 ).模式识别与人工智能，2017,30(4)：365-376. WU Qiong,ZENG Qingpeng.Association rules mining based on multi-objective fireworks optimization al- 林甲样，博士。主要研究方向为 gorithm[J].Pattern recognition and artificial intelligence, 空间数据挖掘、人工智能和大数据。 2017,30(4)365-376. 主持国家级和省部级科研项目4项参与省部级科研项目20余项：获福建 [15]A.S.1,X.D.1,J.C.2,et al.Multi-objective associati-on 省科学技术奖二等奖1项.获国家发 rule mining with binary bat algorithm[M].School of 明专利授权2项.获国家计算机软件 Computer Engineering and Science,Shanghai University, 著作权登记5项。发表学术论文40 Shanghai,China.Yale Stem Cell Center and Department 余篇。 of Cell Biology,Yale University School of Medicine, New Haven,USA,2016:105-128. 巫建伟，工程师，博土。主要研究方向为海洋环境管理信息系统、空间 [16]CAN U,ALATAS B.Automatic mining of quantitative 数据挖掘、海洋大数据分析。主持或 association rules with gravitational search algorithm[J]. 参与国家级和省部级科研项目10余 International journal of software engineering and know- 项。发表学术论文10余篇。 ledge engineering,2017,27(3):343-372 [17刀王志愿，夏土雄，张磊，等.语义驱动的关联规则挖掘算

计算机应用, 2018, 38(5): 1315–1319, 1338. CHEN Liu, FENG Shan. Two-level confidence threshold setting method for positive and negative association rules[J]. Journal of computer applications, 2018, 38(5): 1315–1319, 1338. 于海燕. 最小相关度优化 PNARC 算法的审计数据关联规则挖掘模型 [J]. 科技通报, 2017, 33(12): 158–161. YU Haiyan. Research on audit data association rule mining model with minimal relevance optimized PNARC algorithm[J]. Bulletin of science and technology, 2017, 33(12): 158–161. [9] 董博, 王雪. 关联规则算法的计算效率优化研究 [J]. 计算机仿真, 2017, 34(9): 247–253. DONG Bo, WANG Xue. Closure operator based post processing minimum single constraint association[J]. Computer simulation, 2017, 34(9): 247–253. [10] LI Jundong, ZAIANE O. Exploiting statistically significant dependent rules for associative classification[J]. Intelligent data analysis, 2017, 21(5): 1155–1172. [11] Qodmanan H R, Nasiri M, Minaei-Bidgoli B. Multi objective association rule mining with genetic algorithm without specifying minimum support and minimum confidence[J]. Expert systems with applications, 2011, 38(1): 288–298. [12] SARATH K N V D, RAVI V. Association rule mining using binary particle swarm optimization[J]. Engineering applications of artificial intelligence, 2013, 26(8): 1832–1840. [13] 吴琼, 曾庆鹏. 基于多目标烟花算法的关联规则挖掘 [J]. 模式识别与人工智能, 2017, 30(4): 365–376. WU Qiong, ZENG Qingpeng. Association rules mining based on multi-objective fireworks optimization algorithm[J]. Pattern recognition and artificial intelligence, 2017, 30(4): 365–376. [14] A. S. 1, X. D. 1, J. C. 2, et al. Multi-objective associati-on rule mining with binary bat algorithm[M]. School of Computer Engineering and Science, Shanghai University, Shanghai, China. Yale Stem Cell Center and Department of Cell Biology, Yale University School of Medicine, New Haven, USA, 2016: 105–128. [15] CAN U, ALATAS B. Automatic mining of quantitative association rules with gravitational search algorithm[J]. International journal of software engineering and knowledge engineering, 2017, 27(3): 343–372. [16] [17] 王志愿, 夏士雄, 张磊, 等. 语义驱动的关联规则挖掘算法研究 [J]. 计算机工程与设计, 2011, 32(3): 936–939, 944. WANG Zhiyuan, XIA Shixiong, ZHANG Lei, et al. Study on semantic-driven association rule mining algorithm[J]. Computer engineering and design, 2011, 32(3): 936–939, 944. MALLIK S, BHADRA T, MUKHERJI A. DTFP-growth: dynamic threshold-based FP-growth rule mining algorithm through integrating gene expression, methylation, and protein-protein interaction profiles[J]. IEEE transactions on nanobioscience, 2018, 17(2): 117–125. [18] AGRAWAL J, AGRAWAL S, SINGHAI A, et al. SETPSO-based approach for mining positive and negative association rules[J]. Knowledge and information systems, 2015, 45(2): 453–471. [19] 林甲祥, 巫建伟, 陈崇成, 等. 支持度和置信度自适应的关联规则挖掘 [J]. 计算机工程与设计, 2018, 39(12): 3746–3754. LIN Jiaxiang, WU Jianwei, CHEN Chongcheng, et al. Association rule mining algorithm with adaptive support and confidence[J]. Computer engineering and design, 2018, 39(12): 3746–3754. [20] 作者简介：王雪平，讲师，主要研究方向为数据挖掘、模式识别。主持省级科研项目 1 项，参与省级科研项目 10 余项。林甲祥，博士。主要研究方向为空间数据挖掘、人工智能和大数据。主持国家级和省部级科研项目 4 项，参与省部级科研项目 20 余项；获福建省科学技术奖二等奖 1 项，获国家发明专利授权 2 项，获国家计算机软件著作权登记 5 项。发表学术论文 40 余篇。巫建伟，工程师，博士。主要研究方向为海洋环境管理信息系统、空间数据挖掘、海洋大数据分析。主持或参与国家级和省部级科研项目 10 余项。发表学术论文 10 余篇。第 2 期王雪平，等：基于可决系数的自适应关联规则挖掘算法 ·359·

点击下载完整版文档（PDF格式）

已到末页，全文结束

点击下载（PDF格式）

浏览记录