用关联规则算法有 Apriori、FP-Growth、MagnumOpu

正在加载图片...

第2期王雪平，等：基于可决系数的自适应关联规则挖掘算法 ·353· 用关联规则算法有Apriori、FP-Growth、Magnu- 种最小相关度优化PNARC算法的审计数据关联 mOpus、Closet等，，其中最常用也是最经典的挖规则挖掘模型，提高负关联规则的程度，减少不掘算法是Apriori算法。相关的关联规则，然后对最小相关度进行概率分为了挖取规模合适的规则，大部分关联规则析，降低无关规则的产生几率。董博等©针对传算法执行前需用户设置两个阈值：最小支持度和统关联规则挖掘方法存在计算冗余度过高的问最小置信度，以期找到所有超过用户设定阈值的题，提出一种后处理闭包算子最小单约束的关联规则。因此，用户必须具备一定的先验知识才能规则算法有效降低算法冗余计算，提高算法计算寻找到合适的最小支持度和最小置信度以便获得效率。Li等山提出了一种新的联想分类器Sg 有应用价值的规则。但在实际应用过程中，)不 Direct,利用Fisher的精确检验作为一种剪枝策同领域数据差异较大，导致算法在不同的数据集略，直接挖掘分类关联规则。在没有最小支持度中设置的最小支持数和最小置信度存在较大差和最小置信度等阈值设置的情况下，SigDirect能异，没有一个统一的标准；2)存在许多非专业用够找到非冗余的分类关联规则，这些规则在一组户，对算法参数的取值具有较大的随意性。因此先前项和随后的类标签之间表现出统计上的显著如何利用数据集本身的特性自动确定阈值而无须依赖性。还有一些学者提出利用智能技术进行关先验知识是一个很有意义且亟待解决的问题。本联规则挖掘，而无需设置最小支持度和最小置信文针对这一问题提出基于可决系数的自适应关联度，如Qodmanan等利用多目标遗传算法进行规则挖掘算法，依据待挖掘数据集中所有项的支 FP-Tree模式关联规则挖掘，Sarath等l提出使用持数和所有规则的置信度的数据分布特性，采用二进制粒子群优化策略，吴琼等针对量化关联曲线拟合技术，根据可决系数自动确定拟合多项规则的特点，提出基于多目标烟花算法全面搜索式，并在此基础上自动确定具有数据统计依赖意关联规则，Anping等提出了基于Pareto的多目义的最小支持度和置信度，使其关联规则挖掘的标二进制BAT算法(MBBA)。Can等I提出利用应用门槛降低。引力搜索算法(GSA)进行数值型关联规则挖掘。这些基于智能技术，通过搜索全域空间，无须设 1相关研究置最小支持度和最小置信度参数即可获取支持度针对上述所提的参数阈值设置方面问题，在最好、置信度最高的强关联规则，存在着需要很过去的十多年中，研究者们从不同角度提出了一大计算量的问题。另一角度是利用数据内在的某些解决方法。一种角度是优化参数或减少参数的些特性确定参数的方法。如王志愿等刃提出根方法。例如，Scheffer提出的预测Apriori算法据项集内部的语义相关度动态确定该项集的最小它自动解决了最小支持度和最小置信度这两个参支持度，并采用了项集语义相关度的增量计算方数之间的平衡问题，最大限度地提高了对数据集法。实验结果表明，DS-Apriori算法在很大程度进行精确预测的可能性。该算法利用贝叶斯方法上提高了关联规则挖掘算法的效率和效果。Saurav 计算了一个称为精确期望预测精度的参数，以实等1)提出了一种基于动态阈值的FP生长规则挖现精确的预测，从而提供规则的精确性信息。最掘算法，该算法将基于加权最短距离的基因表后的结果表明，预测Aprio算法的性能优于使用达、甲基化和蛋白-蛋白质相互作用剖面结合起增量因子的Apriori型算法。A-Magaleh等提出来，在多视点数据集中寻找不同基因对之间的新了一种有效的置信度综合算法，在挖掘频繁项集关联，该方法主要优点之一是它考虑了属于每个的过程中生成了真正有用的规则。吴瑞华等提规则的所有成对基因之间的定量和交互意义。与出了一种多重支持度关联规则挖掘算法，根据不以往的方法相比，该算法生成的规则更少，运行同数据项的特点定义多重支持度，通过挖掘数据时间也更短，并且为得到的顶级规则提供了更大库中的最大频繁项目集，计算最大频繁候选项目的生物学意义，但该方法是基于生物学基础的统集在数据库中的支持度来发现关联规则，可解决计，缺乏通用性。Jitendra等u9提出了一种基于项关联规则中经常出现的稀少数据项问题。陈柳等网集范围和相关系数的关联规则集粒子群算法提出了一个结合项集相关性的两级置信度阈值设 SARIC,该算法能快速、客观地自动确定支持度和置方法(PNMC-TWO),该方法不仅可以更好地确置信度。林甲祥等20提出一种新的自动确定支保提取出的关联规则有效和有趣，还可以显著地持度和置信度阈值的方法，该方法采用数据分布降低可信度低的关联规则数。于海燕提出了一特性进行曲线拟合确定阈值，为算法的更广泛合用关联规则算法有 Apriori、FP-Growth、MagnumOpus、Closet 等 [1, 4] ，其中最常用也是最经典的挖掘算法是 Apriori 算法。为了挖取规模合适的规则，大部分关联规则算法执行前需用户设置两个阈值：最小支持度和最小置信度，以期找到所有超过用户设定阈值的规则。因此，用户必须具备一定的先验知识才能寻找到合适的最小支持度和最小置信度以便获得有应用价值的规则。但在实际应用过程中，1) 不同领域数据差异较大，导致算法在不同的数据集中设置的最小支持数和最小置信度存在较大差异，没有一个统一的标准；2) 存在许多非专业用户，对算法参数的取值具有较大的随意性。因此如何利用数据集本身的特性自动确定阈值而无须先验知识是一个很有意义且亟待解决的问题。本文针对这一问题提出基于可决系数的自适应关联规则挖掘算法，依据待挖掘数据集中所有项的支持数和所有规则的置信度的数据分布特性，采用曲线拟合技术，根据可决系数自动确定拟合多项式，并在此基础上自动确定具有数据统计依赖意义的最小支持度和置信度，使其关联规则挖掘的应用门槛降低。 1 相关研究针对上述所提的参数阈值设置方面问题，在过去的十多年中，研究者们从不同角度提出了一些解决方法。一种角度是优化参数或减少参数的方法。例如，Scheffer 提出的预测 Apriori 算法[5] ，它自动解决了最小支持度和最小置信度这两个参数之间的平衡问题，最大限度地提高了对数据集进行精确预测的可能性。该算法利用贝叶斯方法计算了一个称为精确期望预测精度的参数，以实现精确的预测，从而提供规则的精确性信息。最后的结果表明，预测 Apriori 算法的性能优于使用增量因子的 Apriori 型算法。AI-Maqaleh 等 [6] 提出了一种有效的置信度综合算法，在挖掘频繁项集的过程中生成了真正有用的规则。吴瑞华等[7] 提出了一种多重支持度关联规则挖掘算法，根据不同数据项的特点定义多重支持度，通过挖掘数据库中的最大频繁项目集，计算最大频繁候选项目集在数据库中的支持度来发现关联规则，可解决关联规则中经常出现的稀少数据项问题。陈柳等[8] 提出了一个结合项集相关性的两级置信度阈值设置方法 (PNMC-TWO)，该方法不仅可以更好地确保提取出的关联规则有效和有趣,还可以显著地降低可信度低的关联规则数。于海燕[9] 提出了一种最小相关度优化 PNARC 算法的审计数据关联规则挖掘模型，提高负关联规则的程度，减少不相关的关联规则，然后对最小相关度进行概率分析，降低无关规则的产生几率。董博等[10] 针对传统关联规则挖掘方法存在计算冗余度过高的问题，提出一种后处理闭包算子最小单约束的关联规则算法有效降低算法冗余计算，提高算法计算效率。Li 等 [11] 提出了一种新的联想分类器 SigDirect，利用 Fisher 的精确检验作为一种剪枝策略，直接挖掘分类关联规则。在没有最小支持度和最小置信度等阈值设置的情况下，SigDirect 能够找到非冗余的分类关联规则，这些规则在一组先前项和随后的类标签之间表现出统计上的显著依赖性。还有一些学者提出利用智能技术进行关联规则挖掘，而无需设置最小支持度和最小置信度，如 Qodmanan 等 [12] 利用多目标遗传算法进行 FP-Tree 模式关联规则挖掘，Sarath 等 [13] 提出使用二进制粒子群优化策略，吴琼等[14] 针对量化关联规则的特点，提出基于多目标烟花算法全面搜索关联规则，Anping 等 [15] 提出了基于 Pareto 的多目标二进制 BAT 算法 (MBBA)。Can 等 [16] 提出利用引力搜索算法 (GSA) 进行数值型关联规则挖掘。这些基于智能技术，通过搜索全域空间，无须设置最小支持度和最小置信度参数即可获取支持度最好、置信度最高的强关联规则，存在着需要很大计算量的问题。另一角度是利用数据内在的某些特性确定参数的方法。如王志愿等[17] 提出根据项集内部的语义相关度动态确定该项集的最小支持度，并采用了项集语义相关度的增量计算方法。实验结果表明，DS-Apriori 算法在很大程度上提高了关联规则挖掘算法的效率和效果。Saurav 等 [18] 提出了一种基于动态阈值的 FP-生长规则挖掘算法，该算法将基于加权最短距离的基因表达、甲基化和蛋白−蛋白质相互作用剖面结合起来，在多视点数据集中寻找不同基因对之间的新关联，该方法主要优点之一是它考虑了属于每个规则的所有成对基因之间的定量和交互意义。与以往的方法相比，该算法生成的规则更少，运行时间也更短，并且为得到的顶级规则提供了更大的生物学意义，但该方法是基于生物学基础的统计，缺乏通用性。Jitendra 等 [19] 提出了一种基于项集范围和相关系数的关联规则集粒子群算法 SARIC，该算法能快速、客观地自动确定支持度和置信度。林甲祥等[20] 提出一种新的自动确定支持度和置信度阈值的方法，该方法采用数据分布特性进行曲线拟合确定阈值，为算法的更广泛合第 2 期王雪平，等：基于可决系数的自适应关联规则挖掘算法 ·353·

<<向上翻页向下翻页>>

点击下载：【人工智能基础】基于可决系数的自适应关联规则挖掘算法