正在加载图片...
·358· 智能系统学报 第15卷 表9最小置信度比较 Table 9 Comparison of minimum confidence 数据集 算法 二阶导函数(置信度) minConf AARM BR hx)=8.0101×10-3.3710x10x 0.6126373 Trolley AdapARM hfx)=8.0101×10-3.3710×103x 0.6126373 AARM BR h6(x=3.1976x106-4.0646×109x 0.0994309 Groceries AdapARM h6xF1.3405x105-3.8558×108x 0.1158444 最后,根据最小置信度确定强关联规则,得到 持数和置信度阈值,进而获取数据依赖意义下最 结果如表10所示。 小支持数和最小置信度及其强关联规则。该方法 上述算法挖掘结果比较可以看出,自适应多 根据数据自身特点,在用户不具备经验知识、不 项式挖掘的结果与人为确定多项式次数的挖掘结 指定支持度和置信度阈值的情况下,自动确定拟 果不一定相同,如Groceries数据集下人为确定次 合曲线、最小支持度和最小置信度阈值。在两个 数有可能遗漏一些重要的规则。根据数据本身的 标准数据集Trolley和Groceries上的实验结果和 特性确定多项式的拟合次数算法,不需要用户具 分析表明,该方法对关联规则的进一步推广应用 备先验知识,在不指定多项式阶数、不指定最小 具有一定价值。 支持度和最小置信度阈值的情况下,自动获取数 据统计意义下的强关联规则。自适应多项式曲线 参考文献: 拟合方法为支持度和置信度的自动确定提供了更 [1]MALIK M,MAMTA,AGARWAL R P.A survey on asso- 具数据依赖意义的解决方案。 ciation rule mining[J].International journal of research in 表10强关联规则数目比较 engineering and applied sciences,2015,5(6):48-56. Table 10 Comparison of the strong association rules num- [2]XI Jianfeng,ZHAO Zhonghao,LI Wei,et al.A traffic ac- ber cident causation analysis method based on AHP-apriori[J]. 数据集 算法 强关联规则数目 Procedia engineering,2016,137:680-687 [3]ALWIDIAN J.HAMMO B H.OBEID N.WCBa: AARM BR 22 Trolley weighted classification based on association rules al- AdapARM 22 gorithm for breast cancer disease[J].Applied soft comput- AARM BR 786 ing.2018,62:536-549. Groceries AdapARM 339 [4]张良均,杨坦,肖刚,等.MATLAB数据分析与挖掘实 战M个.北京:机械工业出版社,2016. 从时间复杂度角度分析,本算法只在经典算 [5]SCHEFFER T.Finding association rules that trade support 法Aprori算法的基础上增加了两个步骤:排序和 optimally against confidence[C]//European Conference on 多项式阶次自动确定,其中排序的时间复杂度为 Principles of Data Mining and Knowledge Discovery.Ber- O(nlogn)),多项式阶次的自动确定时间复杂度为 lin,Heidelberg,2001:424-435. Okm:与AdapARM算法比较,只多了一步自动确 [6]AL-MAQALEH B M,SHAAB S K.Efficient algorithm 定多项式阶次的单层循环。这里增加的时间在整 for mining association rules using confident frequent item- 个算法中占用很小,可忽略不计,同时对自动确 sets[C]//Third International Conference on Advanced 定最小支持度和最小置信度具有指导意义。 Computing and Communication Technologies.Rohtak,In- dia,2013 5结束语 [7]吴华瑞,张凤霞,赵春江.一种多重最小支持度关联规则 挖掘算法[].哈尔滨工业大学学报,2008,40(9): 文中提出一种基于可决系数的数据自适应多 1447-1451 项式拟合曲线确定支持度和置信度阈值的关联规 WU Huarui,ZHANG Fengxia,ZHAO Chunjiang.An al- 则挖掘算法AARM BR。以曲线拟合的精确程度 gorithm for mining association rules with multiple minim- R为判断依据,自适应确定多项式拟合曲线的次 um supports[J].Journal of Harbin Institute of Technology, 数及多项式,在此基础上求取k次拟合多项式的 2008,40(9):1447-1451. 二阶导函数为零的点x及其函数值xo),作为支 [8]陈柳,冯山.正负关联规则两级置信度阈值设置方法最后,根据最小置信度确定强关联规则,得到 结果如表 10 所示。 上述算法挖掘结果比较可以看出,自适应多 项式挖掘的结果与人为确定多项式次数的挖掘结 果不一定相同,如 Groceries 数据集下人为确定次 数有可能遗漏一些重要的规则。根据数据本身的 特性确定多项式的拟合次数算法,不需要用户具 备先验知识,在不指定多项式阶数、不指定最小 支持度和最小置信度阈值的情况下,自动获取数 据统计意义下的强关联规则。自适应多项式曲线 拟合方法为支持度和置信度的自动确定提供了更 具数据依赖意义的解决方案。 从时间复杂度角度分析,本算法只在经典算 法 Aprori 算法的基础上增加了两个步骤:排序和 多项式阶次自动确定,其中排序的时间复杂度为 O(nlogn),多项式阶次的自动确定时间复杂度为 O(kn);与 AdapARM 算法比较,只多了一步自动确 定多项式阶次的单层循环。这里增加的时间在整 个算法中占用很小,可忽略不计,同时对自动确 定最小支持度和最小置信度具有指导意义。 5 结束语 文中提出一种基于可决系数的数据自适应多 项式拟合曲线确定支持度和置信度阈值的关联规 则挖掘算法 AARM_BR。以曲线拟合的精确程度 R 2 为判断依据,自适应确定多项式拟合曲线的次 数及多项式,在此基础上求取 k 次拟合多项式的 二阶导函数为零的点 x0 及其函数值 f(x0 ),作为支 持数和置信度阈值,进而获取数据依赖意义下最 小支持数和最小置信度及其强关联规则。该方法 根据数据自身特点,在用户不具备经验知识、不 指定支持度和置信度阈值的情况下,自动确定拟 合曲线、最小支持度和最小置信度阈值。在两个 标准数据集 Trolley 和 Groceries 上的实验结果和 分析表明,该方法对关联规则的进一步推广应用 具有一定价值。 参考文献: MALIK M, MAMTA, AGARWAL R P. A survey on asso￾ciation rule mining[J]. International journal of research in engineering and applied sciences, 2015, 5(6): 48–56. [1] XI Jianfeng, ZHAO Zhonghao, LI Wei, et al. A traffic ac￾cident causation analysis method based on AHP-apriori[J]. Procedia engineering, 2016, 137: 680–687. [2] ALWIDIAN J, HAMMO B H, OBEID N. WCBa: weighted classification based on association rules al￾gorithm for breast cancer disease[J]. Applied soft comput￾ing, 2018, 62: 536–549. [3] 张良均, 杨坦, 肖刚, 等. MATLAB 数据分析与挖掘实 战 [M]. 北京: 机械工业出版社, 2016. [4] SCHEFFER T. Finding association rules that trade support optimally against confidence[C]//European Conference on Principles of Data Mining and Knowledge Discovery. Ber￾lin, Heidelberg, 2001: 424–435. [5] AL-MAQALEH B M, SHAAB S K. Efficient algorithm for mining association rules using confident frequent item￾sets[C]//Third International Conference on Advanced Computing and Communication Technologies. Rohtak, In￾dia, 2013. [6] 吴华瑞, 张凤霞, 赵春江. 一种多重最小支持度关联规则 挖掘算法 [J]. 哈尔滨工业大学学报, 2008, 40(9): 1447–1451. WU Huarui, ZHANG Fengxia, ZHAO Chunjiang. An al￾gorithm for mining association rules with multiple minim￾um supports[J]. Journal of Harbin Institute of Technology, 2008, 40(9): 1447–1451. [7] [8] 陈柳, 冯山. 正负关联规则两级置信度阈值设置方法 [J]. 表 9 最小置信度比较 Table 9 Comparison of minimum confidence 数据集 算法 二阶导函数(置信度) minConf Trolley AARM_BR h"T (x)=8.010 1×10−4−3.371 0×10−5 x 0.612 637 3 AdapARM h"T (x)=8.010 1×10−4−3.371 0×10−5 x 0.612 637 3 Groceries AARM_BR h"G (x)=3.197 6×10−6−4.064 6×10−9 x 0.099 430 9 AdapARM h"G (x)=1.340 5×10−5−3.855 8×10−8 x 0.115 844 4 表 10 强关联规则数目比较 Table 10 Comparison of the strong association rules num￾ber 数据集 算法 强关联规则数目 Trolley AARM_BR 22 AdapARM 22 Groceries AARM_BR 786 AdapARM 339 ·358· 智 能 系 统 学 报 第 15 卷
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有