公杨学兵等基于数据立方体的维内关联规则挖

正在加载图片...

Vol.25 No.1 杨学兵等：基于数据立方体的维内关联规则挖掘算法 ·85· 掘算法是通过对文献[10]中提出的算法进行改进集，它不同于算法1.算法1每次扫描时只处理一得来的，算法仅需两次扫描数据立方体种长度的项目集，而算法2在一次扫描时需处理 2.2新的维内频繁集生成算法（算法2）多种长度的项目集，算法2在处理每个事务时，输人：数据立方体C(transactions,items),C中事也用到了Apriori性质，这样就避免了对所有长度务维中事务已按顺序编号，ISC=☑ 的项目进行处理，而只处理那些最有可能成为频输出：频繁项目集ISC 繁集的项目.很显然，单次扫描，其耗时是多于算步骤1，执行PHASE I;步骤2，执行PHASEⅡ；法1，但由于算法1需扫描二维立方体以处理多步骤3，输出SC 种长度的项目集，其总耗时会随着扫描次数的增其中子过程如下：加而迅速增加.算法2的第二次扫描仅仅是求精 (I)PHASE I(第一次扫描). 频繁集，因此第二次扫描耗时比第一次扫描耗时输人：数据立方体C(transactions,items),C中要少事务维各事务依次编号，总事务数为n.Min sup pot为用户给定的最低支持度，实验输出：可能频繁集1SC 步骤1，初始化.ISC-),curr trans-0;步骤2，实验在P2机器上进行，操作系统是Windows 对二维立方体中count>0(通过OLAP引擎得到)的 98,数据库采用SQL Server7.0数据库，算法用C+ 每个事务T进行以下操作 +Builder5.0来实现，被测数据是合肥市农河超市 ①增加计数.对所有属于SC的T的子集，其的实际营业数据，以购买的商品名称作为项目在ISC中的对应count+-. 维，购买序号作为事务维，具体见表1. ②插人新结点.对所有不属于ISC的T的子算法1和2对Sales挖掘结果的比较如图3所集1，若t的所有子集t均在ISC中，则将t加人ISC 示.表2为两算法执行的具体结果数据中，并置表1实验用测试数据 max missed () Table 1 Test data min {(curr_trans-1).min_support,max_missed Sales数据/个总事务数/个记录个数/个 (t )+count (f)fCt) 2000 2000 7418 5000 node.itemset=t,node.count=1,node.firstposition= 5000 16645 10000 10000 28971 curr trans. ③修剪.对ISC中的所有项目集，计算其最大可能支持度，若不满足支持度条件，则将其从SC 2500 2000 中删除.最大可能支持度通过下式得到： max prop_support()-max missed()count() 算法1 curr trans 1000 (2)PHASEⅡ（第二次扫描） 800 输入：数据立方体C,可能频繁集ISC. 600 算法2 400 输出：频繁项目集SC. 200 步骤：对于二维立方体C中的每个count>0的 0.5 0.2 0.1 0.05 事务T,进行如下操作最小支持度% 对于所有属于SC的T的子集：，若当前事务图3算法1和2对Sales挖掘执行性能的比较号小于ISC中对应的firstposition,则其ISC中相应 Fig.3 Comparison of mining efficiency between the two algorithms 的counti+,max_missed--;若当前事务号等于 ISC中对应的firstposition,则置ISC中相应的max 从图3中可以看出，在最小支持度较大时，两 missed--O,此时计算其支持度，若小于最小支持算法执行时间较为接近，相比之下，算法1执行度，则从ISC中删除t及所有以1为子集的项目集. 时间比算法2要短.这主要是由于在最小支持度 (3)算法分析较大时，产生的频繁集数目较少，k-itemset中的k 算法2在第一次扫描时，产生估计频繁项目值很小，甚至≤2.在这种情形下，它对立方体的公杨学兵等基于数据立方体的维内关联规则挖掘算法掘算法是通过对文献【中提出的算法进行改进得来的，算法仅需两次扫描数据立方体新的维内频繁集生成算法算法输入数据立方体，，中事务维中事务已按顺序编号，输出频繁项目集步骤，执行步骤，执行步骤，输出其中子过程如下以第一次扫描输人数据立方体，，中事务维各事务依次编号，总事务数为为用户给定的最低支持度输出可能频繁集步骤，初始化， ’ 步骤，对二维立方体中。通过引擎得到的每个事务丁进行以下操作 ①增加计数对所有属于的的子集，其在中的对应 ②插入新结点对所有不属于的的子集，若的所有子集均在中，则将加人中，并置一 ’ 一 · ， ’ ‘ ，，仃 ③修剪，对中的所有项目集，计算其最大可能支持度，若不满足支持度条件，则将其从中删除最大可能支持度通过下式得到集，它不同于算法算法每次扫描时只处理一种长度的项目集，而算法在一次扫描时需处理多种长度的项目集算法在处理每个事务时，也用到了性质，这样就避免了对所有长度的项目进行处理，而只处理那些最有可能成为频繁集的项目很显然，单次扫描，其耗时是多于算法，但由于算法需扫描二维立方体以处理多种长度的项目集，其总耗时会随着扫描次数的增加而迅速增加算法的第二次扫描仅仅是求精频繁集，因此第二次扫描耗时比第一次扫描耗时要少实验实验在机器上进行，操作系统是，数据库采用数据库，算法用十来实现，被测数据是合肥市农河超市的实际营业数据，以购买的商品名称作为项目维，购买序号作为事务维，具体见表算法和对挖掘结果的比较如图所示表为两算法执行的具体结果数据表实验用测试数据尸介 ’ 数据个总事务数个记录个数个一算法夕汀第二次扫描输人数据立方体，可能频繁集输出频繁项目集步骤对于二维立方体中的每个。的事务，进行如下操作对于所有属于的的子集，若当前事务号小于中对应的，则其中相应的。，一一若当前事务号等于中对应的，则置中相应的企，此时计算其支持度，若小于最小支持度，则从中删除及所有以为子集的项目集算法分析算法在第一次扫描时，产生估计频繁项目，最小支持度图算法和对挖掘执行性能的比较 · 从图中可以看出，在最小支持度较大时，两算法执行时间较为接近，相比之下，算法执行时间比算法要短这主要是由于在最小支持度较大时，产生的频繁集数目较少，今中的值很小，甚至 ‘ 在这种情形下，它对立方体的

<<向上翻页向下翻页>>

点击下载：基于数据立方体的维内关联规则挖掘算法