北京科技大学学报年第期点，这个点称为方格

正在加载图片...

·84 北京科技大学学报 2003年第1期点，这个点称为方格.每个方格内存贮了与其对 itemset的候选集C,及l-itemset频繁集L,k=k+l. 应的各属性的值同时出现的次数，用count表示. 步骤3，重复利用频繁Lk-,生成中k-itemset候选集三维数据立方体如图1所示. Ck,再利用C.生成k-itemsets频繁集Lk,直至L=O. (I)利用L产生候选集C的子过程. 输人：Lk Any 62 35 97 输出：C Carry Bag 30 20 50 步骤1，先置C=O.步骤2，利用Apriori性质， Any Tents 32 15 47 West 重复对L-,中的长度为k-2且有k-3个项目相同 ation Clood Poor Any South 的频繁集进行两两连接，连接结果加入Ck. Profit (2)利用候选集C产生频繁集L的子过程. 图1数据立方体示意图输入：kC Fig.1 Sketch map of the data cube 输出：L. 2算法描述步骤1，先置L=O.步骤2，重复对候选集C 中的每个候选，通过OLAP引擎取得其对应的计维内关联规则是指在一个维内存在的关联数值，检查其是否满足最小支持度.若满足，则加规则，这个维称为项目维周.项目维内的项目通过人L 另外一个维来分组，形成一个个的事务，这另外 (3)算法分析. 的一个维称为事务维.因此，维内关联规则涉及算法的第一部分通过利用Apriori性质，即对到两个维.于是可以通过OLAP引擎创建一个两每两个(k-1)-itemset频繁项目集，若其有(k-2)个维的数据立方体作为工作数据立方体，以便用来共同项目，则可对这两个项目集进行连接作为一进行数据挖掘.下面以一个例子来说明. 个k-itemset,再通过判断此k-itemset的每个子集是例：用Sales数据库中Location作为事务维，否均为频繁项目集以确定其候选身份.如果任一 Product作为项目维，则相应的二维数据立方体如子集不为频繁项目集，则此k-itemset就不能作为图2所示.根据立方体的定义，每一个格子保存候选项目集.测试子集的次数可由了从原始关系中产生的计数(count)值 2-6Ls-×k-2》 (1) Any 70 ■185 175 70 500■ 来计算，其中n是可能的最多候选项目集数量， Alert devices 20 20 40 Lk-,eLt-,是指由(k-l)-itemset产生的k-itemset的数 Carry-bags 10 100 110 220 量.因为相连接的两个(k-l)-itemset本身是频繁 Sport wea 20 60 40 的，因此在检查时，只需对除此两个之外的其他 Tents 45 (k-2)个(k-1)子集检查即可. Water purifiers 20 25 30 75 算法的第二部分主要是扫描数据立方体，扫 Tokyo Seattle Mexic Hong Kong Any 描的循环次数取决于计算每个候选的支持度时 Location 所涉及到的方格数量，具体可通过图2一个用于挖掘维内关联规则的数据立方体 Fig.2 An example of the 2-dimensional data cube (Ck-transactions) (2) 1 来计算，其中C是候选集C中候选的个数，基于这一立方体的维内关联规则挖掘的算世ransactions是数据立方体中事务的数量法过程与Apriori算法十分相似，所不同的是对每根据式(1)和(2)，此算法的时间复杂度可大一候选项目集的支持度计算是通过对数据立方略地分为两个部分：检查子集是否频繁和扫描数体的一部分进行扫描，而不是对事务数据库中的据立方体.对于一个固定的最小支持度，上面两事务表.下面给出这一算法的描述个公式中的可变部分只有三个，即忆k-日L,C 2.1由Apriori改进的维内频繁集生成算法（算法1）和n,而影响这几个值的主要因素取决于数据立输入：一个二维数据立方体Cube[transactios, 方体的事务维和项目维的大小，两者越大，耗时 items].最小支持度min_supp 越多输出：维内频繁项目L 另一个基于数据立方体的维内关联规则挖步骤1，初始化，置k=1,L=O.步骤2，生成1-北京科技大学学报年第期点，这个点称为方格每个方格内存贮了与其对应的各属性的值同时出现的次数，用。表示三维数据立方体如图所示屡 ” “ 蒙翼翼翼薰霎刀矍介瓦不七磊一骂犷图数据立方体示意图 · 算法描述维内关联规则是指在一个维内存在的关联规则，这个维称为项目维‘川项目维内的项目通过另外一个维来分组，形成一个个的事务，这另外的一个维称为事务维因此，维内关联规则涉及到两个维于是可以通过引擎创建一个两维的数据立方体作为工作数据立方体，以便用来进行数据挖掘下面以一个例子来说明例用数据库中作为事务维，作为项目维，则相应的二维数据立方体如图所示根据立方体的定义，每一个格子保存了从原始关系中产生的计数值的候选集及卜讹频繁集乙，步骤，重复利用频繁几一生成中候选集，再利用生成频繁集，直至户必利用及一，产生候选集的子过程输人一， · 输出步骤，先置步骤，利用州性质，重复对一，中的长度为一且有一个项目相同的频繁集进行两两连接，连接结果加人利用候选集产生频繁集的子过程输入，输出步骤，先置产步骤，重复对候选集中的每个候选，通过引擎取得其对应的计数值，检查其是否满足最小支持度若满足，则加入 ‘ 算法分析算法的第一部分通过利用性质，即对每两个一频繁项目集，若其有一个共同项目，则可对这两个项目集进行连接作为一个，再通过判断此的每个子集是否均为频繁项目集以确定其候选身份如果任一子集不为频繁项目集，则此不就不能作为候选项目集测试子集的次数可由艺卜卜卜一一图一个用于挖掘维内关联规则的数据立方体一加基于这一立方体的维内关联规则挖掘的算法过程与算法十分相似，所不同的是对每一候选项目集的支持度计算是通过对数据立方体的一部分进行扫描，而不是对事务数据库中的事务表下面给出这一算法的描述由改进的维内频繁集生成算法算法输人一个二维数据立方体，最小支持度林输出维内频繁项目步骤，初始化，置，步骤，生成来计算，其中是可能的最多候选项目集数量，及一及一，是指由一卜产生的的数量因为相连接的两个一一本身是频繁的，因此在检查时，只需对除此两个之外的其他一个一子集检查即可算法的第二部分主要是扫描数据立方体，扫描的循环次数取决于计算每个候选的支持度时所涉及到的方格数量，具体可通过卜艺】卜 ’ 来计算，其中是候选集中候选的个数，是数据立方体中事务的数量根据式和，此算法的时间复杂度可大略地分为两个部分检查子集是否频繁和扫描数据立方体对于一个固定的最小支持度，上面两个公式中的可变部分只有三个，即陈一及一，和而影响这几个值的主要因素取决于数据立方体的事务维和项目维的大小，两者越大，耗时越多另一个基于数据立方体的维内关联规则挖

<<向上翻页向下翻页>>

点击下载：基于数据立方体的维内关联规则挖掘算法