关联规则- CARMA Continuous Association Rule mining Algorithm
关联规则--CARMA Continuous Association Rule Mining Algorithm
目录 >关联规则基本概念 > CARMA算法简介 > CARMA模块的基本概念 >案例分析及 Clementine操作步骤 >购物篮分析- Tabular类型数据 网络日志分析- Transactiona类型数据 值得注意的问题 > CARMA算法原理(参考)
目录 ➢关联规则基本概念 ➢CARMA算法简介 ➢CARMA模块的基本概念 ➢案例分析及Clementine操作步骤 ➢购物篮分析----Tabular类型数据 ➢网络日志分析----Transactional类型数据 ➢值得注意的问题 ➢CARMA算法原理(参考)
关联规则算法简介 关联分析的目的是寻找数据项间的相关 性.常用技术: 关联规则:即寻找在同一个事件中出现 的不同项目的相关性 ③鷃闢被 例如:找出顾客经常同 购物篮 ^时购买哪些商品。网民 /古/ 顾客1 顾客2 浏览的网页之间有没有 市场分析员 糖鸡蛋 什么关联性
关联规则算法简介 • 关联分析的目的是寻找数据项间的相关 性.常用技术: – 关联规则:即寻找在同一个事件中出现 的不同项目的相关性 • 例如:找出顾客经常同 时购买哪些商品。网民 浏览的网页之间有没有 什么关联性
CARMA算法简介 CARMA是一种比较新的关联规则算法,它是1999年由 Berkeley大学的 Christian hidber教授提出来的。 On-line 能够处理在线连续交易流数据 CARMA|仅需一次,最 4古用内存少 多两次对数据 的扫描就可以 允许在算法执行过程中构造出结果集 按需要重新设置支持度
CARMA算法简介 CARMA是一种比较新的关联规则算法,它是1999年由 Berkeley大学的Christian Hidber教授提出来的。 1 2 3 4 能够处理在线连续交易流数据 仅需一次,最 多两次对数据 的扫描就可以 允许在算法执行过程中 构造出结果集 按需要重新设置支持度 占用内存少 CARMA On-line
CARMA模块中的基本概念 Antecedent& Consequent 它们指的是规则的前项和后项。 后项 Consequent 前项 面包 牛奶 总共4条购买数据,其中有三条 Antecedent 都包含 bread,那么该条规则的 instances等于3 .stances PI P2 P3 P4 对于每一条规则,它的1 bread cheese butter water Instances值指的是所有2-m1-mad noodle 记录中包含该规则的 3 orange noodlemeat eer antecedent的记录的数量。 softdri frozen fish bread n ea
CARMA模块中的基本概念 • Antecedent&Consequent 它们指的是规则的前项和后项。 • Instances 对于每一条规则,它的 Instances值指的是所有 记录中包含该规则的 antecedent的记录的数量。 前项 面包 牛奶 Antecedent 后项 Consequent ID P1 P2 P3 P4 1 bread cheese butter water 2 water milk bread noodle 3 orange noodle meat beer 4 fish softdri nk frozenm eal bread 总共4条购买数据,其中有三条 都包含bread,那么该条规则的 instances等于3
CARMA模块中的基本概念 upport Support=3/4×100%=75% 它的定义和 instances很接 近,不同的是 support描述 四条记录中只有一条既包含了前项 的不是数量,而是比例 bread,又包含了后向milk,所以 Rule support=1/4X100%=25% Rule support ID PI P2 P3 P4 它在 Support定义的基础 bread eese butter water 上更进一步,它指的是 所有记录中既包含某规 water milk bread noodle 则的 antecedent,又包含 I noodle meat beer consequent的记录所占 的比例。 fish softer/ frozen bread nk
CARMA模块中的基本概念 • Support 它的定义和instances很接 近,不同的是support描述 的不是数量,而是比例。 • Rule Support 它在Support定义的基础 上更进一步,它指的是 所有记录中既包含某规 则的antecedent,又包含 consequent的记录所占 的比例。 ID P1 P2 P3 P4 1 bread cheese butter water 2 water milk bread noodle 3 orang e noodle meat beer 4 fish softdri nk frozenm eal bread Support=3/4×100%=75% 四条记录中只有一条既包含了前项 bread,又包含了后向milk,所以 Rule Support=1/4×100%=25%
CARMA模块中的基本概念 Confidence 根据规则“面包=》牛奶”, 那么购买了面包的第一、二及 Confidence 四行都会被预测购买了牛奶, 但事实上这三个预测只有第二 Rule support / Support 个是正确的,所以 该指标反映的是规则预测的 confidence=1/3X100%=33. 3% 准确程度。 Deployability ID P1 P2 P3 P4 ch bread butter water Deployabilit 2 water milk bread noodle Support Rule support meat eer 它的作用与 confidence类似 3 orangnoodl fish softdr frozen bread ink meal
CARMA模块中的基本概念 • Confidence Confidence = Rule Support / Support 该指标反映的是规则预测的 准确程度。 • Deployability Deployability = Support – Rule Support 它的作用与confidence类似。 ID P1 P2 P3 P4 1 bread chees e butter water 2 water milk bread noodle 3 orang e noodl e meat beer 4 fish softdr ink frozen meal bread 根据规则“面包=》牛奶”, 那么购买了面包的第一、二及 四行都会被预测购买了牛奶, 但事实上这三个预测只有第二 个是正确的,所以 confidence=1/3×100%=33.3%
CARMA模块中的基本概念 ·Lift 如果采 在已知某规则的 的规 是有的么时 consequent发生 车6 66% 猜测图 50% 少呢??? 的先验概率的情况 下,某规则的Lift 被定义为 Confidence P1 P2 P3 P4 和该先验概率的比 chees rea butter water e 率值。 2 water milk bread noodle 已知有50%的人 3 milk noodl meat beer 购买了牛奶:) softer frozen fish eal bread ink
CARMA模块中的基本概念 • Lift 在已知某规则的 consequent发生 的先验概率的情况 下,某规则的Lift 被定义为Confidence 和该先验概率的比 率值。 ID P1 P2 P3 P4 1 bread chees e butter water 2 water milk bread noodle 3 milk noodl e meat beer 4 fish softdr ink frozenm eal bread 那么对于一条记录,那么不 采用任何规则进行预测,随 便猜测该顾客是否该买牛奶 的正确率是50% 已知有50%的人 购买了牛奶:) 如果采用“面包=》牛奶” 的规则进行预测的话,正 确率,即 confidence=33.3%比随便 猜测的正确率还低。 那么此时的 Lift值为多 少呢??? Lift=33.3%/50%=66.6%1 的规则才是有意义的 规则☺
源数据格式 CARMA模块能够处理一下两种格式的数据 Tabular数据格式 Transactional数据格式 Customer purchase Customer Jam Bread Milk Jam T 123 2 milk T T bread am bread milk
源数据格式 • CARMA模块能够处理一下两种格式的数据 • Tabular数据格式 Transactional数据格式
案例研究之购物篮分析 数据准备 使用数据为 clementine自带的 Basketsln数据集; 该数据集样本量为1000,每笔交易包含了顾客的卡 号、性别、年龄、收入、付款方式等一系列个人信 息,以及其购买的各种食品清单: 该数据集为 Tabular格式的数据。 研究目的 为超市货架的摆放提供科学的依据 为超市商品促销决策提供支持
案例研究之购物篮分析 • 数据准备 • 使用数据为clementine自带的Baskets1n数据集; • 该数据集样本量为1000,每笔交易包含了顾客的卡 号、性别、年龄、收入、付款方式等一系列个人信 息,以及其购买的各种食品清单; • 该数据集为Tabular格式的数据。 • 研究目的 • 为超市货架的摆放提供科学的依据; • 为超市商品促销决策提供支持