
机器学习与智能金融第三章关联实现推荐关联分析与协同过滤
机器学习与智能金融 第三章 关联实现推荐 关联分析与协同过滤

本讲主要内容关联规则分析与算法原理编程实现与案例三关联规则在推荐系统中的应用
本讲主要内容 一 关联规则分析与算法原理 二 编程实现与案例 三 关联规则在推荐系统中的应用

关联规则分析关联分析又称关联挖掘,就是在交易数据、关系数据或其他信息载体中,查找存在于项目集合或对象集合之间的频繁模式、关联、相关性或因果结构。典型例子:购物篮分析,寻找出频繁出现在一起的组合。作为个性化推荐的依据!金融领域引申·银行客户端的理财推荐系统分析优秀基金经理频繁购买的金融产品组合,是否是跑赢大盘的有效组合?
关联规则分析 关联分析又称关联挖掘,就是在交易数据、关系数据或其他信息载体中,查 找存在于项目集合或对象集合之间的频繁模式、关联、相关性或因果结构。 • 购物篮分析,寻找出频繁出现在一起的组合。作为个性化推荐的依据! • 金融领域引申 ◈银行客户端的理财推荐系统 ◈分析优秀基金经理频繁购买的金融产品组合,是否是跑赢大盘的有效组合? 典型例子:

Apriori算法的输入输出一组人的交易清单。每一笔交易(Transaction)包含一系列的商品(Items)根据该交易清单寻找哪些商品经常一起出现,即关联规则(Rules)
一组人的交易清单。 每一笔交易(Transaction)包含一系列的商品(Items)。 根据该交易清单寻找哪些商品经常一起出现,即关联规则(Rules)。 Apriori 算法的输入输出

Apriori算法基本概念项集:包含0个或多个项的集合被称为项集(ItemSet)·如果一个项集包含k个项,则称它为k-项集。例如啤酒,尿布,牛奶,花生}是一个4-项集。空集是指不包含任何项的项集。超集/子集项集A二项集B,则A是B的子集,B是A的超集。频繁项集:在整个交易清单中,包含该项集的条目(占总条目的比例超过某一阈值的项集
Apriori 算法基本概念 项集:包含0个或多个项的集合被称为项集(ItemSet)。 • 如果一个项集包含k个项,则称它为k-项集。例如{啤酒,尿布,牛奶,花生} 是一个4-项集。空集是指不包含任何项的项集。 超集/子集 • 项集A⊆项集B,则A是B的子集,B是A的超集。 频繁项集:在整个交易清单中,包含该项集的条目(占总条目的比例) 超过某一阈值的项集

Apriori算法一种频繁项集算法定理:如果一个项集是频繁的,则它的所有子集一定也是频繁的;相反,如果一个项集是非频繁的,则它的所有超集也一定是非频繁的核心思想是把发现关联规则的工作分为两步:·第一步通过选代检索出数据库中的所有频繁项集,即频繁项集的支持度不低于用户设定的阈值。第二步从频繁项集中构造出满足用户最低信任度的规则
Apriori 算法 一种频繁项集算法 定理:如果一个项集是频繁的,则它的所有子集一定也是频繁的;相反, 如果一个项集是非频繁的,则它的所有超集也一定是非频繁的 • 第一步通过迭代检索出数据库中的所有频繁项集,即频繁项集的支持度不低 于用户设定的阈值。 核心思想是把发现关联规则的工作分为两步: • 第二步从频繁项集中构造出满足用户最低信任度的规则

相关指标关联规则(associationrule):是形如X→Y的蕴含表达式,其中X和Y是不相交的项集。支持度:一个项集或者规则在所有事物中出现的频率,确定规则可以用于给定数据集的频繁程度o(X):表示项集X的支持度计数项集X的支持度:support(X)=o(X)/N·规则X→Y的支持度:support(X→Y)=o(XUY)/N
相关指标 关联规则(association rule):是形如 X → Y 的蕴含表达式,其中X和 Y是不相交的项集。 支持度:一个项集或者规则在所有事物中出现的频率,确定规则可以 用于给定数据集的频繁程度 • σ(X):表示项集X的支持度计数 • 项集X的支持度:support(X)=σ(X)/N • 规则X → Y的支持度: support(X → Y) = σ(X∪Y) / N

相关指标置信度(或信任度):确定Y在包含X的事务中出现的频繁程度。confidence(X→Y)=support(XUY)/ support(X)P(Y| X) =P(X,Y)/P(X)支持度很低的规则可能只是偶然出现,低支持度的规则多半也是无意义的。支持度通常用来删去那些无意义的规则。置信度度量是通过规则进行推理具有可靠性。,对于给定的规则X一→Y,置信度越高,Y在给定X下的条件概率P(YIX)越大
相关指标 置信度(或信任度):确定Y在包含X的事务中出现的频繁程度。 支持度很低的规则可能只是偶然出现,低支持度的规则多半也是无意义的。 • confidence(X → Y) = support(X∪Y)/ support(X) • P (Y| X) =P(X,Y)/P(X) • 对于给定的规则X → Y,置信度越高,Y在给定X下的条件概率P(Y|X)越大。 支持度通常用来删去那些无意义的规则。 置信度度量是通过规则进行推理具有可靠性

五种商品购物篮的所有组合f(n) = 2n - 1CD-BCBDBECDCAECEACADABE(ACD)(ACEADEBCDBCE(ABD)BDECDEABCF.(ABCEABDEACDE(ABCDBCDEABCDE
五种商品购物篮的所有组合

剪枝频繁集非频繁集AEBCBDBECDADCEABACDFABCABDABEACD(ACEADEBCDBCEBDECDEABCDABCEABDEACDEBCDE被剪枝的ABCDE超集大大减少了计算量
剪枝