第三章聚类分析 (Cluster Analysis)
zf 第三章 聚类分析 (Cluster Analysis)
3.1聚类分析的基本思想 ☆一、什么是聚类分析? ◆聚类分析(P54) 是根据“物以类聚”的道理,对样品或指标进行分类 的一种多元统计分析方法 将个体或对象分类,使得同一类中的对象之间的相似 象的相 ◆聚类分析的目的(P54) 使类内对象的同质性最大化和类间对象的异质性 最大化 2021/2/22 2 cxt
2021/2/22 2 cxt 3.1 聚类分析的基本思想 ❖ 一、什么是聚类分析? ❖ 聚类分析(P54) 是根据“物以类聚”的道理,对样品或指标进行分类 的一种多元统计分析方法。 将个体或对象分类,使得同一类中的对象之间的相似 性比与其他类的对象的相似性更强。 ❖ 聚类分析的目的(P54) 使类内对象的同质性最大化和类间对象的异质性 最大化
今聚类分析的应用:无处不在 ◆早在孩提时代,人就通过不断改进下意识中的聚类 模式来学会如何区分猫和狗,动物和植物 ◆谁经常光顾商店,谁买什么东西,买多少? 按忠诚卡记录的光临次数、光临时间、性别、年龄、职 业、购物种类、金额等变量分类 这样商店可以… 识别顾客购买模式(如喜欢一大早来买酸奶和鲜肉,习 惯周末时一次性大采购) 刻画不同的客户群的特征(用变量来刻画,就象刻画猫 和狗的特征一样) 2021/2/22 cxt
2021/2/22 3 cxt ❖ 聚类分析的应用:无处不在 ❖ 早在孩提时代,人就通过不断改进下意识中的聚类 模式来学会如何区分猫和狗,动物和植物 ❖ 谁经常光顾商店,谁买什么东西,买多少? ◼ 按忠诚卡记录的光临次数、光临时间、性别、年龄、职 业、购物种类、金额等变量分类 ◼ 这样商店可以…. ◼ 识别顾客购买模式(如喜欢一大早来买酸奶和鲜肉,习 惯周末时一次性大采购) ◼ 刻画不同的客户群的特征(用变量来刻画,就象刻画猫 和狗的特征一样)
令为什么这样分类?(分类的好处) ■因为每一个类别里面的人消费方式都不一样, 需要针对不同的人群,制定不同的关系管理方 式,以提高客户对公司商业活动的参与率。 ■挖掘有价值的客户,并制定相应的促销策略: 如,对经常购买酸奶的客户 对累计消费达到12个月的老客户 ■针对潜在客户派发广告,比在大街上乱发传单 命中率更高,成本更低! 2021/2/22 4 cxt
2021/2/22 4 cxt ❖ 为什么这样分类?(分类的好处) ◼ 因为每一个类别里面的人消费方式都不一样, 需要针对不同的人群,制定不同的关系管理方 式,以提高客户对公司商业活动的参与率。 ◼ 挖掘有价值的客户,并制定相应的促销策略: 如,对经常购买酸奶的客户 对累计消费达到12个月的老客户 ◼ 针对潜在客户派发广告,比在大街上乱发传单 命中率更高,成本更低!
◆谁是银行信用卡的黄金客户? ■利用储蓄额、刷卡消费金额、诚信度等变量对 客户分类,找出“黄金客户”! ■这样银行可以… ■制定更吸引的服务,留住客户!比如: 口一定额度和期限的免息透资服务! 口百盛的贵宾打折卡! 口在他或她生日的时候送上一个小蛋糕! 2021/2/22 5 cxt
2021/2/22 5 cxt ❖ 谁是银行信用卡的黄金客户? ◼ 利用储蓄额、刷卡消费金额、诚信度等变量对 客户分类,找出“黄金客户”! ◼ 这样银行可以…… ◼ 制定更吸引的服务,留住客户!比如: 一定额度和期限的免息透资服务! 百盛的贵宾打折卡! 在他或她生日的时候送上一个小蛋糕!
◆例1对10位应聘者做智能检验。3项指标X, Y和Z分别表示数学推理能力,空间想象能力 和语言理解能力。其得分如下,选择合适的 统计方法对应聘者进行分类。 应聘者12345678910 28181121262016142422 Y 29232223292322232927 28181622262222242424 2021/2/22 6 cxt
2021/2/22 6 cxt ❖ 例1 对10位应聘者做智能检验。3项指标X, Y和Z分别表示数学推理能力,空间想象能力 和语言理解能力。其得分如下,选择合适的 统计方法对应聘者进行分类。 应聘者 1 2 3 4 5 6 7 8 9 10 X 28 18 11 21 26 20 16 14 24 22 Y 29 23 22 23 29 23 22 23 29 27 Z 28 18 16 22 26 22 22 24 24 24
Name of obseryat ion or Cluster 6 0.000.050.100.150.200.250.300.350,400,450,500.55.600.650,70 Sem i-ParE ial R- squal 2021/2/22
2021/2/22 7 cxt
Name of Observat ion or Cluster 0.000.050.100.150.200.250.300.350.400.450.500.550.600.650.70 Sem i-Part iaI R-Squared 2021/2/22 8 cxt
2021/2/22 8 cxt
◇例如当我们对企业的经济效益进行评价时, 建立了一个由多个指标组成的指标体系,由 于信息的重叠,一些指标之间存在很强的相 关性,所以需要将相似的指标聚为一类,从 而达到简化指标体系的目的。 2021/2/22 cxt
2021/2/22 9 cxt ❖ 例如当我们对企业的经济效益进行评价时, 建立了一个由多个指标组成的指标体系,由 于信息的重叠,一些指标之间存在很强的相 关性,所以需要将相似的指标聚为一类,从 而达到简化指标体系的目的
◆二、聚类分析的基本思想 是根据批样品的多个观测指标,具体地找出一些 能够度量样品或指标之间相似程度的统计量,然 后利用统计量将样品或指标进行归类。把相似的 样品或指标归为一类,把不相似的归为其他类。 直到把所有的样品(或指标)聚合完毕. 今相似样本或指标的集合称为类。 ◇问题:如何来选择样品(或指标)间相似的测 度指标,如何将有相似性的类连接起来? 2021/2/22 10 cxt
2021/2/22 10 cxt ❖ 二、聚类分析的基本思想: 是根据一批样品的多个观测指标,具体地找出一些 能够度量样品或指标之间相似程度的统计量,然 后利用统计量将样品或指标进行归类。把相似的 样品或指标归为一类,把不相似的归为其他类。 直到把所有的样品(或指标)聚合完毕. ❖ 相似样本或指标的集合称为类。 ❖ 问题:如何来选择样品(或指标)间相似的测 度指标,如何将有相似性的类连接起来?