
第四讲聚类分析及其在金融运用
聚类分析及其在金融运用 第四讲

章前导读010302大数据聚类是数据密在大数据时代中,如聚类分析是何概念?集型科学的基础性、普遍何从庞杂的数据资源中挖有哪些具体的分析方法?性问题,是数据分析的重掘优质信息成为重要问题其在各领域尤其是金融领要基础,聚类分析就是数域是怎样应用的?据挖掘的实用方法之一
章前导读 在大数据时代中,如 何从庞杂的数据资源中挖 掘优质信息成为重要问题。 大数据聚类是数据密 集型科学的基础性、普遍 性问题,是数据分析的重 要基础,聚类分析就是数 据挖掘的实用方法之一。 02 聚类分析是何概念? 有哪些具体的分析方法? 其在各领域尤其是金融领 域是怎样应用的? 03

目录CONTENT聚类的基本概念聚类的原理与算法聚类的金融案例
目 录

01聚类的基本概念
01 聚类的基本概念

聚类分析(cluster Analysis)指将物理或抽象对象的集合分组为由类似的对象组成的多个类的分析过程聚类所要求划分的类是未知的。聚类分析是一种探索性的分析,在分类的过程中,人们不必事先给出一个分类的标准,聚类分析能够从样本数据出发,自动进行分类
聚类分析(cluster Analysis) • 指将物理或抽象对象的集合分组为由类 似的对象组成的多个类的分析过程。 • 聚类所要求划分的类是未知的。 • 聚类分析是一种探索性的分析,在分 类的过程中,人们不必事先给出一个 分类的标准,聚类分析能够从样本数 据出发,自动进行分类

聚类分析方法基于划分的聚类算法基于层次的聚类算法对散点进行聚类,挑选几个点作为初始中心平衡迭代削减聚类法:构建聚类特征树,利点,根据一定规则选代重置聚类中心点:适用树结构快速聚类用于小规模数据K-means:计算样本点与类簇质心的距离基于层次的聚类算法与类簇质心相近的样本点划分为同一类簇通过样本间的距离来衡量相似度该算法能够用于挖掘任意形状的簇,并且能有效过滤掉噪声样本对于聚类结果的影响。K质心选择原有样本中的样本点作为代表对象来代表这个簇,计算剩下的样本点与代表DBSCAN:将具有足够密度的区域划分为对象的距离将样本点划分到与其距离最近并在具有噪声的空间数据库中发现任意形状的代表对象所在的族中。的族,将族定义为密度相连的点的最大集合
聚类分析方法 基于划分的聚类算法 • 对散点进行聚类,挑选几个点作为初始中心 点,根据一定规则迭代重置聚类中心点;适 用于小规模数据。 • K-means:计算样本点与类簇质心的距离, 与类簇质心相近的样本点划分为同一类簇, 通过样本间的距离来衡量相似度。 • K质心:选择原有样本中的样本点作为代表对 象来代表这个簇,计算剩下的样本点与代表 对象的距离,将样本点划分到与其距离最近 的代表对象所在的簇中。 基于层次的聚类算法 • 平衡迭代削减聚类法:构建聚类特征树,利 用树结构快速聚类。 基于层次的聚类算法 • 该算法能够用于挖掘任意形状的簇,并且能 有效过滤掉噪声样本对于聚类结果的影响。 • DBSCAN:将具有足够密度的区域划分为簇, 并在具有噪声的空间数据库中发现任意形状 的簇,将簇定义为密度相连的点的最大集合

聚类分析方法商业领域面向客户确定客户群·描绘客户特征·定制化客户管理其他领域。动植物聚类、基因聚类,获取对种群固有结构的认识压缩图片、影像,修复文档
聚类分析方法 商业领域——面向客户 • 确定客户群 • 描绘客户特征 • 定制化客户管理 其他领域 • 动植物聚类、基因聚类,获取对种群固有结构的认识 • 压缩图片、影像,修复文档

聚类的金融应用场景股票投资策略分析金融机构资产配置精准营销策略制定股票内在价值V业务收益V客户基本特征√投资策略业务条线偏好V消费习惯投资风险等√平均期限等V风险偏好等
股票投资策略分析 ✓ 股票内在价值 ✓ 投资策略 ✓ 投资风险等 聚类的金融应用场景 金融机构资产配置 ✓ 业务收益 ✓ 业务条线偏好 ✓ 平均期限等 精准营销策略制定 ✓ 客户基本特征 ✓ 消费习惯 ✓ 风险偏好等

02聚类的原理与算法
02 聚类的原理与算法

聚类的原理与算法K均值系列算法K-means·K质心层次聚类算法平衡迭代削减聚类法95667平衡迭代削减聚类法69.77.2基于密度的聚类算法DBSCAN算法
聚类的原理与算法 K均值系列算法 • K-means • K质心 层次聚类算法 • 平衡迭代削减聚类法 • 平衡迭代削减聚类法 基于密度的聚类算法 • DBSCAN算法