
福第二讲金融大数据的降维
第二讲 金融大数据的降维

章前导读1一在大数据时代,如何处理高维数据是机器学习中的重要组成部分2一高维空间常存在数据稀疏问题,高维的样本空间还会对距离计算带来很大的麻烦面对高维数据,如何降低数据维度同时保持其3一特征信息?各类降维方法有哪些优点与局限?面对不同的应用场景,又该如何选择降维方法?
在大数据时代,如何处理高维数据是机 器学习中的重要组成部分。 1 高维空间常存在数据稀疏问题,高维的样 本空间还会对距离计算带来很大的麻烦。 2 面对高维数据,如何降低数据维度同时保持其 特征信息?各类降维方法有哪些优点与局限? 面对不同的应用场景,又该如何选择降维方法? 3 章前导读

学习目标了解数据降维的动机、常用方法了解作用和应用场景掌握数据降维的准备工作、主要方法及其代码实现了解数据降维在金融领域的运用
⚫ 了解作用和应用场景 ⚫ 了解数据降维的动机、常用方法 ⚫ 了解数据降维在金融领域的运用 ⚫ 掌握数据降维的准备工作、主要方法及其代码实现 学习目标

本讲内容数据降维概述及其运用场景数据降维的主成分分析准备工作g-0?B数据降维在金因子分析融领域的运用
本讲内容 数据降维的 准备工作 数据降维概述 及其运用场景 主成分分析 数据降维在金 因子分析 融领域的运用

数据降维概述及其运用场景一
一、数据降维概述及其运用场景

数据降维的动机维数灾难在涉及到向量计算的问题中,随着维数的增加,计算量呈指数倍增长,样本点所包含的信息密度随维度增加而降低,相同的测度时在高维空间需要更多的样本点作为支撑。维数灾难的后果分类模型过拟合,进而导致预测能力下降
数据降维的动机 维数灾难 • 在涉及到向量计算的问题中,随着维数的增加,计算量呈指数倍增长。 • 样本点所包含的信息密度随维度增加而降低,相同的测度时在高维空 间需要更多的样本点作为支撑。 维数灾难的后果 • 分类模型过拟合,进而导致预测能力下降

数据降维的常用方法数据降维的本质学习映射函数f(x)=y,其中x是原始高维向量,y是映射后的低维向量。数据降维的方法特征选择一一挑选特征的子集。保留的特征全部来源于原特征集特征提取一一获得原来特征的线性(或者非线性)组合。经过特征提取后的变量不能在原来的特征集中找到
数据降维的常用方法 学习映射函数𝑓(𝒙)=𝒚,其中𝒙是原始高维向量,𝒚是映射后的低维向量。 数据降维的本质 数据降维的方法 • 特征选择——挑选特征的子集。保留的特征全部来源于原特征集 • 特征提取——获得原来特征的线性(或者非线性)组合。经过特 征提取后的变量不能在原来的特征集中找到

数据降维的作用01提炼关键信息,归并同类型指标去除穴余信息,提高数据信噪比降维可以减少由原始高维空间·降维能够提炼同类型指标中的中的几余信息所造成的误差。关键信息,简化指标体系,聚焦总体影响。,降维后的保留的重要相关特征能够减轻机器学习模型训练压降维也可以帮助提升高维数据力、提升模型预测性能的可视化程度
数据降维的作用 去除冗余信息,提高数据信噪比 • 降维可以减少由原始高维空间 中的冗余信息所造成的误差。 • 降维后的保留的重要相关特征, 能够减轻机器学习模型训练压 力、提升模型预测性能。 提炼关键信息,归并同类型指标 • 降维能够提炼同类型指标中的 关键信息,简化指标体系,聚 焦总体影响。 • 降维也可以帮助提升高维数据 的可视化程度

数据降维在金融领域的应用场景In定价因子的构建用户画像金融机构常需要通过海量数据刻在资产定价方面,降维分析方法常画客户特点以及对产品的偏好,被用于提取代表系统风险的潜在因以此实现对不同客户群的精准营子、捕获高频数据的因子结构。销。进而量化地、系统地、精细地控制在正式对用户进行分类前,降维投资组合的预期收益和承受风险分析方法常用于对指标的简化和以构建更加有效的投资组合。预处理,有助于提高后续大数据分析模型的效率
数据降维在金融领域的应用场景 定价因子的构建 • 在资产定价方面,降维分析方法常 被用于提取代表系统风险的潜在因 子、捕获高频数据的因子结构。 • 进而量化地、系统地、精细地控制 投资组合的预期收益和承受风险, 以构建更加有效的投资组合。 用户画像 • 金融机构常需要通过海量数据刻 画客户特点以及对产品的偏好, 以此实现对不同客户群的精准营 销。 • 在正式对用户进行分类前,降维 分析方法常用于对指标的简化和 预处理,有助于提高后续大数据 分析模型的效率

二、数据降维的准备工作
二、数据降维的准备工作