形福 保险产品推荐 实用案例分析 6赵卫是著 复旦大学赵卫东博士 wdzhao@fudan.edu.cn 軍大出社
保险产品推荐 复旦大学 赵卫东 博士 wdzhao@fudan.edu.cn
章节介绍 数据挖掘算法没有好坏,根据数据与数据分析需求的特点确定算法 数据挖掘建模标准( CRISP-DM) 定义商业问题,理解业务背景,了解业务需求 数据探索、预处理与分析 确定可能的模型,并验证评估 选择分析较优算法,并进一步调优 应用部署模型
章节介绍 • 数据挖掘算法没有好坏,根据数据与数据分析需求的特点确定算法 • 数据挖掘建模标准(CRISP-DM) – 定义商业问题,理解业务背景,了解业务需求 – 数据探索、预处理与分析 – 确定可能的模型,并验证评估 – 选择分析较优算法,并进一步调优 – 应用部署模型
章节结构 业务理解 数据分析目标 数据探索 数据质量评估 探索数据统计特性 数据降维 模型选择方法 算法初选 算法验证 算法优化 平衡数据集 修改模型参数 总结
章节结构 • 业务理解 • 数据分析目标 • 数据探索 – 数据质量评估 – 探索数据统计特性 – 数据降维 • 模型选择方法 – 算法初选 – 算法验证 – 算法优化 – 平衡数据集 – 修改模型参数 • 总结
业务理解 保险业务条款复杂,传统保险采用代理人制度,代理人推荐不够有效 通过对客户过往的保险购买记录分析客户特点,以此进行推荐 保险公司提供了以家庭为单位的历史保险投保记录,同时给出了家庭及其 成员的各种属性统计结果,总共86个字段 向用户推荐一款房车险
业务理解 • 保险业务条款复杂,传统保险采用代理人制度,代理人推荐不够有效 • 通过对客户过往的保险购买记录分析客户特点,以此进行推荐 • 保险公司提供了以家庭为单位的历史保险投保记录,同时给出了家庭及其 成员的各种属性统计结果,总共86个字段 • 向用户推荐一款房车险
数据分析目标 业务目标转为数据分析目标,即商业问题转为数学问题或数据分析问题 保险实例 需要提出某一规则或算法,将客户的属性信息、购买记录输入模型,由模型给出一个是否购 买的结果值 分类问题:客户分为购买房车险或不够买房车险 关联分析:客户购买保险作为规则项 聚类分析:客户的分组
数据分析目标 • 业务目标转为数据分析目标,即商业问题转为数学问题或数据分析问题 • 保险实例 – 需要提出某一规则或算法,将客户的属性信息、购买记录输入模型,由模型给出一个是否购 买的结果值 – 分类问题:客户分为购买房车险或不够买房车险 – 关联分析:客户购买保险作为规则项 – 聚类分析:客户的分组
数据探索 数据质量检查 描述性数据统计 理解数据结构和各变量的意义 对数据有直观认识,可视化分析 保险案例中有5822条数据,每条数据包括86个变量,前43个变量为人口属 性,后面为产品购买属性,最后一个为目标变量属性 对数值型字段划分为5个类别 字段类型 实际教值型家庭房产数量(1-10)、平均房产数量(1-6) LO 客户子类别标签,取值从1至41,代表高收入、单身青年、中产阶级、丁克等 年龄范围,取值从1至6,1表示20~30岁,……,6表示70~80岁 L3 百分比,从0至9,0表示0%,1表示1%-10%,…,9表示、保守家庭等 客户主类别标签,取值从1至10,分别代表了功成享受、退休 金额(欧元),从0至9,0表示0,1表示1∽49,2表示50∽99,9表示超过20000
数据探索 • 数据质量检查 • 描述性数据统计 • 理解数据结构和各变量的意义 • 对数据有直观认识,可视化分析 • 保险案例中有5822条数据,每条数据包括86个变量,前43个变量为人口属 性,后面为产品购买属性,最后一个为目标变量属性 • 对数值型字段划分为5个类别 字段类型 字段类型说明 实际数值型 家庭房产数量(1〜10)、平均房产数量(1〜6) L0 客户子类别标签,取值从1至41,代表高收入、单身青年、中产阶级、丁克等 L1 年龄范围,取值从1至6,1表示20〜30岁,……,6表示70〜80岁 L2 客户主类别标签,取值从1至10,分别代表了功成享受、退休信教、保守家庭等 L3 百分比,从0至9,0表示0%,1表示1%〜10%,……,9表示100% L4 金额(欧元),从0至9,0表示0,1表示1〜49,2表示50〜99,9表示超过20000
数据质量评估 样本数据质量直接决定了最终模型的准确性 样本数据可能存在各种问题 样本不平衡( Smote、过采样、欠采样等) 重要数据无法提供 存在错误数据 ·可选择 SPSS Modeler、Weka等工具,利用直方图、散点图等进行数据评估 关注数据的准确性、完整性、一致性等维度
议程数据质量评估 • 样本数据质量直接决定了最终模型的准确性 • 样本数据可能存在各种问题 – 样本不平衡(Smote、过采样、欠采样等) – 重要数据无法提供 – 存在错误数据 • 可选择SPSS Modeler、Weka等工具,利用直方图、散点图等进行数据评估 • 关注数据的准确性、完整性、一致性等维度
数据质量评估 SPSS Modeler中数据审核节点审核结果 数据审核结点中数据质量结果 女件DDD生a已回图 审移肤量 字09100%完整记100 户次国 客义 新量群值酸值排作失接补为法完分比有就记象空值字符生空值空自空白镇 1.D0041Do0 客产主别 每人题 50026790.2900.183 o000000 害户主尚网 2是 0.0009000 00000009900c0 00 农主 其它鹤比例 记 天示教比例 4帮记 已占比 0,o0 其已美系白比 1005329 单身占比 记 0.0009000 入1 100 给等教 aMeea00 so 受个人第三方保 000000060°6009 0,0009000 标记 分区
议程数据质量评估 SPSS Modeler中数据审核节点审核结果 数据审核结点中数据质量结果
探索数据统计特性 描述性统计分析是数据分析的第一步,也是进一步分析的基础 集中趋势:均值、众数、中位数 离散趋势:极差、方差、标准差、四分卫 数据分布情况:偏度、峰度 可用工具 SPSS Modeler中“节点选择”中的“图形”选项卡 Python中使用№umPy和 ISciPy进行统计分析,使用 Matplotlib可视化结果
议程探索数据统计特性 • 描述性统计分析是数据分析的第一步,也是进一步分析的基础 • 集中趋势:均值、众数、中位数 • 离散趋势:极差、方差、标准差、四分卫 • 数据分布情况:偏度、峰度 • 可用工具 – SPSS Modeler中“节点选择”中的“图形”选项卡 – Python中使用NumPy和SciPy进行统计分析,使用Matplotlib可视化结果
探索数据统计特性 购买移动房车险家庭统计分析 移年量 初等教育 移动腐车捡数里 移动车险数量
议程探索数据统计特性 购买移动房车险家庭统计分析