复旦大学：《数据挖掘实用案例分析》课程教学资源（PPT课件讲稿）第2章保险产品推荐（主讲：赵卫东）

• 数据挖掘算法没有好坏，根据数据与数据分析需求的特点确定算法 • 数据挖掘建模标准（CRISP-DM） – 定义商业问题，理解业务背景，了解业务需求 – 数据探索、预处理与分析 – 确定可能的模型，并验证评估 – 选择分析较优算法，并进一步调优 – 应用部署模型

团购合买资源类别：文库，文档格式：PPTX，文档页数：33，文件大小：5.33MB

形福保险产品推荐实用案例分析 6赵卫是著复旦大学赵卫东博士 wdzhao@fudan.edu.cn 軍大出社

保险产品推荐复旦大学赵卫东博士 wdzhao@fudan.edu.cn

章节介绍数据挖掘算法没有好坏,根据数据与数据分析需求的特点确定算法数据挖掘建模标准( CRISP-DM) 定义商业问题,理解业务背景,了解业务需求数据探索、预处理与分析确定可能的模型,并验证评估选择分析较优算法,并进一步调优应用部署模型

章节介绍 • 数据挖掘算法没有好坏，根据数据与数据分析需求的特点确定算法 • 数据挖掘建模标准（CRISP-DM） – 定义商业问题，理解业务背景，了解业务需求 – 数据探索、预处理与分析 – 确定可能的模型，并验证评估 – 选择分析较优算法，并进一步调优 – 应用部署模型

章节结构业务理解数据分析目标数据探索数据质量评估探索数据统计特性数据降维模型选择方法算法初选算法验证算法优化平衡数据集修改模型参数总结

章节结构 • 业务理解 • 数据分析目标 • 数据探索 – 数据质量评估 – 探索数据统计特性 – 数据降维 • 模型选择方法 – 算法初选 – 算法验证 – 算法优化 – 平衡数据集 – 修改模型参数 • 总结

业务理解保险业务条款复杂,传统保险采用代理人制度,代理人推荐不够有效通过对客户过往的保险购买记录分析客户特点,以此进行推荐保险公司提供了以家庭为单位的历史保险投保记录,同时给出了家庭及其成员的各种属性统计结果,总共86个字段向用户推荐一款房车险

业务理解 • 保险业务条款复杂，传统保险采用代理人制度，代理人推荐不够有效 • 通过对客户过往的保险购买记录分析客户特点，以此进行推荐 • 保险公司提供了以家庭为单位的历史保险投保记录，同时给出了家庭及其成员的各种属性统计结果，总共86个字段 • 向用户推荐一款房车险

数据分析目标业务目标转为数据分析目标,即商业问题转为数学问题或数据分析问题保险实例需要提出某一规则或算法,将客户的属性信息、购买记录输入模型,由模型给出一个是否购买的结果值分类问题:客户分为购买房车险或不够买房车险关联分析:客户购买保险作为规则项聚类分析:客户的分组

数据分析目标 • 业务目标转为数据分析目标，即商业问题转为数学问题或数据分析问题 • 保险实例 – 需要提出某一规则或算法，将客户的属性信息、购买记录输入模型，由模型给出一个是否购买的结果值 – 分类问题：客户分为购买房车险或不够买房车险 – 关联分析：客户购买保险作为规则项 – 聚类分析：客户的分组

数据探索数据质量检查描述性数据统计理解数据结构和各变量的意义对数据有直观认识,可视化分析保险案例中有5822条数据,每条数据包括86个变量,前43个变量为人口属性,后面为产品购买属性,最后一个为目标变量属性对数值型字段划分为5个类别字段类型实际教值型家庭房产数量(1-10)、平均房产数量(1-6) LO 客户子类别标签,取值从1至41,代表高收入、单身青年、中产阶级、丁克等年龄范围,取值从1至6,1表示20~30岁,……,6表示70~80岁 L3 百分比,从0至9,0表示0%,1表示1%-10%,…,9表示、保守家庭等客户主类别标签,取值从1至10,分别代表了功成享受、退休金额(欧元),从0至9,0表示0,1表示1∽49,2表示50∽99,9表示超过20000

数据探索 • 数据质量检查 • 描述性数据统计 • 理解数据结构和各变量的意义 • 对数据有直观认识，可视化分析 • 保险案例中有5822条数据，每条数据包括86个变量，前43个变量为人口属性，后面为产品购买属性，最后一个为目标变量属性 • 对数值型字段划分为5个类别字段类型字段类型说明实际数值型家庭房产数量（1〜10）、平均房产数量（1〜6） L0 客户子类别标签，取值从1至41，代表高收入、单身青年、中产阶级、丁克等 L1 年龄范围，取值从1至6，1表示20〜30岁，……，6表示70〜80岁 L2 客户主类别标签，取值从1至10，分别代表了功成享受、退休信教、保守家庭等 L3 百分比，从0至9，0表示0%，1表示1%〜10%，……，9表示100% L4 金额（欧元），从0至9，0表示0，1表示1〜49，2表示50〜99，9表示超过20000

数据质量评估样本数据质量直接决定了最终模型的准确性样本数据可能存在各种问题样本不平衡( Smote、过采样、欠采样等) 重要数据无法提供存在错误数据 ·可选择 SPSS Modeler、Weka等工具,利用直方图、散点图等进行数据评估关注数据的准确性、完整性、一致性等维度

议程数据质量评估 • 样本数据质量直接决定了最终模型的准确性 • 样本数据可能存在各种问题 – 样本不平衡（Smote、过采样、欠采样等） – 重要数据无法提供 – 存在错误数据 • 可选择SPSS Modeler、Weka等工具，利用直方图、散点图等进行数据评估 • 关注数据的准确性、完整性、一致性等维度

数据质量评估 SPSS Modeler中数据审核节点审核结果数据审核结点中数据质量结果女件DDD生a已回图审移肤量字09100%完整记100 户次国客义新量群值酸值排作失接补为法完分比有就记象空值字符生空值空自空白镇 1.D0041Do0 客产主别每人题 50026790.2900.183 o000000 害户主尚网 2是 0.0009000 00000009900c0 00 农主其它鹤比例记天示教比例 4帮记已占比 0,o0 其已美系白比 1005329 单身占比记 0.0009000 入1 100 给等教 aMeea00 so 受个人第三方保 000000060°6009 0,0009000 标记分区

议程数据质量评估 SPSS Modeler中数据审核节点审核结果数据审核结点中数据质量结果

探索数据统计特性描述性统计分析是数据分析的第一步,也是进一步分析的基础集中趋势:均值、众数、中位数离散趋势:极差、方差、标准差、四分卫数据分布情况:偏度、峰度可用工具 SPSS Modeler中“节点选择”中的“图形”选项卡 Python中使用№umPy和 ISciPy进行统计分析,使用 Matplotlib可视化结果

议程探索数据统计特性 • 描述性统计分析是数据分析的第一步，也是进一步分析的基础 • 集中趋势：均值、众数、中位数 • 离散趋势：极差、方差、标准差、四分卫 • 数据分布情况：偏度、峰度 • 可用工具 – SPSS Modeler中“节点选择”中的“图形”选项卡 – Python中使用NumPy和SciPy进行统计分析，使用Matplotlib可视化结果

探索数据统计特性购买移动房车险家庭统计分析移年量初等教育移动腐车捡数里移动车险数量

议程探索数据统计特性购买移动房车险家庭统计分析

点击下载完整版文档（PPTX格式）

共33页，可试读12页，点击继续阅读 ↓↓

点击下载（PPTX格式）

浏览记录