数据挖掘实用案例分析 数据挖掘 实用案例分析 第1章数据分析过程的主要问题 复旦大学赵卫东博士 0ta间g wdzhao@fudan.edu.cn dicta
数据挖掘实用案例分析 第1章 数据分析过程的主要问题 复旦大学 赵卫东 博士 wdzhao@fudan.edu.cn
章节介绍 ·数据分析是一门入门容易但精通难的学科 数据分析人员需要掌握行业知识以了解业务流程、理解数据背后的 隐含信息以合理解读数据、从变化的角度和时间维度把握需求以确 定使用哪些数据,这是数据分析的基础 数据分析的主要流程是:明确分析目标、数据收集、数据预处理、 建模分析、结果评估、结论整理及建议、预测分析
章节介绍 • 数据分析是一门入门容易但精通难的学科 • 数据分析人员需要掌握行业知识以了解业务流程、理解数据背后的 隐含信息以合理解读数据、从变化的角度和时间维度把握需求以确 定使用哪些数据,这是数据分析的基础 • 数据分析的主要流程是:明确分析目标、数据收集、数据预处理、 建模分析、结果评估、结论整理及建议、预测分析
章节结构 业务理解 数据理解 数据质量问题与预处理 数据分析常见陷阱 数据分析方法的选择 数据分析结果的评价 数据分析团队的组建 数据分析人才培养的难题
章节结构 • 业务理解 • 数据理解 • 数据质量问题与预处理 • 数据分析常见陷阱 • 数据分析方法的选择 • 数据分析结果的评价 • 数据分析团队的组建 • 数据分析人才培养的难题
业务理解 理解需求和分析目标 深入理解与分析目标相关的业务背景,包括行业知识、领域知识及 业务流程等。与领域专家充分交流,亲临一线了解业务实际情况, 理解业务知识的逻辑和原理 益处 甄别和剔除异常数据 选择数据探索和挖掘的方法 方法 定性分析:给出与目标变量关联的自变量列表或目标变量的性质预测 定量分析:列举相关自变量并对其权重等进行定量分析
业务理解 • 理解需求和分析目标 • 深入理解与分析目标相关的业务背景,包括行业知识、领域知识及 业务流程等。与领域专家充分交流,亲临一线了解业务实际情况, 理解业务知识的逻辑和原理 • 益处 • 甄别和剔除异常数据 • 选择数据探索和挖掘的方法 • 方法 • 定性分析:给出与目标变量关联的自变量列表或目标变量的性质预测 • 定量分析:列举相关自变量并对其权重等进行定量分析
企业经营活动分析 置争对手分析 行业发 竟争力分析(液特五力) 产业结构 品建形响力 产业暴础 争分析 币场占有率 行业政 企业社会责任 国内外经济时差 核心忧势 行业 研发能力 运营组织架构 产品特点 存及转 世销分析 诸世分析 金业经活动分析框架 营销活动 营销成本 市场风险 闻性特征分析 供应金 商产负 购买流程 罐 对务分析 三方据 员价值分析 成本分析 忠诚分析 转化率
议程企业经营活动分析
数据理解 数据理解是数据分析的基础 提升数据的准确性,多维的源数据需要进行预处理和降维 结合业务逻辑,明确数据代表的意义,分析数据的结构和各个字段 之间的关系 关注业务变化导致的数据变化 数据分析方案需要有一定的拓展性
数据理解 • 数据理解是数据分析的基础 • 提升数据的准确性,多维的源数据需要进行预处理和降维 • 结合业务逻辑,明确数据代表的意义,分析数据的结构和各个字段 之间的关系 • 关注业务变化导致的数据变化 • 数据分析方案需要有一定的拓展性
数据质量问题与预处理 ·数据质量要求数据是完整的和真实的,并且具有一致性和可靠性 “垃圾进,垃圾出” 数据预处理占用整个数据挖掘项目60%的工作量 问题 数据量较少 数据量过多 维度灾难 数据不完整 异常数据 重复数据 数据不一致
数据质量问题与预处理 • 数据质量要求数据是完整的和真实的,并且具有一致性和可靠性 • “垃圾进,垃圾出” • 数据预处理占用整个数据挖掘项目60%的工作量 • 问题 • 数据量较少 • 数据量过多 • 维度灾难 • 数据不完整 • 异常数据 • 重复数据 • 数据不一致
数据量较少 数据挖掘需要一定的数据量作支撑 数据量增多,其中的规律会越发明显,也更易发现与分析目标相关的 因素 神经网络 深度学习 ·一般来说,数据量是自变量数量的10~20倍为佳 ·数据样本需要有足够的覆盖范围,需要覆盖与分析目标相关的维度
• 数据挖掘需要一定的数据量作支撑 • 数据量增多,其中的规律会越发明显,也更易发现与分析目标相关的 因素 – 神经网络 – 深度学习 • 一般来说,数据量是自变量数量的10~20倍为佳 • 数据样本需要有足够的覆盖范围,需要覆盖与分析目标相关的维度 议程数据量较少
数据量过多 数据量过多时,对全部数据集进行分析要耗费更多的计算资源,要求 硬件配置较髙,可应用数据采样技术随机提取样本子集 对海量的同质化数据,可通过聚集技术按照时间、空间等属性进行均 值等汇总,减少数据数量 ·数据集不平衡问题可能导致出现较大的结果误差,因此要对数据集应 用采样技术或对异常数据进行复制,提高其占比
• 数据量过多时,对全部数据集进行分析要耗费更多的计算资源,要求 硬件配置较高,可应用数据采样技术随机提取样本子集 • 对海量的同质化数据,可通过聚集技术按照时间、空间等属性进行均 值等汇总,减少数据数量 • 数据集不平衡问题可能导致出现较大的结果误差,因此要对数据集应 用采样技术或对异常数据进行复制,提高其占比 议程数据量过多
维度灾难 当数据中的自变量较多时,会出现维度灾难问题 特别是在矩阵数据中,其中冗余变量占比比较高时,可用数据变成稀 疏矩阵,在分类算法处理时就没办法可靠地进行类别划分,在聚类算 法中则容易使聚类质量下降 可采用线性代数的相关方法将数据从高维空间影射到低维空间中 主成分分析(PCA) 奇异值分解(SVD)
• 当数据中的自变量较多时,会出现维度灾难问题 • 特别是在矩阵数据中,其中冗余变量占比比较高时,可用数据变成稀 疏矩阵,在分类算法处理时就没办法可靠地进行类别划分,在聚类算 法中则容易使聚类质量下降 • 可采用线性代数的相关方法将数据从高维空间影射到低维空间中 – 主成分分析(PCA) – 奇异值分解(SVD) 议程维度灾难