统计学在数据科学的重要意义 统计学是数据科学的主要理论基础之一。 ·数据科学的理论、方法、技术和工具往往来源于统计学。 统计学 机器学习 领域知识 Hacking Skills Machine Learning Math Statistics Knowledge 基础理论 Data Sclence 数据预剑 数据计算 Danger Zone 收管 Substantive Expertise 数据可视化 数据科学理论体系 Drew Conway的数据科学韦恩图(2010)
数据科学理论与实践 统计学在数据科学的重要意义 ▼2.统计学与数据科学 ►2.1 统计学在数据科学中的地位 统计学 机器学习 领域知识 数据可视化 ... 基础理论 数据预处理 数据计算 数据管理 ... • 统计学是数据科学的主要理论基础之一。 • 数据科学的理论、方法、技术和工具往往来源于统计学。 数据科学理论体系 Drew Conway的数据科学韦恩图(2010)
统计学基本概念 数据科学导论 ·统计学 ·统计学是关于收集数据、分析数据和由数据得出结论的一组概念、原侧和方法。统计学的重要 作用在于能够透过偶然现象来探测其规律性,使研究结论具有科学性。 ■总体 ·根据研究目的确定的研究对象的全体称为总体(population),如,使用药物A的所有患者 。样本: ·总体的一部分称为样本(sample),如,临床采集到的使用药物A的一组患者 。参数 ·由总体计算的特征数叫参数(parameter)),如,使用A药物的全部患者的平均血压 ·统计量 ·由样本计算的特征数叫统计量(statistic),如,采集到的使用A药物的患者平均血压
数据科学理论与实践 统计学基本概念 数据科学导论 ▪ 统计学 • 统计学是关于收集数据、分析数据和由数据得出结论的一组概念、原则和方法。统计学的重要 作用在于能够透过偶然现象来探测其规律性,使研究结论具有科学性。 ▪ 总体 • 根据研究目的确定的研究对象的全体称为总体(population),如,使用药物A的所有患者 ▪ 样本: • 总体的一部分称为样本(sample),如,临床采集到的使用药物A的一组患者 ▪ 参数 • 由总体计算的特征数叫参数(parameter),如,使用A药物的全部患者的平均血压 ▪ 统计量 • 由样本计算的特征数叫统计量(statistic),如,采集到的使用A药物的患者平均血压
基本内容 数据科学导论 ·统计设计 ·主要包括实验分组、抽样方法、样本含量估计、数据管理与质量控制、拟使用的统计分析方法 等。统计设计能够提高研究效率,并使结果更加准确和可靠。 ·数据整理与核查 ·主要是指对数据质量进行检查,考虑数据分布及变量转换,检查异常值及数据是否符合特定的 统计分析方法要求等。 ·统计描述 ·描述及总结一组数据的重要特征,目的是使实验或观察得到的数据表达清楚并便于分析。统计 描述结果的表达方式主要是统计指标、统计表和统计图: 统计推断 ·指由样本数据的特征推断总体特征的方法,包括参数估计和假设检验。参数估计的重要性在于 可以给出区间估计;假设检验的重点则是比较参数的大小
数据科学理论与实践 基本内容 数据科学导论 ▪ 统计设计 • 主要包括实验分组、抽样方法、样本含量估计、数据管理与质量控制、拟使用的统计分析方法 等。统计设计能够提高研究效率,并使结果更加准确和可靠。 ▪ 数据整理与核查 • 主要是指对数据质量进行检查,考虑数据分布及变量转换,检查异常值及数据是否符合特定的 统计分析方法要求等。 ▪ 统计描述 • 描述及总结一组数据的重要特征,目的是使实验或观察得到的数据表达清楚并便于分析。统计 描述结果的表达方式主要是统计指标、统计表和统计图。 ▪ 统计推断 • 指由样本数据的特征推断总体特征的方法,包括参数估计和假设检验。参数估计的重要性在于 可以给出区间估计;假设检验的重点则是比较参数的大小
常用统计方法 数据科学导论 ·统计描述:描述及总结一组数据的重要特征,目的是使实验或观察得到的数 据表达清楚并便于分析。统计描述结果的表达方式主要是统计指标(集中趋 势分析,离散趋势分析,相关分析)、统计表和统计图。 集中趋势分析 离散趋势分析 统计描述 统计表 统计图 统计方法 相关分析 抽样分布 推断统计 参数估计 假设检验
数据科学理论与实践 常用统计方法 数据科学导论 ▪ 统计描述:描述及总结一组数据的重要特征,目的是使实验或观察得到的数 据表达清楚并便于分析。统计描述结果的表达方式主要是统计指标(集中趋 势分析,离散趋势分析,相关分析)、统计表和统计图。 统计方法 统计描述 集中趋势分析 离散趋势分析 统计表 统计图 相关分析 推断统计 抽样分布 参数估计 假设检验