@ 数据科学导论 数据科学理论基础 韩爱庆 北京中医药大学管理学院 2020.09
数据科学理论基础 韩爱庆 北京中医药大学 管理学院 2020.09 数据科学导论
目录 统计学与数据科学 机器学习与数据科学 参考文献
数据科学理论与实践 目录 统计学与数据科学 机器学习与数据科学 参考文献 ▼专题【数据科学的理论基础】 ►目录
统计学与数据科学
统计学与数据科学
统计学在数据科学的重要意义 统计学是数据科学的主要理论基础之一。 ·数据科学的理论、方法、技术和工具往往来源于统计学。 统计学 机器学习 领域知识 Hacking Skills Machine Learning Math Statistics Knowledge 基础理论 Data Sclence 数据预剑 数据计算 Danger Zone 收管 Substantive Expertise 数据可视化 数据科学理论体系 Drew Conway的数据科学韦恩图(2010)
数据科学理论与实践 统计学在数据科学的重要意义 ▼2.统计学与数据科学 ►2.1 统计学在数据科学中的地位 统计学 机器学习 领域知识 数据可视化 ... 基础理论 数据预处理 数据计算 数据管理 ... • 统计学是数据科学的主要理论基础之一。 • 数据科学的理论、方法、技术和工具往往来源于统计学。 数据科学理论体系 Drew Conway的数据科学韦恩图(2010)
统计学与数据科学
统计学与数据科学
统计学基本概念 数据科学导论 ·统计学 ·统计学是关于收集数据、分析数据和由数据得出结论的一组概念、原侧和方法。统计学的重要 作用在于能够透过偶然现象来探测其规律性,使研究结论具有科学性。 ■总体 ·根据研究目的确定的研究对象的全体称为总体(population),如,使用药物A的所有患者 。样本: ·总体的一部分称为样本(sample),如,临床采集到的使用药物A的一组患者 。参数 ·由总体计算的特征数叫参数(parameter)),如,使用A药物的全部患者的平均血压 ·统计量 ·由样本计算的特征数叫统计量(statistic),如,采集到的使用A药物的患者平均血压
数据科学理论与实践 统计学基本概念 数据科学导论 ▪ 统计学 • 统计学是关于收集数据、分析数据和由数据得出结论的一组概念、原则和方法。统计学的重要 作用在于能够透过偶然现象来探测其规律性,使研究结论具有科学性。 ▪ 总体 • 根据研究目的确定的研究对象的全体称为总体(population),如,使用药物A的所有患者 ▪ 样本: • 总体的一部分称为样本(sample),如,临床采集到的使用药物A的一组患者 ▪ 参数 • 由总体计算的特征数叫参数(parameter),如,使用A药物的全部患者的平均血压 ▪ 统计量 • 由样本计算的特征数叫统计量(statistic),如,采集到的使用A药物的患者平均血压
基本内容 数据科学导论 ·统计设计 ·主要包括实验分组、抽样方法、样本含量估计、数据管理与质量控制、拟使用的统计分析方法 等。统计设计能够提高研究效率,并使结果更加准确和可靠。 ·数据整理与核查 ·主要是指对数据质量进行检查,考虑数据分布及变量转换,检查异常值及数据是否符合特定的 统计分析方法要求等。 ·统计描述 ·描述及总结一组数据的重要特征,目的是使实验或观察得到的数据表达清楚并便于分析。统计 描述结果的表达方式主要是统计指标、统计表和统计图: 统计推断 ·指由样本数据的特征推断总体特征的方法,包括参数估计和假设检验。参数估计的重要性在于 可以给出区间估计;假设检验的重点则是比较参数的大小
数据科学理论与实践 基本内容 数据科学导论 ▪ 统计设计 • 主要包括实验分组、抽样方法、样本含量估计、数据管理与质量控制、拟使用的统计分析方法 等。统计设计能够提高研究效率,并使结果更加准确和可靠。 ▪ 数据整理与核查 • 主要是指对数据质量进行检查,考虑数据分布及变量转换,检查异常值及数据是否符合特定的 统计分析方法要求等。 ▪ 统计描述 • 描述及总结一组数据的重要特征,目的是使实验或观察得到的数据表达清楚并便于分析。统计 描述结果的表达方式主要是统计指标、统计表和统计图。 ▪ 统计推断 • 指由样本数据的特征推断总体特征的方法,包括参数估计和假设检验。参数估计的重要性在于 可以给出区间估计;假设检验的重点则是比较参数的大小
常用统计方法 数据科学导论 ·统计描述:描述及总结一组数据的重要特征,目的是使实验或观察得到的数 据表达清楚并便于分析。统计描述结果的表达方式主要是统计指标(集中趋 势分析,离散趋势分析,相关分析)、统计表和统计图。 集中趋势分析 离散趋势分析 统计描述 统计表 统计图 统计方法 相关分析 抽样分布 推断统计 参数估计 假设检验
数据科学理论与实践 常用统计方法 数据科学导论 ▪ 统计描述:描述及总结一组数据的重要特征,目的是使实验或观察得到的数 据表达清楚并便于分析。统计描述结果的表达方式主要是统计指标(集中趋 势分析,离散趋势分析,相关分析)、统计表和统计图。 统计方法 统计描述 集中趋势分析 离散趋势分析 统计表 统计图 相关分析 推断统计 抽样分布 参数估计 假设检验
统计描述-集中趋势 数据科学导论 ■描述一组观察值集中位置或平均水平的统计指标 。 常用统计量: ·平均值,几何均数,中位数,百分位数 0 1 图3
数据科学理论与实践 统计描述-集中趋势 数据科学导论 ▪ 描述一组观察值集中位置或平均水平的统计指标 ▪ 常用统计量: • 平均值,几何均数,中位数,百分位数 图3
统计描述-离散趋势 数据科学导论 离散趋势描述观察之期间的变异程度或偏离集中位置的程度。 常用统计量: ·极差,方差,标准差,四分位数间距,变异系数等 200 80 160 =0.5 140 四 万=1.0 80 1.5 0 第天 第2天 第天 第天 第5天 图4
数据科学理论与实践 统计描述-离散趋势 数据科学导论 ▪ 离散趋势描述观察之期间的变异程度或偏离集中位置的程度。 ▪ 常用统计量: • 极差,方差,标准差,四分位数间距,变异系数等