数据科学论 —Python之道 第6课统计初步 本课程基于BigDataUniversity.com.cn的《Data science with Python Bootcamp》 进行了重新组织与扩充 1
数据科学引论 —— Pyth瀂瀁之道 第6课 统计初步 本课程基于BigDataU瀁iversity.c瀂瀀.c瀁的《Data scie瀁ce with Pyth瀂瀁 B瀂瀂tca瀀瀃》 进行了重新组织与扩充 1
内容提纲 ·描述性统计(Descriptive Statistics) ·算数平均值(Arithmetic Mean) ·中位值(Median) ·样本方差(Sample Variance) ·直方图(Histogram) ·概率质量函数(Probability Mass Function) ·正态分布(Normal Distribution) ·相关性(Correlation) 2
内容提纲 • 描述性统计(Descri瀃tive Statistics) • 算数平均值(Arith瀀etic Mea瀁) • 中位值(Media瀁) • 样本方差(Sa瀀瀃濿e Varia瀁ce) • 直方图(Hist瀂gra瀀) • 概率质量函数(Pr瀂babi濿ity Mass Fu瀁cti瀂瀁) • 正态分布(N瀂r瀀a濿 Distributi瀂瀁) • 相关性(C瀂rre濿ati瀂瀁) 2
描述性统计 (Descriptive Statistics) 3
描述性统计 (Descri瀃tive Statistics) 3
示例 ° 如果有人问“勒布朗.詹姆斯(LeBron James)是一位优秀的篮球运 动员吗?” ·我们可以让他去观看詹姆斯的所有比赛,但是詹姆斯在NBA效力 超过13年了,每年打了82场比赛,观看所有比赛要花多少时间呀! Year Team 200304 Cleveland 2004-05 Cleveland 2005-06 Cleveland 2006-07 Cleveland 2007-08 Cleveland 2008-09 Cleveland 2009-10 Cleveland 2010-11 Miami 2011-12寸 Miami 2012-13t Miami 2013-14 Miami 2014-15 Cleveland 4 2015-16+ Cleveland
示例 • 如果有人问“勒布朗.詹姆斯(LeBr瀂瀁 Ja瀀es)是一位优秀的篮球运 动员吗?” • 我们可以让他去观看詹姆斯的所有比赛,但是詹姆斯在NBA效力 超过13年了,每年打了82场比赛,观看所有比赛要花多少时间呀! 4 Year Team 2003–04 Cleveland 2004–05 Cleveland 2005–06 Cleveland 2006–07 Cleveland 2007–08 Cleveland 2008–09 Cleveland 2009–10 Cleveland 2010–11 Miami 2011–12† Miami 2012–13† Miami 2013–14 Miami 2014–15 Cleveland 2015–16† Cleveland
示例 ·或者,我们可以用詹姆斯的场均得分来描述他的表现 ·这被称为总结性或描述性统计 ·将大量原生数据总结为单个数字 勒布朗.詹姆斯场均得分 27.1!
示例 • 或者,我们可以用詹姆斯的场均得分来描述他的表现 • 这被称为总结性或描述性统计 • 将大量原生数据总结为单个数字 勒布朗.詹姆斯场均得分 27.1 ! 5
描述性统计(Descriptive Statistics) ·描述数据的基本特性 ·对数据样本给出简短的总结,并给出数据的度量 ·我们怎样才能对数据做出描述性的总结呢? ·平均值Mean,中位值Median,标准差Standard Deviation,等等 6
描述性统计(Descri瀃tive Statistics) • 描述数据的基本特性 • 对数据样本给出简短的总结,并给出数据的度量 • 我们怎样才能对数据做出描述性的总结呢? • 平均值Mea瀁, 中位值Media瀁, 标准差Sta瀁dard Deviati瀂瀁, 等等 6
示例:描述的局限性 ·勒布朗.詹姆斯场均得分27.1 ·姚明场均得分19 ·勒布朗詹姆斯是比姚明更好的球员吗?
示例: 描述的局限性 • 勒布朗.詹姆斯场均得分 27.1 • 姚明场均得分 19 • 勒布朗.詹姆斯是比姚明更好的球员吗? 7
示例:描述的局限性 ·勒布朗.詹姆斯场均篮板球72 ·姚明场均篮板球9.2 ·因此,在某些方面姚明表现更好 ·不同的统计视角会产生不同的结果 8
示例: 描述的局限性 • 勒布朗.詹姆斯场均篮板球 7.2 • 姚明场均篮板球 9.2 • 因此,在某些方面姚明表现更好 • 不同的统计视角会产生不同的结果 8
Pandas-Describe( ·自动计算: 1.数据点的总数 2.标准差 3.四分位值 4.极值 ·在这些统计中,NaN值会被自动跳过 9
Pa瀁das- Describe() • 自动计算: 1. 数据点的总数 2. 标准差 3. 四分位值 4. 极值 • 在这些统计中,NaN 值会被自动跳过 9
样例数据集 3,?,alfa-romero,gas,std,two,convertible,rwd,front,88.60,168.80,64.1( 3,?,alfa-romero,gas,std,two,convertible,rwd,front,88.60,168.80,64.1( 1,?,alfa-romero,gas,std,two,hatchback,rwd,front,94.50,171.20,65.50, 2,164,audi,gas,std,four,sedan,fwd,front,99.80,176.60,66.20,54.30,23: 21164 sndi mss atd four codan Aud FAn+q04n1766n6640543n)R5 2,?No.Attribute name attribute range No. Attribute name attribute range 1 symboling -3,-2,-1,0,1,2,3. 14 curb-weight continuous from 1488 to 4066. 1,15 normalized-losses continuous from 65 to 256. 15 engine-type dohc,dohcv,l,ohc,ohcf,ohcv,rotor. make audi,bmw,etc. 16 num-of-cylinders eight,five,four,six,three,twelve,two. fuel-type diesel,gas. 17 engine-size continuous from 61 to 326. 5 aspiration std,turbo. 18 fuel-system 1bbl,2bbl,4bbl,idi,mfi,mpfi,spdi,spfi. 6 num-of-doors four,two. 19 bore continuous from 2.54 to 3.94. > body-style hardtop,wagon,etc. 20 stroke continuous from 2.07 to 4.17. 8 drive-wheels 4wd,fwd,rwd. 21 compression-ratio continuous from 7 to 23. 9 engine-location front,rear. 22 horsepower continuous from 48 to 288. 10 wheel-base continuous from 86.6 120.9. 23 peak-rpm continuous from 4150 to 6600. 11 length continuous from 141.1 to 208.1. 24 city-mpg continuous from 13 to 49. 12 width continuous from 60.3 to 72.3. 25 highway-mpg continuous from 16 to 54. 13 height continuous from 47.8 to 59.8. 26 price continuous from 5118 to 45400. 10
样例数据集 10