我们来看一下死亡人数的汇总，我们会得知包含死亡人数的数据行，这里包括最大

点击下载：《数据科学引论——Python之道》课程教学资源（教案）08 数据可视化

正在加载图片...

死亡年龄的汇总情况 In []df.Age.describe() out[5]:count 30906.000000 251 25.000000 504 50.000000 75% 75.000000 ge,ype 100,000000 败据集涉及了几个年份？ In [6]:df.Year.unigue() out1611 array(t2005,2010,20151) 确认性别是否只有男性male和女性female。 In [7]:df.Gender.unique() out17]:array(['F','M'],dtype-object) 我们来看一下死亡人数的汇总，我们会得知包含死亡人数的数据行，这里包括最大值、最小值、平均值等各种各样的信息，我们最关心的是属于一种有哪些死因，所以我们把数据集中Cause、CauseCN,也就是用英文和中文分别描述的死亡原因这两列取出，去除其中的重复元素，然后对死因做一下排序，最后就得到了统计的结果。我们看到统计出来有50种不同的死因。死亡人致汇总？ In []df.Deaths.describe() Out[]:count 30906.000000 211636511 std 930.959087 min 0.000000 25 0.000000 9 Nae:Deaths 6.000000 dtyper float64 数据集中有哪些死因？ In [9]:causes -df[['cause', 'Causecx']].drop_duplicates(subset-['cause','CauseCN'1)fremove duplicates e) index the row nusbers 0ut[9]: Cause CauseCN 0Accidents (unintentional injuries) 事故（意外伤害） Acute bronchitis and bronchiolitis 急性支气管炎和细支气管炎 2 Acute polioryeitis 急性将商灰质炎 3 Alzheimer's disease 阿尔茨海就氏病 Anemias 贫血 5 Aortic aneurysm and dissection 主动脉痛和解剂我们再对年份来做一些处理，在数据集中前3行描述的死亡人员的死亡年份是2005年、2010年、2015年。我们想看看这三年中到底死亡了多少人，于是在year这一列上做分组，在分组内部对death表示的死亡人数这一列进行求和统计，于是就得出这三年死亡总数分别是这三个数字。我们来看一下死亡人数的汇总，我们会得知包含死亡人数的数据行，这里包括最大值、最小值、平均值等各种各样的信息，我们最关心的是属于一种有哪些死因，所以我们把数据集中 Cause、CauseCN，也就是用英文和中文分别描述的死亡原因这两列取出，去除其中的重复元素，然后对死因做一下排序，最后就得到了统计的结果。我们看到统计出来有 50 种不同的死因。我们再对年份来做一些处理，在数据集中前 3 行描述的死亡人员的死亡年份是 2005 年、2010 年、2015 年。我们想看看这三年中到底死亡了多少人，于是在 year 这一列上做分组，在分组内部对 death 表示的死亡人数这一列进行求和统计，于是就得出这三年死亡总数分别是这三个数字

<<向上翻页向下翻页>>

点击下载：《数据科学引论——Python之道》课程教学资源（教案）08 数据可视化