正在加载图片...
杂读取数据集 insurance<-read.csv("-/Downloads/insurance.csv") #快速检查数据集的基本内容 head(insurance,n 5) str(insurance) 你需要解释正如我们所看到的,我们正在处理一个比较小的数据集,只有1338个观测值和7个变量 我们在这里最感兴趣的是变量charges,这是我们的顶测变量。 数据探索 #描述性统计量 summary(insurance) 受访者的性别和地区分布均匀,年龄从18岁到64岁不等。非吸烟者与吸烟者的比例为4比1。平均 医疗费用为13,270美元,中位数为9382美元。 #分地区 describeBy(insurance$charges,insurance$region) ggplot(data insurance,aes(region,charges))+geom_boxplot(fill =c(2:5))+ theme_classic()+ggtitle("Boxplot of Medical Charges per Region") 从上图可以看出,地区对医疗费用的影响不大 幸吸烟状况 describeBy(insurance$charges,insurance$smoker) ggplot(data=insurance,aes(smoker,charges))+geom_boxplot(fill =c(2:3))+ theme_classic()+ggtitle("Boxplot of Medical Charges by Smoking Status") 另一方面,吸烟状况却不是这样。可以明显看出的是,吸烟者在医疗费用方面的花费比不吸烟者高出近 4倍。 #性别 describeBy(insuranceScharges.insurance$sex) ggplot(data=insurance,aes(sex,charges))+geom_boxplot(fill=c(2:3))+ theme_classic()+ggtitle("Boxplot of Medical Charges by Gender") 医疗费用似乎也不受性别影响。 来孩子数量 describeBy(insurance$charges,insuranceSchildren) ggplot(data -insurance,aes(as.factor(children),charges))+geom_boxplot(fill-c(2:7))+ theme_classic()+xlab("children")+ 3 # 读取数据集 insurance <- read.csv("~/Downloads/insurance.csv") # 快速检查数据集的基本内容 head(insurance, n = 5) str(insurance) 你需要解释正如我们所看到的,我们正在处理一个比较小的数据集,只有 1338 个观测值和 7 个变量。 我们在这里最感兴趣的是变量 charges,这是我们的预测变量。 数据探索 # 描述性统计量 summary(insurance) 受访者的性别和地区分布均匀,年龄从 18 岁到 64 岁不等。非吸烟者与吸烟者的比例为 4 比 1。平均 医疗费用为 13,270 美元,中位数为 9382 美元。 # 分地区 describeBy(insurance$charges,insurance$region) ggplot(data = insurance,aes(region,charges)) + geom_boxplot(fill = c(2:5)) + theme_classic() + ggtitle("Boxplot of Medical Charges per Region") 从上图可以看出,地区对医疗费用的影响不大。 # 吸烟状况 describeBy(insurance$charges,insurance$smoker) ggplot(data = insurance,aes(smoker,charges)) + geom_boxplot(fill = c(2:3)) + theme_classic() + ggtitle("Boxplot of Medical Charges by Smoking Status") 另一方面,吸烟状况却不是这样。可以明显看出的是,吸烟者在医疗费用方面的花费比不吸烟者高出近 4 倍。 # 性别 describeBy(insurance$charges,insurance$sex) ggplot(data = insurance,aes(sex,charges)) + geom_boxplot(fill = c(2:3)) + theme_classic() + ggtitle("Boxplot of Medical Charges by Gender") 医疗费用似乎也不受性别影响。 # 孩子数量 describeBy(insurance$charges,insurance$children) ggplot(data = insurance,aes(as.factor(children),charges)) + geom_boxplot(fill = c(2:7)) + theme_classic() + xlab("children") + 3
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有