正在加载图片...
ggtitle("Boxplot of Medical Charges by Number of Children") 与其他群体相比,有5个孩子的人的医疗支出平均更少。 来从bmi创建新变量 insurance$bmi30 <-ifelse(insurance$bmi>=30,"yes","no") 幸肥胖状况 describeBy(insurance$charges,insurance$bmi30) ggplot(data -insurance,aes(bmi30,charges))+geom_boxplot(fill -c(2:3))+ theme_classic()+ggtitle("Boxplot of Medical Charges by Obesity") 创建新变量bm30背后的想法是,0是肥胖的bmi阈值,我们都知道肥胖在一个人的健康中起着巨 大的作用。正如我们所见,虽然肥胖者和非肥胖者的医疗费用中位数相同,但他们的平均支出相差近 5000美元。 pairs.panels(insurance[c("age","mi","children","charges")]) 我们可以看到,在我们的数值变量中,age与charges的相关性最高。我们可以从该图中得出的另一个 观察结果是,我们的数值之间没有一个高度相关,因此多重共线性不会成为问题。另一件需要注意的事 情是,年龄和收费之间的关系可能根本不是真正的线性关系。 构建模型 #从原始数据集创建模型 ins_model <-1m(charges-age sex bmi children smoker region,data insurance) summary(ins_model) 在第一个模型中,我们使用了数据集中包含的那些原始变量,得到了0.7509的r平方,这意味charges 的75.09%的变化可以通过我们包含的自变量集来解释。我们还可以观察到,除性别外,我们包含的所 有自变量都是医疗费用的统计显者预测因子(p值小于0.05<显若性水平). #创建新变量年龄的平方 insuranceSage2 <-insuranceSage2 #第二个模型 ins_model2 <-1m(charges-age age2 children bmi sex bmi30*smoker region,data insu summary(ins_model2) 在这一部分中做的第一件事是创建一个新的变量ag2,它是年龄的平方。正如之前所说的,年龄和费 用之间的关系可能不是完全线性的,所以我们在模型中引入变量ag©2来处理这种非线性。正如我们所 看到的,通过添加我们导出的这些变量,我们的模型得到了显着改进。我们现在有0.8664的r平方,这 意味着86.64%的方差变化可以用模型中的自变量来解释。与前一个模型相比,第二个模型的调整后的ggtitle("Boxplot of Medical Charges by Number of Children") 与其他群体相比,有 5 个孩子的人的医疗支出平均更少。 # 从 bmi 创建新变量 insurance$bmi30 <- ifelse(insurance$bmi>=30,"yes","no") # 肥胖状况 describeBy(insurance$charges,insurance$bmi30) ggplot(data = insurance,aes(bmi30,charges)) + geom_boxplot(fill = c(2:3)) + theme_classic() + ggtitle("Boxplot of Medical Charges by Obesity") 创建新变量 bmi30 背后的想法是,30 是肥胖的 bmi 阈值,我们都知道肥胖在一个人的健康中起着巨 大的作用。正如我们所见,虽然肥胖者和非肥胖者的医疗费用中位数相同,但他们的平均支出相差近 5000 美元。 pairs.panels(insurance[c("age", "bmi", "children", "charges")]) 我们可以看到,在我们的数值变量中,age 与 charges 的相关性最高。我们可以从该图中得出的另一个 观察结果是,我们的数值之间没有一个高度相关,因此多重共线性不会成为问题。另一件需要注意的事 情是,年龄和收费之间的关系可能根本不是真正的线性关系。 构建模型 # 从原始数据集创建模型 ins_model <- lm(charges ~ age + sex + bmi + children + smoker + region, data = insurance) summary(ins_model) 在第一个模型中,我们使用了数据集中包含的那些原始变量,得到了 0.7509 的 r 平方,这意味着 charges 的 75.09% 的变化可以通过我们包含的自变量集来解释。我们还可以观察到,除性别外,我们包含的所 有自变量都是医疗费用的统计显着预测因子(p 值小于 0.05 <- 显着性水平)。 # 创建新变量年龄的平方 insurance$age2 <- insurance$age^2 # 第二个模型 ins_model2 <- lm(charges ~ age + age2 + children + bmi + sex + bmi30*smoker + region, data = insurance) summary(ins_model2) 在这一部分中做的第一件事是创建一个新的变量 age2,它是年龄的平方。正如之前所说的,年龄和费 用之间的关系可能不是完全线性的,所以我们在模型中引入变量 age2 来处理这种非线性。正如我们所 看到的,通过添加我们导出的这些变量,我们的模型得到了显着改进。我们现在有 0.8664 的 r 平方,这 意味着 86.64% 的方差变化可以用模型中的自变量来解释。与前一个模型相比,第二个模型的调整后的 4
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有