王宇睿 2015201906 特征结合：注意到⼀些原特征对于预测房价是没什

正在加载图片...

王宇睿2015201906 特征结合：注意到一些原特征对于预测房价是没什么用的，如total_rooms与 total_bedrooms,,很容易想到与其相关且与房价有关的属性应该是rooms_per_household, bedrooms._per_room还有population_.per_household。所以利用如total_rooms, total_bedrooms,households与population等特征结合来生成新的特征。编写建立测试集：采用分层取样。特征归一化处理：min-max scaling(normalization)and standardization。 pipline:由于数据需要进行多步处理，为保证顺序处理，可以构造pipline。pipline首先使用 Imputer来处理缺失值，再用CombinedAttributesAdderi进行特征结合，最后进行特征归一化处理。模型评估：使用交叉验证以评估模型表现。可以看到决策树模型的表现甚至还不如线性模型、决策树模型有过拟合的问题。还可以选择另一个学习模型进行尝试：随机森林。模型调优：使用网格搜索GridSearchCV,.只需要指定各参数的取值，然后函数会自动随模型进行训练、评估并选出最优参数。 ·上机练习本周未安排上机。 ·课后工作运行书中第二章代码。第六周Classification ~课堂笔记以MNST数据集手写体识别为例，首先介绍了二分类问题：判断一个输入图片中的数字是不是5 洗搔分类器SGD(Stochastic Gradient Descent)随机横度下降：该分类方法通时每个样本来选代更新一次，如果样本量很大的情况，比如几十万，那么可能只用其中几万条或者几千条的样本，就已经将参数迭代到最优解，训练速度快，适合应用于大规模数据集。可以直接调用 scikit--learn中的SGDClassifieri进行使用。在鱼量分类器的表现时可以K折交叉验证(K-fold cr ss validation):把样本集分成k份分别使用其中的k1)份作为训练集，剩下的1份作为交叉验证集，最后取最后的平均误差，来评估模型。但是要注意，很多时候仅仅使用accuracy并不是衡量分类器表现的最好指标，更好的方法是使用混淆矩阵进行分析。混淆矩阵(confusion matrix):每一列代表预测值，每一行代表的是实际的类别。混淆矩阵要统计正确预测到的负例的数量，把负例预测成正例的数量，把正例预测成负例的数量，以及正确预测到的正例的数量，这样就可以用于衡量分类准确率、正例覆盖率、正例命中率等。可以直接使用scikit--learn中提供的confusion_.matrix0获得混淆矩阵。王宇睿 2015201906 特征结合：注意到⼀些原特征对于预测房价是没什么⽤的，如total_rooms与 total_bedrooms，很容易想到与其相关且与房价有关的属性应该是rooms_per_household， bedrooms_per_room还有population_per_household。所以利⽤如total_rooms， total_bedrooms，households与population等特征结合来⽣成新的特征。编写 CombinedAttributesAdder进⾏特征结合。建⽴测试集：采⽤分层取样。特征归⼀化处理：min-max scaling (normalization) and standardization。 pipline：由于数据需要进⾏多步处理，为保证顺序处理，可以构造pipline。pipline⾸先使⽤ Imputer来处理缺失值，再⽤CombinedAttributesAdder进⾏特征结合，最后进⾏特征归⼀化处理。模型评估：使⽤交叉验证以评估模型表现。可以看到决策树模型的表现甚⾄还不如线性模型，决策树模型有过拟合的问题。还可以选择另⼀个学习模型进⾏尝试：随机森林。模型调优：使⽤⽹格搜索GridSearchCV，只需要指定各参数的取值，然后函数会⾃动随模型进⾏训练、评估并选出最优参数。 - 上机练习本周未安排上机。 - 课后⼯作运⾏书中第⼆章代码。第六周 Classification - 课堂笔记以MNIST数据集⼿写体识别为例，⾸先介绍了⼆分类问题：判断⼀个输⼊图⽚中的数字是不是5。选择分类器SGD (Stochastic Gradient Descent )随机梯度下降：该分类⽅法通过每个样本来迭代更新⼀次，如果样本量很⼤的情况，⽐如⼏⼗万，那么可能只⽤其中⼏万条或者⼏千条的样本，就已经将参数迭代到最优解，训练速度快，适合应⽤于⼤规模数据集。可以直接调⽤ scikit-learn中的SGDClassifier进⾏使⽤。在衡量分类器的表现时，可以K折交叉验证（K-fold cross validation）：把样本集分成k份，分别使⽤其中的(k-1)份作为训练集，剩下的1份作为交叉验证集，最后取最后的平均误差，来评估模型。但是要注意，很多时候仅仅使⽤accuracy并不是衡量分类器表现的最好指标，更好的⽅法是使⽤混淆矩阵进⾏分析。混淆矩阵（confusion matrix）：每⼀列代表预测值，每⼀⾏代表的是实际的类别。混淆矩阵要统计正确预测到的负例的数量，把负例预测成正例的数量，把正例预测成负例的数量，以及正确预测到的正例的数量，这样就可以⽤于衡量分类准确率、正例覆盖率、正例命中率等。可以直接使⽤scikit-learn中提供的confusion_matrix()获得混淆矩阵。 4

<<向上翻页向下翻页>>

点击下载：中国人民大学：《人工智能》课程教学资源（作业摘选）人工智能课程总结