正在加载图片...
王宇睿2015201906 特征结合:注意到一些原特征对于预测房价是没什么用的,如total_rooms与 total_bedrooms,,很容易想到与其相关且与房价有关的属性应该是rooms_per_household, bedrooms._per_room还有population_.per_household。所以利用如total_rooms, total_bedrooms,households与population等特征结合来生成新的特征。编写 建立测试集:采用分层取样。 特征归一化处理:min-max scaling(normalization)and standardization。 pipline:由于数据需要进行多步处理,为保证顺序处理,可以构造pipline。pipline首先使用 Imputer来处理缺失值, 再用CombinedAttributesAdderi进行特征结合,最后进行特征归一化 处理。 模型评估:使用交叉验证以评估模型表现。可以看到决策树模型的表现甚至还不如线性模型、 决策树模型有过拟合的问题。还可以选择另一个学习模型进行尝试:随机森林。 模型调优:使用网格搜索GridSearchCV,.只需要指定各参数的取值,然后函数会自动随模型 进行训练、评估并选出最优参数。 ·上机练习 本周未安排上机。 ·课后工作 运行书中第二章代码。 第六周Classification ~课堂笔记 以MNST数据集手写体识别为例,首先介绍了二分类问题:判断一个输入图片中的数字是不 是5 洗搔分类器SGD(Stochastic Gradient Descent)随机横度下降:该分类方法通时每个样本来 选代更新一次, 如果样本量很大的情况, 比如几十万, 那么可能只用其中几万条或者几千条的 样本,就已经将参数迭代到最优解,训练速度快,适合应用于大规模数据集。可以直接调用 scikit--learn中的SGDClassifieri进行使用。 在鱼量分类器的表现时可以K折交叉验证(K-fold cr ss validation):把样本集分成k份 分别使用其中的k1)份作为训练集,剩下的1份作为交叉验证集,最后取最后的平均误差,来 评估模型。 但是要注意,很多时候仅仅使用accuracy并不是衡量分类器表现的最好指标,更好的方法是 使用混淆矩阵进行分析。 混淆矩阵(confusion matrix):每一列代表预测值,每一行代表的是实际的类别。混淆矩阵 要统计正确预测到的负例的数量,把负例预测成正例的数量,把正例预测成负例的数量,以及 正确预测到的正例的数量,这样就可以用于衡量分类准确率、正例覆盖率、正例命中率等。可 以直接使用scikit--learn中提供的confusion_.matrix0获得混淆矩阵。王宇睿 2015201906 特征结合:注意到⼀些原特征对于预测房价是没什么⽤的,如total_rooms与 total_bedrooms,很容易想到与其相关且与房价有关的属性应该是rooms_per_household, bedrooms_per_room还有population_per_household。所以利⽤如total_rooms, total_bedrooms,households与population等特征结合来⽣成新的特征。编写 CombinedAttributesAdder进⾏特征结合。 建⽴测试集:采⽤分层取样。 特征归⼀化处理:min-max scaling (normalization) and standardization。 pipline:由于数据需要进⾏多步处理,为保证顺序处理,可以构造pipline。pipline⾸先使⽤ Imputer来处理缺失值,再⽤CombinedAttributesAdder进⾏特征结合,最后进⾏特征归⼀化 处理。 模型评估:使⽤交叉验证以评估模型表现。可以看到决策树模型的表现甚⾄还不如线性模型, 决策树模型有过拟合的问题。还可以选择另⼀个学习模型进⾏尝试:随机森林。 模型调优:使⽤⽹格搜索GridSearchCV,只需要指定各参数的取值,然后函数会⾃动随模型 进⾏训练、评估并选出最优参数。 - 上机练习 本周未安排上机。 - 课后⼯作 运⾏书中第⼆章代码。 第六周 Classification - 课堂笔记 以MNIST数据集⼿写体识别为例,⾸先介绍了⼆分类问题:判断⼀个输⼊图⽚中的数字是不 是5。 选择分类器SGD (Stochastic Gradient Descent )随机梯度下降:该分类⽅法通过每个样本来 迭代更新⼀次,如果样本量很⼤的情况,⽐如⼏⼗万,那么可能只⽤其中⼏万条或者⼏千条的 样本,就已经将参数迭代到最优解,训练速度快,适合应⽤于⼤规模数据集。可以直接调⽤ scikit-learn中的SGDClassifier进⾏使⽤。 在衡量分类器的表现时,可以K折交叉验证(K-fold cross validation):把样本集分成k份, 分别使⽤其中的(k-1)份作为训练集,剩下的1份作为交叉验证集,最后取最后的平均误差,来 评估模型。 但是要注意,很多时候仅仅使⽤accuracy并不是衡量分类器表现的最好指标,更好的⽅法是 使⽤混淆矩阵进⾏分析。 混淆矩阵(confusion matrix):每⼀列代表预测值,每⼀⾏代表的是实际的类别。混淆矩阵 要统计正确预测到的负例的数量,把负例预测成正例的数量,把正例预测成负例的数量,以及 正确预测到的正例的数量,这样就可以⽤于衡量分类准确率、正例覆盖率、正例命中率等。可 以直接使⽤scikit-learn中提供的confusion_matrix()获得混淆矩阵。 4
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有