王宇春2015201906 第四周Machine Learning Landscape ·课堂笔记 根据训练是否受监督,机器学习可分为监督学习、无监督学习、强化学习以及半监督学习。监 督学习算法:KNN、线性回归、逻辑回归、SVM、决策树、随机森林、神经网络;无监督学 习算法:聚类:k-Means、.HCA、EM算法;降维:主成分分析PCA、局部线性嵌入LLE、t SNE 机器学习中的挑战主要是bad data&bad algorithm。Bad data主要是训练数据不足、训练数 据 具有代 无关特征(garbagei ,garbage out));Bad algorithm主要特征是训练数据 过拟合(超参数的选择)、训练数据低度拟合。 Dockerf使用过程:安装Docker,,相当于构造虚拟机,模拟在Linux中跑,进入docker后,打 docker可以看到各种使用命令,使用镜像images(区分CPU、GPU),打docker run+镜像名 可以启动。建立端口映射,再运行docker,提示网址(把localhost改成之前提示的P),即 可使用notebooki运行ipynb。 ·上机练习 本周未安排上机。 ·课后工作 由于是nacOS系统,类似Linux3系统,且已经安装好需要使用的python库,因此未使用 docker;:安装Jupyter Notebook,.运行书中给的第一章代码。 ①从网上提供开源数据集gdp_per_capita.csv下载数据并尝试使用sort_values函数根据不同 列的值排列数据 ②用简单的线性模型对gdp_per_capita和ife_satisfaction进行拟合,绘制图像,并观察过拟 合模型和根据所有数据、部分数据进行线性拟合的图像。 第五周End-to-End Machine Learning Project ·课程笔记 先进行了课程大作业第一次小组展示并投票。 之后以加州1990年收集到房价为数据集,使用机器学习算法预测最近加州的房价水平,了解 End-to-End Machine learn ing Project的构建过程。 分析问题 由于数据集是 注的数据 因此该问题是典型的监督学习;同时,这是一个多元 回归问题,因为我们需要多个特征来进行预测;由于没有连续的数据,数据集较小,batch learning就可以完成任务。 选择模型评价指标:RMSE、MAE等 获得数据:确定数据集下载地址。 展示数据:可以借助natplotlib进行绘图,比如用hist绘制频数直方图。 查看数据相关性:使用pandas中的scatter_.matrix0(,它会描绘出数据间的两两关系。 王宇睿 2015201906 第四周 Machine Learning Landscape - 课堂笔记 根据训练是否受监督,机器学习可分为监督学习、⽆监督学习、强化学习以及半监督学习。监 督学习算法:KNN、线性回归、逻辑回归、SVM、决策树、随机森林、神经⽹络;⽆监督学 习算法:聚类:k-Means、HCA、EM算法;降维:主成分分析PCA、局部线性嵌⼊LLE、tSNE。 机器学习中的挑战主要是bad data & bad algorithm。Bad data主要是训练数据不⾜、训练数 据不具有代表性、⽆关特征(garbage in, garbage out);Bad algorithm主要特征是训练数据 过拟合(超参数的选择)、训练数据低度拟合。 Docker使⽤过程:安装Docker,相当于构造虚拟机,模拟在Linux中跑,进⼊docker后,打 docker可以看到各种使⽤命令,使⽤镜像images(区分CPU、GPU),打docker run+镜像名 可以启动。建⽴端⼝映射,再运⾏docker,提示⽹址(把localhost改成之前提示的IP),即 可使⽤notebook运⾏ipynb。 - 上机练习 本周未安排上机。 - 课后⼯作 由于是macOS系统,类似Linux系统,且已经安装好需要使⽤的python库,因此未使⽤ docker;安装Jupyter Notebook,运⾏书中给的第⼀章代码。 ① 从⽹上提供开源数据集gdp_per_capita.csv下载数据并尝试使⽤sort_values函数根据不同 列的值排列数据。 ② ⽤简单的线性模型对gdp_per_capita和life_satisfaction进⾏拟合,绘制图像,并观察过拟 合模型和根据所有数据、部分数据进⾏线性拟合的图像。 第五周 End-to-End Machine Learning Project - 课程笔记 先进⾏了课程⼤作业第⼀次⼩组展示并投票。 之后以加州1990年收集到房价为数据集,使⽤机器学习算法预测最近加州的房价⽔平,了解 End-to-End Machine Learning Project的构建过程。 分析问题:由于数据集是被标注的数据,因此该问题是典型的监督学习;同时,这是⼀个多元 回归问题,因为我们需要多个特征来进⾏预测;由于没有连续的数据,数据集较⼩,batch learning就可以完成任务。 选择模型评价指标:RMSE、MAE等。 获得数据:确定数据集下载地址。 展示数据:可以借助matplotlib进⾏绘图,⽐如⽤hist绘制频数直⽅图。 查看数据相关性:使⽤pandas中的scatter_matrix(),它会描绘出数据间的两两关系。 3