王宇睿 2015201906 第四周 Machine Learning L

正在加载图片...

王宇春2015201906 第四周Machine Learning Landscape ·课堂笔记根据训练是否受监督，机器学习可分为监督学习、无监督学习、强化学习以及半监督学习。监督学习算法：KNN、线性回归、逻辑回归、SVM、决策树、随机森林、神经网络；无监督学习算法：聚类：k-Means、.HCA、EM算法；降维：主成分分析PCA、局部线性嵌入LLE、t SNE 机器学习中的挑战主要是bad data&bad algorithm。Bad data主要是训练数据不足、训练数据具有代无关特征(garbagei ,garbage out));Bad algorithm主要特征是训练数据过拟合（超参数的选择）、训练数据低度拟合。 Dockerf使用过程：安装Docker,,相当于构造虚拟机，模拟在Linux中跑，进入docker后，打 docker可以看到各种使用命令，使用镜像images(区分CPU、GPU),打docker run+镜像名可以启动。建立端口映射，再运行docker,提示网址（把localhost改成之前提示的P),即可使用notebooki运行ipynb。 ·上机练习本周未安排上机。 ·课后工作由于是nacOS系统，类似Linux3系统，且已经安装好需要使用的python库，因此未使用 docker;:安装Jupyter Notebook,.运行书中给的第一章代码。 ①从网上提供开源数据集gdp_per_capita.csv下载数据并尝试使用sort_values函数根据不同列的值排列数据 ②用简单的线性模型对gdp_per_capita和ife_satisfaction进行拟合，绘制图像，并观察过拟合模型和根据所有数据、部分数据进行线性拟合的图像。第五周End-to-End Machine Learning Project ·课程笔记先进行了课程大作业第一次小组展示并投票。之后以加州1990年收集到房价为数据集，使用机器学习算法预测最近加州的房价水平，了解 End-to-End Machine learn ing Project的构建过程。分析问题由于数据集是注的数据因此该问题是典型的监督学习；同时，这是一个多元回归问题，因为我们需要多个特征来进行预测；由于没有连续的数据，数据集较小，batch learning就可以完成任务。选择模型评价指标：RMSE、MAE等获得数据：确定数据集下载地址。展示数据：可以借助natplotlib进行绘图，比如用hist绘制频数直方图。查看数据相关性：使用pandas中的scatter_.matrix0(,它会描绘出数据间的两两关系。王宇睿 2015201906 第四周 Machine Learning Landscape - 课堂笔记根据训练是否受监督，机器学习可分为监督学习、⽆监督学习、强化学习以及半监督学习。监督学习算法：KNN、线性回归、逻辑回归、SVM、决策树、随机森林、神经⽹络；⽆监督学习算法：聚类：k-Means、HCA、EM算法；降维：主成分分析PCA、局部线性嵌⼊LLE、tSNE。机器学习中的挑战主要是bad data & bad algorithm。Bad data主要是训练数据不⾜、训练数据不具有代表性、⽆关特征（garbage in, garbage out）；Bad algorithm主要特征是训练数据过拟合（超参数的选择）、训练数据低度拟合。 Docker使⽤过程：安装Docker，相当于构造虚拟机，模拟在Linux中跑，进⼊docker后，打 docker可以看到各种使⽤命令，使⽤镜像images（区分CPU、GPU），打docker run+镜像名可以启动。建⽴端⼝映射，再运⾏docker，提示⽹址（把localhost改成之前提示的IP），即可使⽤notebook运⾏ipynb。 - 上机练习本周未安排上机。 - 课后⼯作由于是macOS系统，类似Linux系统，且已经安装好需要使⽤的python库，因此未使⽤ docker；安装Jupyter Notebook，运⾏书中给的第⼀章代码。 ① 从⽹上提供开源数据集gdp_per_capita.csv下载数据并尝试使⽤sort_values函数根据不同列的值排列数据。 ② ⽤简单的线性模型对gdp_per_capita和life_satisfaction进⾏拟合，绘制图像，并观察过拟合模型和根据所有数据、部分数据进⾏线性拟合的图像。第五周 End-to-End Machine Learning Project - 课程笔记先进⾏了课程⼤作业第⼀次⼩组展示并投票。之后以加州1990年收集到房价为数据集，使⽤机器学习算法预测最近加州的房价⽔平，了解 End-to-End Machine Learning Project的构建过程。分析问题：由于数据集是被标注的数据，因此该问题是典型的监督学习；同时，这是⼀个多元回归问题，因为我们需要多个特征来进⾏预测；由于没有连续的数据，数据集较⼩，batch learning就可以完成任务。选择模型评价指标：RMSE、MAE等。获得数据：确定数据集下载地址。展示数据：可以借助matplotlib进⾏绘图，⽐如⽤hist绘制频数直⽅图。查看数据相关性：使⽤pandas中的scatter_matrix()，它会描绘出数据间的两两关系。 3

<<向上翻页向下翻页>>

点击下载：中国人民大学：《人工智能》课程教学资源（作业摘选）人工智能课程总结