
《R 语言与数据分析》课程大纲 课程基本信息(Course Information) 课程编号 (Course ID) 1282020082 *学时 (Credit Hours) 32 *学分 (Credits) 2 *课程名称 (Course Name) R 语言与数据分析 Data analysis with R 先修课程 (Prerequisite Courses) *课程简介 (Description) R 语言,是统计学以及数据分析工具的第一选择;可以完成几乎任何类型的数据分析工作; 拥有丰富的可视化模块与顶尖的制图功能;可以在多平台上、轻松的导入并处理多源数 据模式。 这门课的主题是如何熟练、灵活的使用 R 语言编程进行大数据分析。在这门课中,我们 将学习到 R 语言的基础语法、使用 R 语言处理数据、进行绘图、创建并使用 R 语言函数、 使用 R 语言进行统计分析与简单的回归分析等。 这门课程强调理论与实践的融合,充分调动同学们的动手实践能力。我们在每一章节中 设置了大量的代码实践内容,并在课程最后设置了综合实践章节,用来介绍 R 语言的具 体应用。 通过这门课程的学习,要求同学们掌握 R 语言的基础语法、具备使用 R 语言编程解决一 般计算问题的能力、理解数据分析的基本流程、了解使用 R 语言进行大数据分析的实战 技巧。 *课程简介 (Description) R language is the first choice of statistics and data analysis toolsCan complete almost any type of data analysisIt has rich visualization modules and top mapping functionsYou can easily import and process multi-source data schemas on multiple platforms. The subject of this course is how to skillfully and flexibly use R language programming for big data analysis. In this course, we will learn the basic grammar of R language, use R language to process data, plot, create and use R language functions, use R language for statistical analysis and simple regression analysis, etc. This course emphasizes the integration of theory and practice, and fully mobilize the students' practical ability. We set up a large number of code practice content in each chapter, and set up a comprehensive practice chapter at the end of the course to introduce the specific application of R language. Through the study of this course, students are required to master the basic grammar of R language, have the ability to use R language programming to solve general computing problems, understand the basic process of data analysis, and understand the practical

skills of big data analysis using R language. *教材 (Textbooks) R 语言实战,obert I. Kabacoff 著,人民邮电出版社,2016 年,第 2 版,ISBN:9787115420572 参考资料 ( Other References) *课程类别 (Course Category) 公共基础课/全校公共必修课 通识教育课 专业基础课 专业核心课/专业必修课 专业拓展课/专业选修课 其他 *授课对象 (Target Students) 全校本科生 *授课模式 (Mode of Instruction) 线上,教学平台 线下 混合式 其他 实践类(70%以上学时深入基层) *开课院系 (School) 计算机教研部 *授课语言 (Language of Instruction) 中文 全外语 双语:中文+ (外语讲授不低于 50%) *授课教师信息 (Teacher Information) 课程负责人 姓名及简介 翟剑锋 副教授 计算机教研部负责人 团队成员 姓名及简介 朱俭,男,中国社会科学院大学计算机教研部教师,北京理工 大学计算机博士,主要研究方向为自然语言处理、人工智能、 数据分析。2020 年荣获中国社会科学院大学校级青年教学名师 称号。2016 年荣获北京市青年岗位能手。 学习目标 (Learning Outcomes) 1、能理解 R 语言进行数据挖据与分析的基础知识,包括:R 语言及图形操作工具 RStudio 的安装及使用方法、数据类型和数据对象、数据预处理的常用操作(包括数据重命名、 缺失值分析、排序、随机抽样等)、绘图功能(包括散点图、直方图、条形图、箱线图 等)。 2、能理解 R 语言进行判定、分析和计算的方法,包括微积分基础、线性代数基础、概率 论和数理统计基础、数值计算基础。 3、能运用 R 语言解决实际问题,选择、修改和应用相应代码,提高项目实践能力,为今 后职业发展创造更多机会 *考核方式 (Grading) 平时成绩 30%、期末成绩 70%

*课程教学计划(Teaching Plan)填写规范化要求见附件 周次 周 学 时 其中 教学内容摘要 (必含章节名称、讲述的内容提要、实验的名称、教学方法、课堂讨论的题目、 阅读文献参考书目及作业等) 讲 授 实 验 课 习 题 课 课 程 讨 论 其 他 环 节 第一周 3 2 1 概述 1. 数据分析概述 2. R 简介 3. 统计学习 4. 示例实践 教学方法:基于案例驱动的混合式教学,边讲边练 实验名称:安装 R 语言,安装 Rstudio 第二周 3 2 1 数据结构 1. 向量 2. 矩阵 3. 列表 4. 数据框 5. 因子 6. 数组 教学方法:基于案例驱动的混合式教学,边讲边练 实验名称:熟悉 RStudio 软件环境,并了解相关数据结构的基本操作 第三周 3 2 1 数据整理(1) 1. 数据导入 2. 关系数据 3. 正则表达式 4. 变量的重编码 5. 变量的重命名 6. 缺失值 7. 数据排序 教学方法:基于案例驱动的混合式教学,边讲边练 实验名称:掌握基本操作,并完成实验一 数据导入、实验二 基本数 据处理 第四周 3 2 1 数据整理(2) 1. - 字符处理 2. - 日期时间处理 3. - 数据转换 4. 数据集合并 5. 数据集取子集 教学方法:基于案例驱动的混合式教学,边讲边练 实验名称:掌握数据整理和数据转换操作,完成实验四 数据转换

第五周 3 2 1 基本绘图 1. 掌握 R 语言的绘图系统,包括条形图、饼图、直方图 2. 通过可视化发掘数据关系 3. 克利夫兰点图 4. 系列坡度图 5. 南丁格尔玫瑰图 6. 径向柱形图 7. 雷达图 教学方法:基于案例驱动的混合式教学,边讲边练 实验名称:熟练可视化的基本操作,完成实验五 可视化操作(1) 第六周 3 2 1 可视化操作(2) 1. 掌握 ggplot2 2. 利用 ggplot2 各种可视化操作 3. 掌握标签云、地图绘制 4. 散点图系列 5. 曲面拟合图 6. 等高线图 7. 切面图 8. 散点曲线图 9. 瀑布图 教学方法:基于案例驱动的混合式教学,边讲边练 实验名称:熟悉可视化操作,完成实验六可视化操作(2) 第七周 3 2 1 关系数据及函数 1. 关系数据处理 2. 关系型数据的连接图 3. 自定义函数 4. 分支函数 5. 循环函数 教学方法:基于案例驱动的混合式教学,边讲边练 实验名称:完成实验七 数据操纵 第八周 3 2 1 探索性分析 1. 学会通过图表发掘数据规律 2. 学会如何进行数据的探索性分析 教学方法:基于案例驱动的混合式教学,边讲边练 实验名称:完成实验八 探索性分析 第九周 3 2 1 统计推断 1. T 检验; 2. 卡方检验 3. 方差分析 4. 线性模型 5. 比例检验 教学方法:基于案例驱动的混合式教学,边讲边练 实验名称:实验九 统计推断

第十周 3 2 1 线性回归 1. 拟合回归模型 2. 简单现象回归 3. 多项式回归 4. 多元线性回归 教学方法:基于案例驱动的混合式教学,边讲边练 实验名称:完成实验十 线性回归 第十一周 2 2 方差分析 1. ANOVA 模型拟合 2. 单因素方差分析 3. 单因素协方差分析 4. 双因素方差分析 5. 重复测量方差分析 6. 多元方差分析 教学方法:基于案例驱动的混合式教学,边讲边练 实验名称:完成实验十一 方差分析 总计 32 22 10 备注(Notes)