《大数据技术基础》课程评价、考核资 料清单、要求及说明 一、平时成绩及说明: 平时成绩(总成绩30%):三次课堂研讨PPT制作 及讲解,按照课程小组进行,假设20个小组,则每 个小组每次讲解9分钟(180分钟/20小组),讲解 内容不能重复,具体内容是大数据技术的技术点和 知识点,包含但不限于数据软硬仵平 数据的存 储与管理、数据集成与预处理、数据分析与建模 数据可视化大数据的应用但不能是笼的概念 小组成员姓名(中间用、隔升)+第Ⅹ课堂 研讨。每次研讨课结束两天后将PPT发送到我的邮 箱yong.feng@foxmail.com
《大数据技术基础》课程评价、考核资 料清单、要求及说明 一、平时成绩及说明: 平时成绩(总成绩30%):三次课堂研讨PPT制作 及讲解,按照课程小组进行,假设20个小组,则每 个小组每次讲解 9分钟(180分钟/20小组),讲解 内容不能重复,具体内容是大数据技术的技术点和 知识点,包含但不限于数据软硬件平台、数据的存 储与管理、数据集成与预处理、数据分析与建模、 数据可视化、大数据的应用,但不能是笼统的概念 、背景和概述,提交PPT的命名方式:小组编号 + 小组成员姓名(中间用“、”隔开) + 第 X次课堂 研讨。每次研讨课结束两天后将PPT发送到我的邮 箱yong.feng@foxmail.com
《大数据技术基础》课程评价、考核资 料清单、要求及说明 、期末成绩及说明: (必选)收集一份数据集:需要说明数据集的结构 和格式,数据集的使用方式,需要强调如何部署到 hadoop或 spark平台上; 2、(必选)部署 hadoop或spak平台或 hadoop+spark 并能在部署好的平台上成功运行一个 map-reduce算例(如 wordcoun等),要有部署成功 和运行成功的佐证材料(如录屏或录制视频 3、(必选)根据一定的应用场景,选取一个算法(如 map- reduce弁行化卖现,并宜在部署孬的大数据平台 好罷基省己集的数粲 好的应用给出算法的评价,最
《大数据技术基础》课程评价、考核资 料清单、要求及说明 二、期末成绩及说明: 1、(必选)收集一份数据集:需要说明数据集的结构 和格式,数据集的使用方式,需要强调如何部署到 hadoop 或spark平台上; 2、(必选)部署hadoop 或spark平台或 hadoop+spark,并能在部署好的平台上成功运行一个 map-reduce算例(如wordcount等),要有部署成功 和运行成功的佐证材料(如录屏或录制视频); 3、(必选)根据一定的应用场景,选取一个算法(如 数据挖掘的算法等,当然也可以自己写算法)将之 map-reduce并行化实现,并且在部署好的大数据平台 上运行成功,并结合设定好的应用给出算法的评价,最 好能基于自己收集的数据集;
《大数据技术基础》课程评价、考核资 料清单、要求及说明 4、(加分点)算法或应用的复杂性及可用性 部署且使用的平台及其模块种类(如 hadoop+ spark,完全分布部署;又比如利用 到了Hive、图计算框架、流计算框架、 Mongo DB等);算法和应用的量化可评价度 量性;分析计算结果的可展示性等。 5、(必选)制作8-9分钟的课程答辩PPT, 讲解数据收集的过程和结果,平台部署的过程 和结果,遇到的问题,算法运行的过程和结果 总结
《大数据技术基础》课程评价、考核资 料清单、要求及说明 4、(加分点)算法或应用的复杂性及可用性 ;部署且使用的平台及其模块种类(如 hadoop+spark,完全分布部署;又比如利用 到了Hive、图计算框架、流计算框架、 MongoDB等);算法和应用的量化可评价度 量性;分析计算结果的可展示性等。 5、(必选)制作8-9分钟的课程答辩PPT, 讲解数据收集的过程和结果,平台部署的过程 和结果,遇到的问题,算法运行的过程和结果 ,总结;
《大数据技术基础》课程评价、考核资 料清单、要求及说明 丶6、(必选)在研究生院的网站下载“研究生课程考核 试卷(适用于课程论文、提交报告)”,撰写课程报告 每个小组完成一份,课程报告包括但不限于:具体的 小组成员分工,平台搭建的详细过程,测试案例运 程及结果,并行化算法设计运行的过程和结果,数据集 的格式入收集说明相使用方案课程总结。提交答辩 、”隔开)+课程答辩;提交课程报告的命名方式: 组编号+小组成员姓名(中间用“、”隔开)+课程报 告;提交程序(代码+注释+运行配置说明)、数据集 和媒体资源的命名方式:小组编号十小组成员姓名(中 间用“、”隔开)+附件资源,附件资源可以打包成rar 或zip,PT和课程报告不要压缩打包;
《大数据技术基础》课程评价、考核资 料清单、要求及说明 6、(必选)在研究生院的网站下载“研究生课程考核 试卷(适用于课程论文、提交报告)”,撰写课程报告 ,每个小组完成一份,课程报告包括但不限于:具体的 小组成员分工,平台搭建的详细过程,测试案例运行过 程及结果,并行化算法设计运行的过程和结果,数据集 的格式、收集、说明和使用方案,课程总结。提交答辩 PPT的命名方式:小组编号 +小组成员姓名(中间用“ 、”隔开) +课程答辩;提交课程报告的命名方式:小 组编号 +小组成员姓名(中间用“、”隔开) +课程报 告;提交程序(代码 +注释 +运行配置说明)、数据集 和媒体资源的命名方式:小组编号 +小组成员姓名(中 间用“、”隔开) +附件资源,附件资源可以打包成rar 或zip,PPT和课程报告不要压缩打包;
《大数据技术基础》课程评价、考核资 料清单、要求及说明 7、(必选)课程结束后两周内(含两周) 每个小组将答辩PPT、课程报告、程序(代 码+注释+运行配置说明)、数据集和媒体 资源存储至腾讯微云或百度云盘并将链接 发送到我的邮箱 yong feng@ foxmail con ,同时将纸质报告双面打印交至我指定的 联系人处
《大数据技术基础》课程评价、考核资 料清单、要求及说明 7、(必选)课程结束后两周内(含两周) 每个小组将答辩PPT、课程报告、程序(代 码 +注释 +运行配置说明)、数据集和媒体 资源存储至腾讯微云或百度云盘并将链接 发送到我的邮箱yong.feng@foxmail.com ,同时将纸质报告双面打印交至我指定的 联系人处
课程背景及意义 《教育部关于做好2009年全日制专业学位硕士研究生招生计划安排工作 的通知》(教发[2009]6号)启动专业硕士招生 全日制专业硕士学位是国家新兴人才战略的重要发展方向 《国家中长期教育改革和发展规划纲要(2010-2020年)》中明确指出“重 点扩大应用型、复合型、技能型人才培养规模。加快发展专业学位研究 生教育” 《国家中长期科技人才发展规划(2010-2020年)》明确指出“全面推行 产学研合作教育模式和“双导师”制,充分发挥工程类和应用型科研机 构在培养优秀工程技术人才方面的优势” 大数据关注工程研究问题,是信息科技最新聚焦点之一,也是国家信息 业突破点 国务院《促进大数据发展行动纲要》(国发(2015)50号) 《重庆市大数据行动计划》(渝府发(2013)62号) ■大数据产业急需计算机类高级工程专业人才的参与和推动 麦肯锡全球研究院的研究预测仅在美国本土就可能面临缺乏14万至19万 具备深入分析数据能力人才的情况,同时具备通过分析大数据并为企业 做出有效决策的数据的管理人员和分析师也有150万人的缺口 信息物理社会可信服务计算重点实验室
课程背景及意义 《教育部关于做好2009年全日制专业学位硕士研究生招生计划安排工作 的通知》(教发[2009]6号)启动专业硕士招生 全日制专业硕士学位是国家新兴人才战略的重要发展方向 《国家中长期教育改革和发展规划纲要(2010-2020年)》中明确指出“重 点扩大应用型、复合型、技能型人才培养规模。加快发展专业学位研究 生教育” 《国家中长期科技人才发展规划(2010-2020年)》明确指出“全面推行 产学研合作教育模式和“双导师”制,充分发挥工程类和应用型科研机 构在培养优秀工程技术人才方面的优势” 大数据关注工程研究问题,是信息科技最新聚焦点之一,也是国家信息 产业突破点 国务院《促进大数据发展行动纲要》(国发〔2015〕50号) 《重庆市大数据行动计划》(渝府发〔2013〕62号) 大数据产业急需计算机类高级工程专业人才的参与和推动 麦肯锡全球研究院的研究预测仅在美国本土就可能面临缺乏14万至19万 具备深入分析数据能力人才的情况,同时具备通过分析大数据并为企业 做出有效决策的数据的管理人员和分析师也有150万人的缺口
课程依托的环境 ■我们在培 仔的教学研 究及实践 信息物程车可信计算 教育斜重实旋室 信息物 大学) 大数捷 2012 bs,存储 "" 信息物理社会可信服务计算重点实验室
课程依托的环境 我们在培养大数据产业高级专业技术才人具有良好的教学研 究及实践基础 信息物理社会可信服务计算教育部重点实验室(重庆大学) 大数据方向:教授5人,副教授4人,讲师4人 2012 年购置了曙光刀片集群系统,计算2.55TFlops,存储 21TB 2013年购置了曙光高性能计算集群系统,计算2.66TFlops、 存储108TB 2016年购置了曙光大数据一体机,计算2.4192Tflops、Cache 192GB,内存1.25TB,存储588TB 部署了曙光XData-Hadoop大数据软件、原生Hadoop和Spark 大数据研究平台
我们提出的大数据产业高级技术人才协同创新培养基本模型 初级 中级 高级 大数据 ECharts Tableau 可视化 Chart API 大数据典 文本处理 推荐技术 图像处理语音识别 型应用 数理统计 据挖掘 数据挖掘 R语言 机器 R语言机器学「数据挖 大数据计 概论 (中级) 学习 级)习(高级)掘(高级) 算与分析 图计算框架 计算框架(以 MapReduce计 内存计算框架 (以 Pregel和 算框架 Python (以 Spark为例) Hama为例) 分布式文件列数据库打分布式关系型『NQL技术 数据仓库技术 存储技术(以 技术(以 数据库技术(以(以 MongoDB 大数据融HDFs为例) 以Hive为例) MySQL为例) 为例) 合与存储 数据融 网页抽 5pak生态 合与压 取与过 态系统架构系统架构 ETL技术 缩技术 滤技术 大数据 采集 网络爬虫技术 内容检索技术 内容检索技术 高级) 高性能计算 大数据基 与体系结构 础平台 Linux操作系统 虚拟化技术 FPGA硬件加 速技术 信息物理社会可信服务计算重点实验室
我们提出的大数据产业高级技术人才协同创新培养基本模型
大数据领域的 人次培养模型 →)系、培养方案的递 归式修 人才培养模型、课程体系及 大数据相关企 业需求要素 大数据研究和 培养方案的递归修正建议 技术领域的隐 小式知识点要素 式能力要素 大数据领域专利用SM分类器对热词库 学生科研与实践能 进行领域分类 力评估多因素变量 家人工调优 (心理素质、意志 认知力、创新情 丁Hae的人数据研究和技术8、创新动机、实 域的可扩展热词库 践能力评价等) 其工的 的大数据领域热 英文分词、词频统计 /大数据研究和技术领域包含标 题、摘要和关键词的中文文本和 英文文本 WDB数据的批量自动抽取 面向大数据研究和技术领 域的分布式网络爬虫系统 维普/EE/ET ACM数 知网直数据)数据 信息物理社会可信服务计算重点实验室
人才培养模型、课程体系及 培养方案的递归修正建议
多类型交互式/基于03的数据可)基丁Tb的数据)基TE的数据 数据展示 视化展示 可视化展示 可视化展示 多颔域大数据应用系统和模型 汽车推荐 英文分 票房预 农产品电 荐系统 词系统 分析模型 腐程 基 挖握、机器学习 等的分析与计算模 Spark计算 大数据产业高级 技术人才协同创 多領域农产品 校园网运行∧汽车领域用电影票来自电商、社交、电影 日志数据 新培养实训与实 n资源据200GB 售数据46B数据368的标准实验数据集约5B 践平台 多领域、多源 XData.ETL 多粒度数据采 HBase MySQL 集、融合与存储 数据抽取与 原生 Apache Hadoop系统和原生 Apache Spark系统 大数据软件 已有或下我的 多领城数据 物理计算机池 塔光 Cloudview、 VMware等虚扳化管理软件 2013年,计算2651p,存储108812012年,计算2510p,存储21B存情78129 嚣光高性能计算集群 信息物理社会可信服务计算重点实验室
大数据产业高级 技术人才协同创 新培养实训与实 践平台