课程内容 课程内容 围绕学科理论体系中的模型理论,程序理论和计算理论 1.模型理论关心的问题 给定模型M,哪些问题可以由模型M解决;如何 比较模型的表达能力 本次讲座与这些内容关系 2.程序理论关心的问题不大 给定模型M,如何用模型M解决问题 包括程序设计范型、程序设计语言、程序设计、 形式语义、类型论、程序验证、程序分析等 3.计算理论关心的问题 给定模型M和一类问题,解决该类问题需多少资源
课 程 内 容 • 课程内容 围绕学科理论体系中的模型理论, 程序理论和计算理论 1. 模型理论关心的问题 给定模型M,哪些问题可以由模型M解决;如何 比较模型的表达能力 2. 程序理论关心的问题 – 给定模型M,如何用模型M解决问题 – 包括程序设计范型、程序设计语言、程序设计、 形式语义、类型论、程序验证、程序分析等 3. 计算理论关心的问题 给定模型M和一类问题, 解决该类问题需多少资源2 本次讲座与这些内容关系 不大
讲座提纲 大数据的魅力 -数据挖掘、大数据、大数据案例、大数据的特点 大数据时代的思维变革 样本和全体、精确性和混杂性、因果关系和相关 关系 大数据的处理 -几种主要处理方式、MapReduce编程模型 大数据的分析 关键技术概述、PageRank初步 3
讲 座 提 纲 • 大数据的魅力 – 数据挖掘、大数据、大数据案例、大数据的特点 • 大数据时代的思维变革 – 样本和全体、精确性和混杂性、因果关系和相关 关系 • 大数据的处理 – 几种主要处理方式、MapReduce编程模型 • 大数据的分析 – 关键技术概述、PageRank初步 3
大数据的魅力 数据挖掘 数据挖掘的定义 1.从数据中提取出隐含的、过去未知的、有价值 的潜在信息 2.从大量数据或者数据库中提取有用信息的科学 -相关概念:知识发现 1.数据挖掘是知识发现过程中的一步 2.粗略看:数据预处理→数据挖掘→数据后处理 预处理:将未加工输入数据转换为适合处理的形式 后处理:如可视化,便于从不同视角探查挖掘结果
• 数据挖掘 – 数据挖掘的定义 1. 从数据中提取出隐含的、过去未知的、有价值 的潜在信息 2. 从大量数据或者数据库中提取有用信息的科学 – 相关概念:知识发现 1. 数据挖掘是知识发现过程中的一步 2. 粗略看:数据预处理→数据挖掘→数据后处理 预处理: 将未加工输入数据转换为适合处理的形式 后处理: 如可视化, 便于从不同视角探查挖掘结果 大数据的魅力 4
大数据的魅力 数据挖掘 典型事例:购物篮分析 顾客 一次购买商品 面包、黄油、尿布、牛奶 2 咖啡、糖、小甜饼、鲑鱼 3 黄油、。 咖啡、尿布、牛奶、鸡蛋 4 黄油、鲑鱼、鸡 5 6 鸡 、 面包、黄油 7 尿布、牛奶 面 、茶叶、糖、鸡蛋 89 啡、糖、鸡、 鸡蛋 面包、 尿布、牛奶、盐 10 茶叶、鸡蛋、小甜饼、尿布、牛奶 5
• 数据挖掘 – 典型事例:购物篮分析 顾客 一次购买商品 1 面包、黄油、尿布、牛奶 2 咖啡、糖、小甜饼、鲑鱼 3 面包、黄油、咖啡、尿布、牛奶、鸡蛋 4 面包、黄油、鲑鱼、鸡 5 鸡蛋、面包、黄油 6 鲑鱼、尿布、牛奶 7 面包、茶叶、糖、鸡蛋 8 咖啡、糖、鸡、鸡蛋 9 面包、尿布、牛奶、盐 10 茶叶、鸡蛋、小甜饼、尿布、牛奶 大数据的魅力 5
大数据的魅力 数据挖掘 典型事例:购物篮分析 顾客 一次购买商品 面包、黄油、尿布、 牛奶 2 咖啡、 糖、小甜饼、鲑鱼 3 黄油、, 咖啡、尿布、 牛奶、鸡蛋 4 包 黄油、鲑鱼、鸡 5 面包、 黄油 6 鱼、 尿布、牛奶 7 包、茶叶、糖、鸡蛋 8 咖啡、糖、 鸡、鸡蛋 9 面包、 尿布、牛奶、盐 10 茶叶、鸡蛋、小甜饼、 尿布、牛奶 经关联分析,可发现顾客经常同时购买的商品:尿布→年奶
• 数据挖掘 – 典型事例:购物篮分析 顾客 一次购买商品 1 面包、黄油、尿布、牛奶 2 咖啡、糖、小甜饼、鲑鱼 3 面包、黄油、咖啡、尿布、牛奶、鸡蛋 4 面包、黄油、鲑鱼、鸡 5 鸡蛋、面包、黄油 6 鲑鱼、尿布、牛奶 7 面包、茶叶、糖、鸡蛋 8 咖啡、糖、鸡、鸡蛋 9 面包、尿布、牛奶、盐 10 茶叶、鸡蛋、小甜饼、尿布、牛奶 经关联分析,可发现顾客经常同时购买的商品:尿布→牛奶 大数据的魅力 6
大数据的魅力 大数据 大数据,或称海量数据, 指所涉及的数据量规模 巨大到无法通过人工,在合理时间内达到截取、 管理、处理、并整理成为人类所能解读的信息 例如:Google每天有来自全球30亿条搜索指令 每天都有成千上万的人通过Google搜索信息, 从出游的路线和耗时、治疗某种疾病的方法和某 研究方向的最新学术资料,各式各样的搜索要求 都有 ·这样的搜索引擎无疑极大地方便了人们的生活 和工作
• 大数据 – 大数据,或称海量数据,指所涉及的数据量规模 巨大到无法通过人工,在合理时间内达到截取、 管理、处理、并整理成为人类所能解读的信息 – 例如: Google每天有来自全球30亿条搜索指令 • 每天都有成千上万的人通过Google搜索信息, 从出游的路线和耗时、治疗某种疾病的方法和某 研究方向的最新学术资料,各式各样的搜索要求 都有 • 这样的搜索引擎无疑极大地方便了人们的生活 和工作 大数据的魅力 7
大数据的魅力 大数据 大数据,或称海量数据, 指所涉及的数据量规模 巨大到无法通过人工,在合理时间内达到截取、 管理、处理、并整理成为人类所能解读的信息 -这一系列搜索数据从侧面显示出搜索这些信息的 人的本身情况,比如他们的想法、需求、忧虑等 非常有价值的信息 如果这些搜索数据能准确地反映人们的生活和工 作状况,那么就有可能利用这些信息来察觉商业 趋势、避免疾病扩散、打击犯罪、测定实时交通 路况和预测选举结果等
• 大数据 – 大数据,或称海量数据,指所涉及的数据量规模 巨大到无法通过人工,在合理时间内达到截取、 管理、处理、并整理成为人类所能解读的信息 – 这一系列搜索数据从侧面显示出搜索这些信息的 人的本身情况,比如他们的想法、需求、忧虑等 非常有价值的信息 – 如果这些搜索数据能准确地反映人们的生活和工 作状况,那么就有可能利用这些信息来察觉商业 趋势、避免疾病扩散、打击犯罪、测定实时交通 路况和预测选举结果等 大数据的魅力 8
大数据的魅力 大数据 大数据,或称海量数据, 指所涉及的数据量规模 巨大到无法通过人工,在合理时间内达到截取、 管理、处理、并整理成为人类所能解读的信息 与小数据集的比较: 在总数据量相同的情况下,与个别分析独立的 小型数据集相比,将各个小型数据集合并后进行 大数据分析可得出许多额外的信息和数据关联性 这正是大型数据集盛行的原因 数据挖掘则是探讨用以解析大数据的方法
• 大数据 – 大数据,或称海量数据,指所涉及的数据量规模 巨大到无法通过人工,在合理时间内达到截取、 管理、处理、并整理成为人类所能解读的信息 – 与小数据集的比较: 在总数据量相同的情况下,与个别分析独立的 小型数据集相比,将各个小型数据集合并后进行 大数据分析可得出许多额外的信息和数据关联性 – 这正是大型数据集盛行的原因 – 数据挖掘则是探讨用以解析大数据的方法 大数据的魅力 9
大数据的魅力 大数据案例一谷歌预测冬季流感的传播 2008年11月谷歌启动“谷歌流感趋势”(Google Flu Trends,GFT)项目 GFT项目把5000万个美国人最频繁检索的词项与 美国疾病预防控制中心告知的2003年~2008年季 节性流感传播期间的数据进行比较,以确定相关 检索词项 为测试这些检索词项的使用频率与流感在时间和 空间上传播之间的联系,GFT共处理了4.5亿个不 同的数学模型
• 大数据案例—谷歌预测冬季流感的传播 – 2008年11月谷歌启动“谷歌流感趋势”(Google Flu Trends, GFT) 项目 – GFT项目把5000万个美国人最频繁检索的词项与 美国疾病预防控制中心告知的2003年~2008年季 节性流感传播期间的数据进行比较,以确定相关 检索词项 – 为测试这些检索词项的使用频率与流感在时间和 空间上传播之间的联系,GFT共处理了4.5亿个不 同的数学模型 大数据的魅力 10
大数据的魅力 大数据案例一谷歌预测冬季流感的传播 为测试这些检索词项的使用频率与流感在时间和 空间上传播之间的联系,GT共处理了4.5亿个不 同的数学模型 在把得出的预测与2007年和2008年疾病预防控制 中心记录的实际流感病例进行对比后,GFT的软 件发现了45个检索词项的组合 把这些检索词项用于一个特定的数学模型后,其 预测与官方数据相关性高达97%
• 大数据案例—谷歌预测冬季流感的传播 – 为测试这些检索词项的使用频率与流感在时间和 空间上传播之间的联系,GFT共处理了4.5亿个不 同的数学模型 – 在把得出的预测与2007年和2008年疾病预防控制 中心记录的实际流感病例进行对比后,GFT的软 件发现了45个检索词项的组合 – 把这些检索词项用于一个特定的数学模型后,其 预测与官方数据相关性高达97% 大数据的魅力 11