@ 数据科学导论 绪论 韩爱庆 北京中医药大学管理学院 2020.09
绪 论 韩爱庆 北京中医药大学 管理学院 2020.09 数据科学导论
目录 数据科学导论 ·数据科学定义 ·数据科学研究目的 ·数据科学发展简史 ·数据科学理论体系 ·数据科学基本流程 ·数据科学人才类型 ·如何继续学习
数据科学理论与实践 目录 数据科学导论 ▪ 数据科学定义 ▪ 数据科学研究目的 ▪ 数据科学发展简史 ▪ 数据科学理论体系 ▪ 数据科学基本流程 ▪ 数据科学人才类型 ▪ 如何继续学习
数据科学定义
数据科学定义
术语定义 数据科学导论 DIKW金字塔(DIKW Pyramid)模型揭示了数据(Data)与信息(Information)、 知识(Knowledge)与智慧(Wisdom)之间的区别与联系,如图1-1所示。 运用知识,并结合经验 创造性地预测、解释、 未来 智慧 发现等 Wisdom 从(多条)信息中发现 的共性规律、模式, Knowledge 知识 模型、理论、方法等 过去 数据,尤其是多条数 Information 信息 据所共同反映的现实 世界中的现象 Data 数据 现实世界的记录 图1-1DIKW金字塔模型
数据科学理论与实践 术语定义 数据科学导论 ▪ DIKW金字塔(DIKW Pyramid)模型揭示了数据(Data)与信息(Information)、 知识 (Knowledge)与智慧(Wisdom)之间的区别与联系,如图1-1所示
什么是数据(Data) 数据科学导论 ·数据是载荷信息的载体,是数字、 文字、语音、图形、图像、动画▣、 数据≠数值 文字 视频、多媒体、富媒体等多种形式 数值 图形 的记录。 语音 视频 图像 多 媒体 动画 ·例如,身高为180cm,体重为75kg 富 媒体
数据科学理论与实践 什么是数据(Data) 数据科学导论 ▪ 数据是载荷信息的载体,是数字、 文字、语音、图形、图像、动画、 视频 、多媒体、富媒体等多种形式 的记录。 ▪ 例如,身高为180cm,体重为75kg 数据 数值 数值 文字 视频 图像 语音 ... 图形 多 媒体 富 媒体 动画
什么是信息(information) 数据科学导论 ·信息。信息是具有时效性的有一定含义的,有逻辑的、经过加工处理的、对 决策有价值的数据流。 ■:例如,张三同学的身高为180cm,体重为75kg等信息是依附在该同学身上的 客观存在
数据科学理论与实践 什么是信息(information) 数据科学导论 ▪ 信息。信息是具有时效性的有一定含义的,有逻辑的、经过加工处理的、对 决策有价值的数据流。 ▪ 例如,张三同学的身高为180cm,体重为75kg等信息是依附在该同学身上的 客观存在
什么是知识 数据科学导论 ■知识。人们从(多条)信息中发现的共性规律、模式、模型、理论、方法等 ·通常根据能否清晰地表述和有效地转移,将知识分为两种:显性知识( Explicit Knowledge)和隐性知识(Tacit Knowledge)。 ·例如,通过计量和记录的方式获得多个同学的身高和体重数据之后,用数据 分析方法洞见大学生的身高与体重之间的内在联系或潜在模式,即获得关于 大学生身高和体重的知识
数据科学理论与实践 什么是知识 数据科学导论 ▪ 知识。人们从(多条)信息中发现的共性规律、模式、模型、理论、方法等 ▪ 通常根据 能否清晰地表述和有效地转移,将知识分为两种:显性知识( Explicit Knowledge) 和隐性知识(Tacit Knowledge)。 ▪ 例如,通过计量和记录的方式获得多个同学的身高和体重数据之后,用数据 分析方法洞见大学生的身高与体重之间的内在联系或潜在模式,即获得关于 大学生身高和体重的知识
数据的结构 数据科学导论 ·从结构化程度看,通常将数据分为结构化数据、半结构化数据和非结构化数 据三种,如表1-1所示。 ·在数据科学中,数据的结构化程度对于数据处理方法的选择具有重要影响。 例如,结构化数据的管理可以采用传统关系数据库技术,而非结构化数据的管 理往往采用NoSQL、NewSQL或关系云技术。 表11结构化数据,非结构化数据与半结构化数据的区别与联系 型 学 义 本 东 举 例 直接可以用传统关系数据 结构化数据 库存储和管理的数据 先有结构,后有数据 关系型数据库中的 数据 无法用关系数据岸存储和 非结构化数据 没有(或难以发现)统一 管理的数据 结构的数据 语音、图像文件等 经过一定转换处理后可以 半结构化数据 用传统关系数据库存储和管 先有数据,后有结构(或 较容易发现其结构) HTML,XML文件等 理的数据
数据科学理论与实践 数据的结构 数据科学导论 ▪ 从结构化程度看,通常将数据分为结构化数据、半结构化数据和非结构化数 据三种,如 表1-1所示。 ▪ 在数据科学中,数据的结构化程度对于数据处理方法的选择具有重要影响。 例如,结构化数据的管理可以采用传统关系数据库技术,而非结构化数据的管 理往往采用 NoSQL、NewSQL或关系云技术
大数据(Big Data) 数据科学导论 Gartner的定义 。 大数据指的是无法使用传统流程或工具处理或分析的信息,是需要新处理模式才能具有更 强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。 ■IBM的定义 ·大数据是拥有以下四个共同特点(又称为4V)中任意一个的数据源:极大的数据量级( Volumn);以极快的速度(Velocity)移动数据;极广泛的数据源类型(Variety);极 高的准确性(Veracity),确保数据源的真实性。 ■国家标准《信息技术大数据术语(GB/T35295-2017)》中的定义 ·大数据是指具有体量巨大、来源多样、生成极快且多变等特征并且难以用传统数据体系结 构有效处理的包含大最数据集的数据
数据科学理论与实践 大数据(Big Data) 数据科学导论 ▪ Gartner的定义 • 大数据指的是无法使用传统流程或工具处理或分析的信息,是需要新处理模式才能具有更 强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。 ▪ IBM的定义 • 大数据是拥有以下四个共同特点(又称为4V)中任意一个的 数据源:极大的数据量级( Volumn);以极快的速度(Velocity)移动数据;极广泛的数据源类型(Variety);极 高的准确性(Veracity),确保数据源的真实性。 ▪ 国家标准《信息技术大数据术语(GB/T 35295-2017)》中的定义 • 大数据是指具有体量巨大、来源多样、生成极快且多变等特征并且难以用传统数据体系结 构有效处理的包含大最数据集的数据
大数据-单位关系 数据科学导论 1KB (Kilobyte)=210B 1MB (Megabyte)=210KB=220B 1GB (Gigabyte)=210MB=220KB=230B 1TB (Terabyte)=210GB=220MB=230KB=240B 1PB (Petabyte)=210TB=220GB=230MB=240KB=250B 1EB (Exabyte)=210PB=220TB=230GB=240MB=250KB=260B 1ZB (Zettabyte)=210EB=220PB=230TB=240GB=250MB=260KB=270B 1YB (Yottabyte)=210ZB=220EB=230PB-240TB-250GB=260MB=270KB=280B 1NB (NonaByte)=210YB=220ZB=230EB=240PB=250TB=260GB=270MB-280KB-290B 1DB (DoggaByte)=210NB=220YB=230ZB=240EB=250PB=260TB-270GB-280MB-290KB=2100B
数据科学理论与实践 大数据-单位关系 数据科学导论 1KB(Kilobyte)=210B 1MB(Megabyte)=210KB=220B 1GB(Gigabyte)=210MB=220KB=230B 1TB(Terabyte)=210GB=220MB=230KB=240B 1PB(Petabyte)=210TB=220GB=230MB=240KB=250B 1EB(Exabyte)=210PB=220TB=230GB=240MB=250KB=260B 1ZB(Zettabyte)=210EB=220PB=230TB=240GB=250MB=260KB=270B 1YB(Yottabyte)=210ZB=220EB=230PB=240TB=250GB=260MB=270KB=280B 1NB(NonaByte) =210YB=220ZB=230EB=240PB=250TB=260GB=270MB=280KB=290B 1DB(DoggaByte)=210NB=220YB=230ZB=240EB=250PB=260TB=270GB=280MB=290KB=2100B