第一章数据、信息和知识
第一章 数据、信息和知识
目录 1.1知之为知之,不知为不知,是知也! 1.2数据的泛在理解:客观存在的描述与记录 1.3信息的价值评判:有用的数据 1.4知识的应用体现:数据变信息的转化规则 1.5知识规则的认知途径 1.6数据到知识的转换过程:实例分析 1.7本章小结
目 录 1.1知之为知之,不知为不知,是知也! 1.2数据的泛在理解:客观存在的描述与记录 1.3信息的价值评判:有用的数据 1.4知识的应用体现:数据变信息的转化规则 1.5知识规则的认知途径 1.6数据到知识的转换过程:实例分析 1.7本章小结
1.1知之为知之,不知为不知,是知也! 孔子东游,见两小儿辩斗,问其故。一儿曰:“我以日 始出时去人近,而日中时远也。, 一儿以日初出远,而日中时近也。一儿曰:“日初出大 如车盖,及日中则如盘孟,此不为远者小而近者大乎? ”一儿曰:“日初出沧沧凉凉,及其日中如探汤,此不 为近者热而远者凉乎?”孔子不能决也。两小儿笑曰: 孰为汝多知乎?
1.1知之为知之,不知为不知,是知也! 孔子东游,见两小儿辩斗,问其故。一儿曰:“我以日 始出时去人近,而日中时远也。” 一儿以日初出远,而日中时近也。一儿曰:“日初出大 如车盖,及日中则如盘盂,此不为远者小而近者大乎? ”一儿曰:“日初出沧沧凉凉,及其日中如探汤,此不 为近者热而远者凉乎?”孔子不能决也。两小儿笑曰: “孰为汝多知乎?
没有规矩,不成方圆 表1-1NBA历史级强队金州勇士队主力阵容“死亡五小”官方公布的队员身高表 姓名 库里 汤普森 巴恩斯杜兰特 伊戈达拉 格林 身高 191cm 201cm 203cm/208cm 198cm 201cm 平均身高 198.8cm/199.8cm 如果从字面上看,很容易将大数据认为是“大”的 数据,或者是“大”的数据库,即: 大数据=大+数据,或大数据=大+数据库
没有规矩,不成方圆 如果从字面上看,很容易将大数据认为是“大”的 数据,或者是“大”的数据库,即: 大数据 = 大 + 数据,或大数据 = 大 + 数据库
“大数据”一词两个角度的考量 (1) )“大数据”一词,作为一个从英文“big data”翻译 过来的专业术语,这里的big”作为data”一词的定语,可以 单独抽取出来理解,对应的中文翻译为“大”。在这种理解 思路下,我们需要从定量的角度,明确界定什么是“大”, 什么是“小”。 (2)“大数据”一词,作为一个从英文“big data”翻译 过来的专业术语,“big data”密不可分,是一个特定的专业 术语。因为“big data”在本体的描述形式上,和计算机领域 中耳熟能详的“data”或“database”一词太过接近,我们需 要分别建立“data”和“database”的内涵和外延,进而才能 厘清“big data'data"database”三者之间的区别和联系
(1)“大数据”一词,作为一个从英文“big data”翻译 过来的专业术语,这里的“big”作为“data”一词的定语,可以 单独抽取出来理解,对应的中文翻译为“大”。在这种理解 思路下,我们需要从定量的角度,明确界定什么是“大”, 什么是“小”。 (2)“大数据”一词,作为一个从英文“big data”翻译 过来的专业术语,“big data”密不可分,是一个特定的专业 术语。因为“big data”在本体的描述形式上,和计算机领域 中耳熟能详的“data”或“database”一词太过接近,我们需 要分别建立“data”和“database”的内涵和外延,进而才能 厘清“big data”“data”“database”三者之间的区别和联系。 “大数据”一词两个角度的考量
1.2数据的泛在理解:客观存在的描述与记录 ISO/IEC/IEEE 24765:2017(en)Systems and software engineering Vocabulary: “数据是对事实、概念或指令的一种特殊表达形 式,这种特殊的表达形式可以用人工的方式或者 用自动化的装置进行通信、翻译、转换或进行加 工处理”(“data一Representation of facts,. concepts,or instructions in a manner suitable for communication,interpretation,or processing by humans or by automatic means.")
1.2数据的泛在理解:客观存在的描述与记录 ISO/IEC/IEEE 24765:2017(en) Systems and software engineering - Vocabulary: “数据是对事实、概念或指令的一种特殊表达形 式,这种特殊的表达形式可以用人工的方式或者 用自动化的装置进行通信、翻译、转换或进行加 工处理”(“data— Representation of facts, concepts, or instructions in a manner suitable for communication, interpretation, or processing by humans or by automatic means.”)
“数据”一词的三层含义 数据有明确的表达内涵或内容,即定义中的“事实、 概念或指令”,也就是数据应该能够反映客观存在的 事物或现象的各种特征 数据是一种“特殊的表达形式”,即形式化的外延表 示。这种特殊的表达方式是什么呢?该定义中明确地 界定为“用人工的方式或者用自动化的装置进行通信 、翻译、转换或进行加工处理” 根据这个定义,通常意义下的数值、文字、图画、声 音、活动图像、各种自然现象的实际描述等,对于人 类来说都可以认为是数据,而不仅仅局限于日常生活 中,我们常见的可比较其大小的那些数值数据
“数据”一词的三层含义 ◼ 数据有明确的表达内涵或内容,即定义中的“事实、 概念或指令”,也就是数据应该能够反映客观存在的 事物或现象的各种特征。 ◼ 数据是一种“特殊的表达形式”,即形式化的外延表 示。这种特殊的表达方式是什么呢?该定义中明确地 界定为“用人工的方式或者用自动化的装置进行通信 、翻译、转换或进行加工处理”。 ◼ 根据这个定义,通常意义下的数值、文字、图画、声 音、活动图像、各种自然现象的实际描述等,对于人 类来说都可以认为是数据,而不仅仅局限于日常生活 中,我们常见的可比较其大小的那些数值数据
不涉及现代计算机的数据概念 中国历史上第一部纪传体通史,西汉史学家司马迁撰写的纪传 体史书《史记》。《史记》在其一百三十篇、五十二万六千五 百余字的内容中,记载了上至上古传说中的黄帝时代,下至汉 武帝太初四年间共三千多年的历史,详细记录了此前历代帝王 之政绩(十二本纪)、诸侯国和汉代诸侯勋贵之兴亡(三十世 家)、重要人物之言行事迹(七十列传)、记各种典章制度记 礼、乐、音律、历法、天文、封禅、水利、财用(八书)等 第一个获得诺贝尔自然学奖的中国人屠呦呦获诺贝尔生理学或 医学奖,从1969年1月开始,领导课题组从系统收集整理历代医 籍、本草、民间方药入手,收集整理了2000余方药。受中国典 籍《肘后备急方》启发,他们利用现代医学和方法进行分析研 究、不断改进提取方法,终于在1971年成功提取出临床上使用 的青蒿素。我国中药史上的各种民间药方,本质上也是客观存 在的“事实、概念或指令”,这对青蒿素的发现意义重大
不涉及现代计算机的数据概念 ◼ 中国历史上第一部纪传体通史,西汉史学家司马迁撰写的纪传 体史书《史记》。《史记》在其一百三十篇、五十二万六千五 百余字的内容中,记载了上至上古传说中的黄帝时代,下至汉 武帝太初四年间共三千多年的历史,详细记录了此前历代帝王 之政绩(十二本纪)、诸侯国和汉代诸侯勋贵之兴亡(三十世 家)、重要人物之言行事迹(七十列传)、记各种典章制度记 礼、乐、音律、历法、天文、封禅、水利、财用(八书)等。 ◼ 第一个获得诺贝尔自然学奖的中国人屠呦呦获诺贝尔生理学或 医学奖,从1969年1月开始,领导课题组从系统收集整理历代医 籍、本草、民间方药入手,收集整理了2000余方药。受中国典 籍《肘后备急方》启发,他们利用现代医学和方法进行分析研 究、不断改进提取方法,终于在1971年成功提取出临床上使用 的青蒿素。我国中药史上的各种民间药方,本质上也是客观存 在的“事实、概念或指令”,这对青蒿素的发现意义重大
涉及现代计算机的数据概念 从计算机能够实现的功能来看,计算机可以进行数值计算、公 文/报表处理、语音识别/合成、图形绘制、 多媒体播放等。 从用户角度来看,计算机好像无所不能,能够处理各种各样的 数据对象,如数值、文字、声音、图像、视频等。 在计算机内部,数值、文字、声音、图像、视频等,必须采取 “特殊的表达形式”,才能由计算机进行存储和处理。 这种特殊的表达形式就是二进制编码形式,即对这些数值、文 字、声音、图像、视频进行二进制编码。 在计算机系统中所指的数据,本质上都是二进制编码后的表现 形式。 70011101101010 70111011010 1010110101
◼ 从计算机能够实现的功能来看,计算机可以进行数值计算、公 文/报表处理、语音识别/合成、图形绘制、多媒体播放等。 ◼ 从用户角度来看,计算机好像无所不能,能够处理各种各样的 数据对象,如数值、文字、声音、图像、视频等。 ◼ 在计算机内部,数值、文字、声音、图像、视频等,必须采取 “特殊的表达形式”,才能由计算机进行存储和处理。 ◼ 这种特殊的表达形式就是二进制编码形式,即对这些数值、文 字、声音、图像、视频进行二进制编码。 ◼ 在计算机系统中所指的数据,本质上都是二进制编码后的表现 形式。 涉及现代计算机的数据概念
1.3信息的价值评判:有用的数据 信息论奠基人香农(Shannon)认为,“信息是用来消除随机不确定性 的东西”。这一定义被人们看作经典性定义并加以引用。 控制论创始人维纳(Norbert Wiener)认为,“信息是人们在适应外部 世界,并使这种适应反作用于外部世界的过程中,同外部世界进行互相 交换的内容和名称”。 ■ 在经济管理领域,相关学者则认为“信息是提供决策的有效数据”。 美国信息管理专家霍顿(F.W.Horton)给信息下的定义是:“信息是为 了满足用户决策的需要而经过加工处理的数据”。简单地说,信息是经 过加工的数据,或者说,信息是数据处理的结果。 原中国人工智能学会理事长、我国著名的信息学专家钟义信教授则认为 ,“信息是事物存在方式或运动状态,以这种方式或状态直接或间接的 表述”。 在我国著名计算机科学家徐家福教授主编的《计算机科学技术百科全书 》中,“信息是数据及有关的含义
1.3信息的价值评判:有用的数据 ◼ 信息论奠基人香农(Shannon)认为,“信息是用来消除随机不确定性 的东西”。这一定义被人们看作经典性定义并加以引用。 ◼ 控制论创始人维纳(Norbert Wiener)认为,“信息是人们在适应外部 世界,并使这种适应反作用于外部世界的过程中,同外部世界进行互相 交换的内容和名称”。 ◼ 在经济管理领域,相关学者则认为“信息是提供决策的有效数据”。 ◼ 美国信息管理专家霍顿(F.W. Horton)给信息下的定义是:“信息是为 了满足用户决策的需要而经过加工处理的数据”。简单地说,信息是经 过加工的数据,或者说,信息是数据处理的结果。 ◼ 原中国人工智能学会理事长、我国著名的信息学专家钟义信教授则认为 ,“信息是事物存在方式或运动状态,以这种方式或状态直接或间接的 表述”。 ◼ 在我国著名计算机科学家徐家福教授主编的《计算机科学技术百科全书 》中,“信息是数据及有关的含义