正在加载图片...
■大数据的研究现状与科学思考 考虑解决一个问题需要多大的数据量,暂且|的殿堂 称为“数据量复杂性”数据量复杂性和空46科研第四范式是思维方式的大变化 间复杂性不是一个概念,空间复杂性要考虑 已故图灵奖得主吉姆·格雷提出的数据 计算过程中产生的空间需求。 密集型科研“第四范式( the fourth para- 设想有人采集完全随机地抛掷硬币的dgm)”,将大数据科研从第三范式(计算科 正反面数据,得到极长的01数字序列,通过学)中分离出来单独作为一种科研范式,是 统计可计算出现正面的比例。可以肯定,收因为其研究方式不同于基于数学模型的传 集的数据越多,其结果与05的误差越小,统研究方式。Gge公司的研究部主任 这是一个无限渐进的过程。基于唯象假设 Peter Norvig的一句名言可以概括两者的区 的数据处理常出现这类增量式进步,数据多别:“所有的模型都是错误的,进一步说,没 点,结果就好一点。这类问题的数据科学有模型你也可以成功(AⅡ models are 价值可能不大。反过来,可能有些问题的数 wrong, and increasingly you can succeed 据处理像个无底洞,无论多少数据都不可能 without them)。PB级数据使我们可以做 解决问题。这种问题有些类似NP问题。我到没有模型和假设就可以分析数据。将数 们需要建立一种理论,对求解一个问题达到据丢进巨大的计算机机群中,只要有相互关 某种满意程度对判定问题是有多大把握说系的数据,统计分析算法可以发现过去的科 “是”或“否”,优化问题是接近最优解的程学方法发现不了的新模式新知识甚至新规 度)需要多大规模的数据量给出理论上的判律。实际上,oge的广告优化配置、战胜 断。当然,目前还有很多问题没有定义清人类的IBM沃森问答系统都是这么实现 楚,比如,对于网络搜索之类的问题,如何定的这就是“第四范式”的魅力! 义问题规模和数据规模等。 美国 Wired杂志主编 Chris Anderson 对从事大数据研究的学者而言,最有意2008年曾发出“理论已终结”的惊人断言 思的问题应该是,解决一个问题的数据规模“数据洪流使(传统)科学方法变得过时 有一个阙值。数据少于这个阙值,问题解决 (The Data Deluge Makes the Scientific Meth- 不了:达到这个阅值,就可以解决以前解决 od obsolete他指出,获得海量数据和 不了的大问题:而数据规模超过这个阈值,处理这些数据的统计工具的可能性提供了 对解决问题也没有更多的帮助。我们把这理解世界的一条完整的新途径。 Petabytes 类问题称为“预言性数据分析问题”即在让我们说:相互关系已经足够 (Correlation 做大数据处理之前,我们可以预言,当数据 is enough)。我们可以停止寻找模型,相互 量到达多大规模时,该问题的解可以达到何关系取代了因果关系,没有具有一致性的模 种满意程度 型、统一的理论和任何机械式的说明,科学 与社会科学有关的大数据问题,例如舆也可以进步。 情分析、情感分析等,许多理论问题过去没 Chris anderson的极端看法并没有得到 有考虑过,才刚刚开始研究。迫切需要计算科学界的普遍认同,数据量的增加能否引起 机学者与社会科学领域的学者密切合作,共科研方法本质性的改变仍然是一个值得探 同开拓新的疆域。借助大数据的推力,社会讨的问题。对研究领域的深刻理解(如空气 科学将脱下“准科学的外衣,真正迈进科学动力学方程用于风洞实验)和数据量的积累 中阉院院刊653 C1994-2013ChinaAcademicJournalElectronicPublishingHouse.Allrightsreservedhttp://www.cnki.net院刊 考虑解决一个问题需要多大的数据量,暂且 称为“数据量复杂性”。数据量复杂性和空 间复杂性不是一个概念,空间复杂性要考虑 计算过程中产生的空间需求。 设想有人采集完全随机地抛掷硬币的 正反面数据,得到极长的01数字序列,通过 统计可计算出现正面的比例。可以肯定,收 集的数据越多,其结果与 0.5 的误差越小, 这是一个无限渐进的过程。基于唯象假设 的数据处理常出现这类增量式进步,数据多 一点,结果就好一点。这类问题的数据科学 价值可能不大。反过来,可能有些问题的数 据处理像个无底洞,无论多少数据都不可能 解决问题。这种问题有些类似NP问题。我 们需要建立一种理论,对求解一个问题达到 某种满意程度(对判定问题是有多大把握说 “是”或“否”,优化问题是接近最优解的程 度)需要多大规模的数据量给出理论上的判 断。当然,目前还有很多问题没有定义清 楚,比如,对于网络搜索之类的问题,如何定 义问题规模和数据规模等。 对从事大数据研究的学者而言,最有意 思的问题应该是,解决一个问题的数据规模 有一个阈值。数据少于这个阈值,问题解决 不了;达到这个阈值,就可以解决以前解决 不了的大问题;而数据规模超过这个阈值, 对解决问题也没有更多的帮助。我们把这 类问题称为“预言性数据分析问题”,即在 做大数据处理之前,我们可以预言,当数据 量到达多大规模时,该问题的解可以达到何 种满意程度。 与社会科学有关的大数据问题,例如舆 情分析、情感分析等,许多理论问题过去没 有考虑过,才刚刚开始研究。迫切需要计算 机学者与社会科学领域的学者密切合作,共 同开拓新的疆域。借助大数据的推力,社会 科学将脱下“准科学”的外衣,真正迈进科学 的殿堂。 4.6 科研第四范式是思维方式的大变化 已故图灵奖得主吉姆·格雷提出的数据 密 集 型 科 研“ 第 四 范 式(the fourth para￾digm)”,将大数据科研从第三范式(计算科 学)中分离出来单独作为一种科研范式,是 因为其研究方式不同于基于数学模型的传 统研究方式[5] 。Google 公司的研究部主任 Peter Norvig的一句名言可以概括两者的区 别:“所有的模型都是错误的,进一步说,没 有 模 型 你 也 可 以 成 功(All models are wrong, and increasingly you can succeed without them)”[2] 。PB级数据使我们可以做 到没有模型和假设就可以分析数据。将数 据丢进巨大的计算机机群中,只要有相互关 系的数据,统计分析算法可以发现过去的科 学方法发现不了的新模式、新知识甚至新规 律。实际上,Google的广告优化配置、战胜 人类的 IBM 沃森问答系统都是这么实现 的,这就是“第四范式”的魅力! 美 国 Wired 杂 志 主 编 Chris Anderson 2008 年曾发出“理论已终结”的惊人断言: “数据洪流使(传统)科学方法变得过时 (The Data Deluge Makes the Scientific Meth￾od Obsolete)”[2] 。他指出,获得海量数据和 处理这些数据的统计工具的可能性提供了 理解世界的一条完整的新途径。Petabytes 让我们说:相互关系已经足够(Correlation is enough)。我们可以停止寻找模型,相互 关系取代了因果关系,没有具有一致性的模 型、统一的理论和任何机械式的说明,科学 也可以进步。 Chris Anderson 的极端看法并没有得到 科学界的普遍认同,数据量的增加能否引起 科研方法本质性的改变仍然是一个值得探 讨的问题。对研究领域的深刻理解(如空气 动力学方程用于风洞实验)和数据量的积累 653 大数据的研究现状与科学思考
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有