正在加载图片...
容易做到。当年开普勒发现行星三大定律,牛顿|络大数据有许多不同于自然科学数据的特点,包 发现力学三大定律都是基于小数据。但对于开放括多源异构、交互性、时效性、社会性、突发性和高 复杂的巨系统,传统的因果分析难以奏效,因为系噪声等,不但非结构化数据多,而且数据的实时性 统中各个组成部分之间相互有影响,可能互为因强,大量数据都是随机动态产生。科学数据的采 果,因果关系隐藏在整个系统之中。现在的“因”集一般代价较高,LHC实验设备花了几十亿美 运可能是过去的“果”,此处的“果”也可能是别处的元,因此对采集什么数据要做精心安排。而网络 足“因”,因果关系本质上是一种相互纠缠的相关数据的采集相对成本较低,网上许多数据是重复 6性。在物理学的基本粒子理论中,颇受重视的欧的或者没有价值价值密度很低。一般而言,社会 画几里德量子引力学(霍金所倡导的理论)本身并不科学的大数据分析,特别是根据Web数据做经济 包括因果律。因此,对于大数据的关联分析是不形势、安全形势、社会群体事件的预测,比科学实 是“知其然而不知其所以然”其中可能包含深奥验的数据分析更困难。 的哲理,不能贸然下结论。 未来的任务主要不是获取越来来越多的数 44社会科学的大数据研究 据,而是数据的去冗分类、去粗取精,从数据中挖 根据数据的来源,大数据可以初略地分成两掘知识。几百年来,科学研究一直在做“从薄到 大类:一类来自物理世界,另一类来自人类社会。厚”的事情,把“小数据”变成“大数据”,现在要做 前者多半是科学实验数据或传感数据,后者与人的事情是“从厚到薄”要把大数据变成小数据 的活动有关系,特别是与互联网有关。这两类数要在不明显增加采集成本的条件下尽可能提高数 据的处理方式和目标差别较大,不能照搬处理科据的质量。要研究如何科学合理地抽样采集数 学实验数据的方法来处理web数据。 据,减少不必要的数据采集。两三岁的小孩学习 科学实验是科技人员设计的,如何采集数据、识别动物和汽车等,往往几十张样本图片就足够 处理数据事先都已想好了,不管是检索还是模式了,研究清楚人类为什么具有小数据学习能力,对 识别,都有一定的科学规律可循。美国的大数据开展大数据分析研究具有深刻的指导意义 研究计划中专门列出寻找希格斯粒子(被称为“上 近10年来增长最快的数据是网络上传播的各 帝粒子”的大型强子对撞机HC实验,这是一种非结构化或半结构化的数据。网络数据的背后 个典型的基于大数据的科学实验,至少要在1万亿是相互联系的各种人群,网络大数据的处理能力 个事例中才可能找出1个希格斯粒子。2012年7直接关系到国家的信息空间安全和社会稳定 月4日,CERN宣布发现新的玻色子,标准差为从心理学经济学、信息科学等不同学科领域共同 49,被认为可能是希格斯玻色子(承认是希格斯玻探讨网络数据的产生、扩散、涌现的基本规律,是 色子粒子需要5个标准差,即9993%的可能性建立安全和谐的网络环境的重大战略需求,是促 是对的叫。设计这一实验的激动人心之处在于,使国家长治久安的大事。我国拥有世界上最多的 不论找到还是没有找到希格斯粒子,都是物理学网民和最大的访问量,在网络大数据分析方面已 的重大突破。从这一实验可以看出,科学实验的有较强的基础,有望做出世界领先的原始创新成 大数据处理是整个实验的一个预定步骤,发现有果,应加大网络大数据分析方面的研究力度 价值的信息往往在预料之中。 4.5数据处理的复杂性研究 web上的信息(譬如微博)是千千万万的人随 计算复杂性是计算机科学的基本问题,科学 机产生的,从事社会科学研究的学者要从这些看计算主要考虑时间复杂性和空间复杂性。对于大 似杂乱无章的数据中寻找有价值的蛛丝马迹。网数据处理,除了时间和空间复杂性外,可能还需要 6522012年·第27卷·第6期 C1994-2013ChinaAcademicJournalElectronicPublishingHouse.Allrightsreservedhttp://www.cnki.net2012年 . 第27卷 . 第6期 战略与决策研究 Strategy & Policy Decision Research 容易做到。当年开普勒发现行星三大定律,牛顿 发现力学三大定律都是基于小数据。但对于开放 复杂的巨系统,传统的因果分析难以奏效,因为系 统中各个组成部分之间相互有影响,可能互为因 果,因果关系隐藏在整个系统之中。现在的“因” 可能是过去的“果”,此处的“果”也可能是别处的 “因”,因果关系本质上是一种相互纠缠的相关 性。在物理学的基本粒子理论中,颇受重视的欧 几里德量子引力学(霍金所倡导的理论)本身并不 包括因果律。因此,对于大数据的关联分析是不 是“知其然而不知其所以然”,其中可能包含深奥 的哲理,不能贸然下结论。 4.4 社会科学的大数据研究 根据数据的来源,大数据可以初略地分成两 大类:一类来自物理世界,另一类来自人类社会。 前者多半是科学实验数据或传感数据,后者与人 的活动有关系,特别是与互联网有关。这两类数 据的处理方式和目标差别较大,不能照搬处理科 学实验数据的方法来处理Web数据。 科学实验是科技人员设计的,如何采集数据、 处理数据事先都已想好了,不管是检索还是模式 识别,都有一定的科学规律可循。美国的大数据 研究计划中专门列出寻找希格斯粒子(被称为“上 帝粒子”)的大型强子对撞机(LHC)实验。这是一 个典型的基于大数据的科学实验,至少要在1万亿 个事例中才可能找出 1 个希格斯粒子。2012 年 7 月 4 日,CERN 宣布发现新的玻色子,标准差为 4.9,被认为可能是希格斯玻色子(承认是希格斯玻 色子粒子需要5个标准差,即99.99943%的可能性 是对的)[12] 。设计这一实验的激动人心之处在于, 不论找到还是没有找到希格斯粒子,都是物理学 的重大突破。从这一实验可以看出,科学实验的 大数据处理是整个实验的一个预定步骤,发现有 价值的信息往往在预料之中。 Web上的信息(譬如微博)是千千万万的人随 机产生的,从事社会科学研究的学者要从这些看 似杂乱无章的数据中寻找有价值的蛛丝马迹。网 络大数据有许多不同于自然科学数据的特点,包 括多源异构、交互性、时效性、社会性、突发性和高 噪声等,不但非结构化数据多,而且数据的实时性 强,大量数据都是随机动态产生。科学数据的采 集一般代价较高,LHC 实验设备花了几十亿美 元,因此对采集什么数据要做精心安排。而网络 数据的采集相对成本较低,网上许多数据是重复 的或者没有价值,价值密度很低。一般而言,社会 科学的大数据分析,特别是根据Web数据做经济 形势、安全形势、社会群体事件的预测,比科学实 验的数据分析更困难。 未来的任务主要不是获取越来来越多的数 据,而是数据的去冗分类、去粗取精,从数据中挖 掘知识。几百年来,科学研究一直在做“从薄到 厚”的事情,把“小数据”变成“大数据”,现在要做 的事情是“从厚到薄”,要把大数据变成小数据。 要在不明显增加采集成本的条件下尽可能提高数 据的质量。要研究如何科学合理地抽样采集数 据,减少不必要的数据采集。两三岁的小孩学习 识别动物和汽车等,往往几十张样本图片就足够 了,研究清楚人类为什么具有小数据学习能力,对 开展大数据分析研究具有深刻的指导意义。 近10年来增长最快的数据是网络上传播的各 种非结构化或半结构化的数据。网络数据的背后 是相互联系的各种人群,网络大数据的处理能力 直接关系到国家的信息空间安全和社会稳定[10] 。 从心理学、经济学、信息科学等不同学科领域共同 探讨网络数据的产生、扩散、涌现的基本规律,是 建立安全和谐的网络环境的重大战略需求,是促 使国家长治久安的大事。我国拥有世界上最多的 网民和最大的访问量,在网络大数据分析方面已 有较强的基础,有望做出世界领先的原始创新成 果,应加大网络大数据分析方面的研究力度。 4.5 数据处理的复杂性研究 计算复杂性是计算机科学的基本问题,科学 计算主要考虑时间复杂性和空间复杂性。对于大 数据处理,除了时间和空间复杂性外,可能还需要 652
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有