2012年 . 第27卷 . 第6期战略与决策研究 Strategy &

点击下载：《电子商务 E-business》参考资料（大数据）：大数据研究_未来科技及经济社会发展的重大战略领域_大数据的研究现状与科学思考

正在加载图片...

容易做到。当年开普勒发现行星三大定律,牛顿|络大数据有许多不同于自然科学数据的特点,包发现力学三大定律都是基于小数据。但对于开放括多源异构、交互性、时效性、社会性、突发性和高复杂的巨系统,传统的因果分析难以奏效,因为系噪声等,不但非结构化数据多,而且数据的实时性统中各个组成部分之间相互有影响,可能互为因强,大量数据都是随机动态产生。科学数据的采果,因果关系隐藏在整个系统之中。现在的“因”集一般代价较高,LHC实验设备花了几十亿美运可能是过去的“果”,此处的“果”也可能是别处的元,因此对采集什么数据要做精心安排。而网络足“因”,因果关系本质上是一种相互纠缠的相关数据的采集相对成本较低,网上许多数据是重复 6性。在物理学的基本粒子理论中,颇受重视的欧的或者没有价值价值密度很低。一般而言,社会画几里德量子引力学(霍金所倡导的理论)本身并不科学的大数据分析,特别是根据Web数据做经济包括因果律。因此,对于大数据的关联分析是不形势、安全形势、社会群体事件的预测,比科学实是“知其然而不知其所以然”其中可能包含深奥验的数据分析更困难。的哲理,不能贸然下结论。未来的任务主要不是获取越来来越多的数 44社会科学的大数据研究据,而是数据的去冗分类、去粗取精,从数据中挖根据数据的来源,大数据可以初略地分成两掘知识。几百年来,科学研究一直在做“从薄到大类:一类来自物理世界,另一类来自人类社会。厚”的事情,把“小数据”变成“大数据”,现在要做前者多半是科学实验数据或传感数据,后者与人的事情是“从厚到薄”要把大数据变成小数据的活动有关系,特别是与互联网有关。这两类数要在不明显增加采集成本的条件下尽可能提高数据的处理方式和目标差别较大,不能照搬处理科据的质量。要研究如何科学合理地抽样采集数学实验数据的方法来处理web数据。据,减少不必要的数据采集。两三岁的小孩学习科学实验是科技人员设计的,如何采集数据、识别动物和汽车等,往往几十张样本图片就足够处理数据事先都已想好了,不管是检索还是模式了,研究清楚人类为什么具有小数据学习能力,对识别,都有一定的科学规律可循。美国的大数据开展大数据分析研究具有深刻的指导意义研究计划中专门列出寻找希格斯粒子(被称为“上近10年来增长最快的数据是网络上传播的各帝粒子”的大型强子对撞机HC实验,这是一种非结构化或半结构化的数据。网络数据的背后个典型的基于大数据的科学实验,至少要在1万亿是相互联系的各种人群,网络大数据的处理能力个事例中才可能找出1个希格斯粒子。2012年7直接关系到国家的信息空间安全和社会稳定月4日,CERN宣布发现新的玻色子,标准差为从心理学经济学、信息科学等不同学科领域共同 49,被认为可能是希格斯玻色子(承认是希格斯玻探讨网络数据的产生、扩散、涌现的基本规律,是色子粒子需要5个标准差,即9993%的可能性建立安全和谐的网络环境的重大战略需求,是促是对的叫。设计这一实验的激动人心之处在于,使国家长治久安的大事。我国拥有世界上最多的不论找到还是没有找到希格斯粒子,都是物理学网民和最大的访问量,在网络大数据分析方面已的重大突破。从这一实验可以看出,科学实验的有较强的基础,有望做出世界领先的原始创新成大数据处理是整个实验的一个预定步骤,发现有果,应加大网络大数据分析方面的研究力度价值的信息往往在预料之中。 4.5数据处理的复杂性研究 web上的信息(譬如微博)是千千万万的人随计算复杂性是计算机科学的基本问题,科学机产生的,从事社会科学研究的学者要从这些看计算主要考虑时间复杂性和空间复杂性。对于大似杂乱无章的数据中寻找有价值的蛛丝马迹。网数据处理,除了时间和空间复杂性外,可能还需要 6522012年·第27卷·第6期 C1994-2013ChinaAcademicJournalElectronicPublishingHouse.Allrightsreservedhttp://www.cnki.net2012年 . 第27卷 . 第6期战略与决策研究 Strategy & Policy Decision Research 容易做到。当年开普勒发现行星三大定律，牛顿发现力学三大定律都是基于小数据。但对于开放复杂的巨系统，传统的因果分析难以奏效，因为系统中各个组成部分之间相互有影响，可能互为因果，因果关系隐藏在整个系统之中。现在的“因” 可能是过去的“果”，此处的“果”也可能是别处的 “因”，因果关系本质上是一种相互纠缠的相关性。在物理学的基本粒子理论中，颇受重视的欧几里德量子引力学（霍金所倡导的理论）本身并不包括因果律。因此，对于大数据的关联分析是不是“知其然而不知其所以然”，其中可能包含深奥的哲理，不能贸然下结论。 4.4 社会科学的大数据研究根据数据的来源，大数据可以初略地分成两大类：一类来自物理世界，另一类来自人类社会。前者多半是科学实验数据或传感数据，后者与人的活动有关系，特别是与互联网有关。这两类数据的处理方式和目标差别较大，不能照搬处理科学实验数据的方法来处理Web数据。科学实验是科技人员设计的，如何采集数据、处理数据事先都已想好了，不管是检索还是模式识别，都有一定的科学规律可循。美国的大数据研究计划中专门列出寻找希格斯粒子（被称为“上帝粒子”）的大型强子对撞机（LHC）实验。这是一个典型的基于大数据的科学实验，至少要在1万亿个事例中才可能找出 1 个希格斯粒子。2012 年 7 月 4 日，CERN 宣布发现新的玻色子，标准差为 4.9，被认为可能是希格斯玻色子（承认是希格斯玻色子粒子需要5个标准差，即99.99943%的可能性是对的）[12] 。设计这一实验的激动人心之处在于，不论找到还是没有找到希格斯粒子，都是物理学的重大突破。从这一实验可以看出，科学实验的大数据处理是整个实验的一个预定步骤，发现有价值的信息往往在预料之中。 Web上的信息（譬如微博）是千千万万的人随机产生的，从事社会科学研究的学者要从这些看似杂乱无章的数据中寻找有价值的蛛丝马迹。网络大数据有许多不同于自然科学数据的特点，包括多源异构、交互性、时效性、社会性、突发性和高噪声等，不但非结构化数据多，而且数据的实时性强，大量数据都是随机动态产生。科学数据的采集一般代价较高，LHC 实验设备花了几十亿美元，因此对采集什么数据要做精心安排。而网络数据的采集相对成本较低，网上许多数据是重复的或者没有价值，价值密度很低。一般而言，社会科学的大数据分析，特别是根据Web数据做经济形势、安全形势、社会群体事件的预测，比科学实验的数据分析更困难。未来的任务主要不是获取越来来越多的数据，而是数据的去冗分类、去粗取精，从数据中挖掘知识。几百年来，科学研究一直在做“从薄到厚”的事情，把“小数据”变成“大数据”，现在要做的事情是“从厚到薄”，要把大数据变成小数据。要在不明显增加采集成本的条件下尽可能提高数据的质量。要研究如何科学合理地抽样采集数据，减少不必要的数据采集。两三岁的小孩学习识别动物和汽车等，往往几十张样本图片就足够了，研究清楚人类为什么具有小数据学习能力，对开展大数据分析研究具有深刻的指导意义。近10年来增长最快的数据是网络上传播的各种非结构化或半结构化的数据。网络数据的背后是相互联系的各种人群，网络大数据的处理能力直接关系到国家的信息空间安全和社会稳定[10] 。从心理学、经济学、信息科学等不同学科领域共同探讨网络数据的产生、扩散、涌现的基本规律，是建立安全和谐的网络环境的重大战略需求，是促使国家长治久安的大事。我国拥有世界上最多的网民和最大的访问量，在网络大数据分析方面已有较强的基础，有望做出世界领先的原始创新成果，应加大网络大数据分析方面的研究力度。 4.5 数据处理的复杂性研究计算复杂性是计算机科学的基本问题，科学计算主要考虑时间复杂性和空间复杂性。对于大数据处理，除了时间和空间复杂性外，可能还需要 652

<<向上翻页向下翻页>>

点击下载：《电子商务 E-business》参考资料（大数据）：大数据研究_未来科技及经济社会发展的重大战略领域_大数据的研究现状与科学思考