兴起。海量数据的出现催生了一种新的科研模|他领域的学者解决大数据带来的技术挑战问题 式,即面对海量数据,科研人员只需从数据中直接通过分层次的不断抽象,大数据的共性科学问题 查找或挖掘所需要的信息、知识和智慧,甚至无需才会逐步清晰明朗 直接接触需研究的对象。2007年,已故的图灵奖 当前数据科学的目标还不很明确,但与其他 得主吉姆格雷 Jim Gray)在他最后一次演讲中描学科一样,科学研究的道路常常是先做“白盒研 绘了数据密集型科学研究的“第四范式”(The究”知识积累多了就有可能抽象出通用性较强的 8 Fourth Paradigm)",把数据密集型科学从计算科学“黑盒模型”和普适规律。数据库理论是一个很好 6中单独区分开来。格雷认为,要解决我们面临的的例子。在经历了层次数据库、网状数据库多年 §某些最棘手的全球性挑战,“第四范式”可能是唯实践后,Cod发现了数据库应用的共性规律,建 具有系统性的方法。其实,“第四范式”不仅是立了有坚实理论基础的关系模型。在这之前人们 科研方式的转变,也是人们思维方式的大变化 也一直在问数据库可不可能有共性的理论。现在 4对大数据研究的科学思考 大数据研究要做的事就是提出像关系数据库这样 41“数据科学”研究的对象是什么? 的理论来指导海量非结构化数据的处理。 信息技术的发展使我们逐步进入“人-机-物” 计算机科学是关于算法的科学,数据科学是融合的三元世界,未来的世界可以做到“机中有 关于数据的科学。从事数据科学研究的学者更关人,人中有机,物中有机机中有物”所谓机 注数据的科学价值试图把数据当成一个“自然体是联系人类社会(包括个人身体与大脑)与物理世 Data nature”来研究,提出所谓数据界aaum界的网络空间,其最基本的构成元素是不同于原 verse/”的概念,颇有把计算机科学划归为自然料子和神经元的bt。物理空间和人类社会(包括人 学的倾向,但脱离各个领域的物理世界”作为的大脑都有共性的科学问题和规律,与这两者有 客观事物间接存在形式的“数据界”究竟有什么共密切联系的网络空间会不会有不同的共性科学问 性问题还不清楚。物理世界在网络空间中有其数 题?从“人-机-物”三元世界的角度来探讨大数据 据映像,目前一些学者认为,数据界的规律其本质科学的共性问题,也许是一个可以尝试的突破口 可能是物理世界的规律(还需要在物理世界中测 42数据背后的共性问题—关系网络 试验证)。除去各个领域的规律,作为映像的“数 据界”还有其独特的共同规律吗?这是一个值得 观察各种复杂系统得到的大数据,直接反映 的往往是一个个孤立的数据和分散的链接,但这 深思的问题 些反映相互关系的链接整合起来就是一个网络 任何领域的研究,若要成为一门科学,一定是例如,基因数据构成基因网络,脑科学实验数据形 研究共性的问题。针对非常狭窄领域的某个具体成神经网络,wb数据反映出社会网络。数据的 问题,主要依靠该问题涉及的特殊条件和专门知共性网络的整体特征隐藏在数据网络中,大数据 识做数据挖掘,不大可能使大数据成为一门科往往以复杂关联的数据网络这样一种独特的形式 学。数据研究能成为一门科学的前提是,在一个存在,因此要理解大数据就要对大数据后面的网 领域发现的数据相互关系和规律具有可推广到其络进行深入分析,网络有不少参数和性质,如平 他领域的普适性。抽象出一个领域的共性科学问均路径长度、度分布、聚集系数、核数、介数等,这 题往往需要较长的时间,提炼“数据界”的共性科些性质和参数也许能刻画大数据背后网络的共 学问题还需要一段时间的实践积累。至少未来性。因此,大数据面临的科学问题本质上可能就 5—10年内计算机界的学者还需多花精力协助其 是网络科学问题,复杂网络分析应该是数据科学 6502012年第27卷·第6期 C1994-2013ChinaAcademicJournalElectronicPublishingHouse.Allrightsreservedhttp://www.cnki.net2012年 . 第27卷 . 第6期 战略与决策研究 Strategy & Policy Decision Research 兴起。海量数据的出现催生了一种新的科研模 式,即面对海量数据,科研人员只需从数据中直接 查找或挖掘所需要的信息、知识和智慧,甚至无需 直接接触需研究的对象。2007年,已故的图灵奖 得主吉姆·格雷(Jim Gray)在他最后一次演讲中描 绘了数据密集型科学研究的“第四范式”(The Fourth Paradigm)[5] ,把数据密集型科学从计算科学 中单独区分开来。格雷认为,要解决我们面临的 某些最棘手的全球性挑战,“第四范式”可能是唯 一具有系统性的方法。其实,“第四范式”不仅是 科研方式的转变,也是人们思维方式的大变化。 4 对大数据研究的科学思考 4.1“数据科学”研究的对象是什么? 计算机科学是关于算法的科学,数据科学是 关于数据的科学。从事数据科学研究的学者更关 注数据的科学价值,试图把数据当成一个“自然体 (Data nature)”来研究,提出所谓“数据界(Data universe)”的概念,颇有把计算机科学划归为自然科 学的倾向。但脱离各个领域的“物理世界”,作为 客观事物间接存在形式的“数据界”究竟有什么共 性问题还不清楚。物理世界在网络空间中有其数 据映像,目前一些学者认为,数据界的规律其本质 可能是物理世界的规律(还需要在物理世界中测 试验证)。除去各个领域的规律,作为映像的“数 据界”还有其独特的共同规律吗?这是一个值得 深思的问题。 任何领域的研究,若要成为一门科学,一定是 研究共性的问题。针对非常狭窄领域的某个具体 问题,主要依靠该问题涉及的特殊条件和专门知 识做数据挖掘,不大可能使大数据成为一门科 学。数据研究能成为一门科学的前提是,在一个 领域发现的数据相互关系和规律具有可推广到其 他领域的普适性。抽象出一个领域的共性科学问 题往往需要较长的时间,提炼“数据界”的共性科 学问题还需要一段时间的实践积累。至少未来 5—10年内计算机界的学者还需多花精力协助其 他领域的学者解决大数据带来的技术挑战问题。 通过分层次的不断抽象,大数据的共性科学问题 才会逐步清晰明朗。 当前数据科学的目标还不很明确,但与其他 学科一样,科学研究的道路常常是先做“白盒研 究”,知识积累多了就有可能抽象出通用性较强的 “黑盒模型”和普适规律。数据库理论是一个很好 的例子。在经历了层次数据库、网状数据库多年 实践后,Codd[18] 发现了数据库应用的共性规律,建 立了有坚实理论基础的关系模型。在这之前人们 也一直在问数据库可不可能有共性的理论。现在 大数据研究要做的事就是提出像关系数据库这样 的理论来指导海量非结构化数据的处理。 信息技术的发展使我们逐步进入“人-机-物” 融合的三元世界,未来的世界可以做到“机中有 人,人中有机,物中有机,机中有物”。所谓“机”就 是联系人类社会(包括个人身体与大脑)与物理世 界的网络空间,其最基本的构成元素是不同于原 子和神经元的bit。物理空间和人类社会(包括人 的大脑)都有共性的科学问题和规律,与这两者有 密切联系的网络空间会不会有不同的共性科学问 题?从“人-机-物”三元世界的角度来探讨大数据 科学的共性问题,也许是一个可以尝试的突破口。 4.2 数据背后的共性问题——关系网络 观察各种复杂系统得到的大数据,直接反映 的往往是一个个孤立的数据和分散的链接,但这 些反映相互关系的链接整合起来就是一个网络。 例如,基因数据构成基因网络,脑科学实验数据形 成神经网络,Web 数据反映出社会网络。数据的 共性、网络的整体特征隐藏在数据网络中,大数据 往往以复杂关联的数据网络这样一种独特的形式 存在,因此要理解大数据就要对大数据后面的网 络进行深入分析。网络有不少参数和性质,如平 均路径长度、度分布、聚集系数、核数、介数等,这 些性质和参数也许能刻画大数据背后网络的共 性。因此,大数据面临的科学问题本质上可能就 是网络科学问题,复杂网络分析应该是数据科学 650