《社会科学研究方法》课程教学资源（阅读材料）计算机学报：网络大数据——现状与展望

团购合买资源类别：文库，文档格式：PDF，文档页数：14，文件大小：839.93KB

第36卷第6期计算机学报 Vol.36 No.6 2013年6月 CHINESE JOURNAL OF COMPUTERS June 2013 网络大数据：现状与展望王元卓靳小龙程学旗 (中国科学院计算技术研究所网络数据科学与技术重点实验室北京100190) 摘要网络大数据是指“人、机、物”三元世界在网络空间(Cyberspace)中交互、融合所产生并在互联网上可获得的大数据.网络大数据的规模和复杂度的增长超出了硬件能力增长的摩尔定律，给现有的T架构以及机器处理和计算能力带来了极大挑战.同时，也为人们深度挖掘和充分利用网络大数据的大价值带来了巨大机遇，因此，迫切需要探讨大数据的科学问题，发现网络大数据的共性规律，研究网络大数据定性、定量分析的基础理论与基本方法.文中分析了网络大数据的复杂性、不确定性和涌现性，总结了网络空间感知与数据表示、网络大数据存储与管理体系、网络大数据挖据和社会计算以及网络数据平台系统与应用等方面的主要问题与研究现状，并对大数据科学、数据计算需要的新模式与新范式、新型的IT基础架构和数据的安全与隐私等方面的发展趋势进行了展望. 关键词大数据：网络大数据：网络空间感知：大数据存储：数据挖据：社会计算中图法分类号TP393 D0I号10.3724/SP.J.1016.2013.01125 Network Big Data:Present and Future WANG Yuan-Zhuo JIN Xiao-Long CHENG Xue-Qi (Key Laboratory of Web Data Science &Technology,Institute of Computing Technology.Chinese Academy of Sciences,Beijing 100190) Abstract Network big data refer to the massive data generated by interaction and fusion of the ternary human-machine-thing universe in the Cyberspace and available on the Internet.The increase of their scale and complexity exceeds that of the capacity of hardware characterized by the Moore law,which brings grand challenges to the architecture and the processing and computing capacity of the contemporary IT systems,meanwhile presents unprecedented opportunities on deeply mining and taking full advantage of the big value of network big data.Therefore,it is pressing to investigate the disciplinary issues and discover the common laws of network big data, and further study the fundamental theory and basic approach to qualitatively or quantitatively dealing with network big data.This paper analyzes the challenges caused by the complexity, uncertainty and emergence of network big data,and summarizes major issues and research status of the awareness,representation,storage,management,mining,and social computing of network big data,as well as network data platforms and applications.It also looks ahead to the development trends of big data science,new modes and paradigm of data computing,new IT infrastructures, and data security and privacy,etc. Keywords big data;network big data;cyberspace awareness;storage of big data;data mining; social computing 收稿日期：2012-12-18：最终修改稿收到日期：2013-0320.本课题得到国家自然基金重点项目“在线社会关系网络挖掘与分析”(61232010)、 “支持與情监控的Wb搜索与挖掘的新理论和新方法”(60933005)、国家“九七三”重点基础研究发展规划项目课题“面向公共安全的社会感知数据处理”“(2012CB316303):国家自然基金面上项目“基于随机博弈网的网络用户信息行为模型及演化性分析”(61173008)、国家自然科学基金青年项目“通信网络中可变服务容量调度系统的性能建模、分析与优化”(61100175)资助.王元卓，男，1978年生，博士，副研究员，中国计算机学会(CCF)高级会员，主要研究方向为社会计算.网铬行为分析，信息安全等.E-mail:wangyuanzhuo@ict.ac.cn.新小龙，男，l976 年生，博士，副研究员，主要研究方向为社会计算、网络性能建模与分析、多智能体系统等.程学旗，男，1971年生，博士，研究员，主要研究领域为网络科学、网络与信息安全以及互联网搜索与服务. ?1994-2015 China Academic Journal Electronic Publishing House.All rights reserved.http://www.cnki.net

第３６卷第６期２０１３年６月计算机学报ＣＨＩＮＥＳＥＪＯＵＲＮＡＬＯＦＣＯＭＰＵＴＥＲＳＶｏｌ．３６Ｎｏ．６Ｊｕｎｅ２０１３收稿日期：２０１２－１２－１８；最终修改稿收到日期：２０１３－０３－２０．本课题得到国家自然基金重点项目“在线社会关系网络挖掘与分析”（６１２３２０１０）、 “支持舆情监控的Ｗｅｂ搜索与挖掘的新理论和新方法”（６０９３３００５）、国家“九七三”重点基础研究发展规划项目课题“面向公共安全的社会感知数据处理”（２０１２ＣＢ３１６３０３）；国家自然基金面上项目“基于随机博弈网的网络用户信息行为模型及演化性分析”（６１１７３００８）、国家自然科学基金青年项目“通信网络中可变服务容量调度系统的性能建模、分析与优化”（６１１００１７５）资助．王元卓，男，１９７８年生，博士，副研究员，中国计算机学会（ＣＣＦ）高级会员，主要研究方向为社会计算、网络行为分析、信息安全等．Ｅ－ｍａｉｌ：ｗａｎｇｙｕａｎｚｈｕｏ＠ｉｃｔ．ａｃ．ｃｎ．靳小龙，男，１９７６年生，博士，副研究员，主要研究方向为社会计算、网络性能建模与分析、多智能体系统等．程学旗，男，１９７１年生，博士，研究员，主要研究领域为网络科学、网络与信息安全以及互联网搜索与服务．网络大数据：现状与展望王元卓靳小龙程学旗（中国科学院计算技术研究所网络数据科学与技术重点实验室北京１００１９０）摘要网络大数据是指“人、机、物”三元世界在网络空间（Ｃｙｂｅｒｓｐａｃｅ）中交互、融合所产生并在互联网上可获得的大数据．网络大数据的规模和复杂度的增长超出了硬件能力增长的摩尔定律，给现有的ＩＴ架构以及机器处理和计算能力带来了极大挑战．同时，也为人们深度挖掘和充分利用网络大数据的大价值带来了巨大机遇．因此，迫切需要探讨大数据的科学问题，发现网络大数据的共性规律，研究网络大数据定性、定量分析的基础理论与基本方法．文中分析了网络大数据的复杂性、不确定性和涌现性，总结了网络空间感知与数据表示、网络大数据存储与管理体系、网络大数据挖掘和社会计算以及网络数据平台系统与应用等方面的主要问题与研究现状，并对大数据科学、数据计算需要的新模式与新范式、新型的ＩＴ基础架构和数据的安全与隐私等方面的发展趋势进行了展望．关键词大数据；网络大数据；网络空间感知；大数据存储；数据挖掘；社会计算中图法分类号ＴＰ３９３ＤＯＩ号１０．３７２４／ＳＰ．Ｊ．１０１６．２０１３．０１１２５ＮｅｔｗｏｒｋＢｉｇＤａｔａ：ＰｒｅｓｅｎｔａｎｄＦｕｔｕｒｅＷＡＮＧＹｕａｎ－ＺｈｕｏＪＩＮＸｉａｏ－ＬｏｎｇＣＨＥＮＧＸｕｅ－Ｑｉ（ＫｅｙＬａｂｏｒａｔｏｒｙｏｆＷｅｂＤａｔａＳｃｉｅｎｃｅ＆Ｔｅｃｈｎｏｌｏｇｙ，ＩｎｓｔｉｔｕｔｅｏｆＣｏｍｐｕｔｉｎｇＴｅｃｈｎｏｌｏｇｙ，ＣｈｉｎｅｓｅＡｃａｄｅｍｙｏｆＳｃｉｅｎｃｅｓ，Ｂｅｉｊｉｎｇ１００１９０）ＡｂｓｔｒａｃｔＮｅｔｗｏｒｋｂｉｇｄａｔａｒｅｆｅｒｔｏｔｈｅｍａｓｓｉｖｅｄａｔａｇｅｎｅｒａｔｅｄｂｙｉｎｔｅｒａｃｔｉｏｎａｎｄｆｕｓｉｏｎｏｆｔｈｅｔｅｒｎａｒｙｈｕｍａｎ－ｍａｃｈｉｎｅ－ｔｈｉｎｇｕｎｉｖｅｒｓｅｉｎｔｈｅＣｙｂｅｒｓｐａｃｅａｎｄａｖａｉｌａｂｌｅｏｎｔｈｅＩｎｔｅｒｎｅｔ．ＴｈｅｉｎｃｒｅａｓｅｏｆｔｈｅｉｒｓｃａｌｅａｎｄｃｏｍｐｌｅｘｉｔｙｅｘｃｅｅｄｓｔｈａｔｏｆｔｈｅｃａｐａｃｉｔｙｏｆｈａｒｄｗａｒｅｃｈａｒａｃｔｅｒｉｚｅｄｂｙｔｈｅＭｏｏｒｅｌａｗ，ｗｈｉｃｈｂｒｉｎｇｓｇｒａｎｄｃｈａｌｌｅｎｇｅｓｔｏｔｈｅａｒｃｈｉｔｅｃｔｕｒｅａｎｄｔｈｅｐｒｏｃｅｓｓｉｎｇａｎｄｃｏｍｐｕｔｉｎｇｃａｐａｃｉｔｙｏｆｔｈｅｃｏｎｔｅｍｐｏｒａｒｙＩＴｓｙｓｔｅｍｓ，ｍｅａｎｗｈｉｌｅｐｒｅｓｅｎｔｓｕｎｐｒｅｃｅｄｅｎｔｅｄｏｐｐｏｒｔｕｎｉｔｉｅｓｏｎｄｅｅｐｌｙｍｉｎｉｎｇａｎｄｔａｋｉｎｇｆｕｌｌａｄｖａｎｔａｇｅｏｆｔｈｅｂｉｇｖａｌｕｅｏｆｎｅｔｗｏｒｋｂｉｇｄａｔａ．Ｔｈｅｒｅｆｏｒｅ，ｉｔｉｓｐｒｅｓｓｉｎｇｔｏｉｎｖｅｓｔｉｇａｔｅｔｈｅｄｉｓｃｉｐｌｉｎａｒｙｉｓｓｕｅｓａｎｄｄｉｓｃｏｖｅｒｔｈｅｃｏｍｍｏｎｌａｗｓｏｆｎｅｔｗｏｒｋｂｉｇｄａｔａ，ａｎｄｆｕｒｔｈｅｒｓｔｕｄｙｔｈｅｆｕｎｄａｍｅｎｔａｌｔｈｅｏｒｙａｎｄｂａｓｉｃａｐｐｒｏａｃｈｔｏｑｕａｌｉｔａｔｉｖｅｌｙｏｒｑｕａｎｔｉｔａｔｉｖｅｌｙｄｅａｌｉｎｇｗｉｔｈｎｅｔｗｏｒｋｂｉｇｄａｔａ．Ｔｈｉｓｐａｐｅｒａｎａｌｙｚｅｓｔｈｅｃｈａｌｌｅｎｇｅｓｃａｕｓｅｄｂｙｔｈｅｃｏｍｐｌｅｘｉｔｙ，ｕｎｃｅｒｔａｉｎｔｙａｎｄｅｍｅｒｇｅｎｃｅｏｆｎｅｔｗｏｒｋｂｉｇｄａｔａ，ａｎｄｓｕｍｍａｒｉｚｅｓｍａｊｏｒｉｓｓｕｅｓａｎｄｒｅｓｅａｒｃｈｓｔａｔｕｓｏｆｔｈｅａｗａｒｅｎｅｓｓ，ｒｅｐｒｅｓｅｎｔａｔｉｏｎ，ｓｔｏｒａｇｅ，ｍａｎａｇｅｍｅｎｔ，ｍｉｎｉｎｇ，ａｎｄｓｏｃｉａｌｃｏｍｐｕｔｉｎｇｏｆｎｅｔｗｏｒｋｂｉｇｄａｔａ，ａｓｗｅｌｌａｓｎｅｔｗｏｒｋｄａｔａｐｌａｔｆｏｒｍｓａｎｄａｐｐｌｉｃａｔｉｏｎｓ．Ｉｔａｌｓｏｌｏｏｋｓａｈｅａｄｔｏｔｈｅｄｅｖｅｌｏｐｍｅｎｔｔｒｅｎｄｓｏｆｂｉｇｄａｔａｓｃｉｅｎｃｅ，ｎｅｗｍｏｄｅｓａｎｄｐａｒａｄｉｇｍｏｆｄａｔａｃｏｍｐｕｔｉｎｇ，ｎｅｗＩＴｉｎｆｒａｓｔｒｕｃｔｕｒｅｓ，ａｎｄｄａｔａｓｅｃｕｒｉｔｙａｎｄｐｒｉｖａｃｙ，ｅｔｃ．Ｋｅｙｗｏｒｄｓｂｉｇｄａｔａ；ｎｅｔｗｏｒｋｂｉｇｄａｔａ；ｃｙｂｅｒｓｐａｃｅａｗａｒｅｎｅｓｓ；ｓｔｏｒａｇｅｏｆｂｉｇｄａｔａ；ｄａｔａｍｉｎｉｎｇ；ｓｏｃｉａｌｃｏｍｐｕｔｉｎｇ

1126 计算机学报 2013年集、分析和挖掘②.目前，eBay的分析平台每天处理 1 引言的数据量高达100PB,超过了纳斯达克交易所每天的数据处理量.为了准确分析用户的购物行为，eBay 1.1研究与发展现状定义了超过500种类型的数据，对顾客的行为进行近年来，随着互联网、物联网、云计算、三网融合跟踪分析③.2012年的双十一，中国互联网再次发生等IT与通信技术的迅猛发展，数据的快速增长成了最大规模的商业活动：淘宝系网站的销售总额达了许多行业共同面对的严峻挑战和宝贵机遇，因而到191亿元人民币.淘宝之所以能应对如此巨大的信息社会已经进入了大数据(Big Data)时代.大数交易量和超高并发性的分析需求，得益于其对往年据的涌现不仅改变着人们的生活与工作方式、企业的情况，特别是用户的消费习惯、搜索习惯以及浏览的运作模式，甚至还引起科学研究模式的根本性习惯等数据所进行的综合分析④. 改变. 网络大数据给学术界也同样带来了巨大的挑战一般意义上，大数据是指无法在一定时间内用和机遇.网络数据科学与技术作为信息科学、社会常规机器和软硬件工具对其进行感知、获取、管理、科学、网络科学和系统科学等相关领域交叉的新兴处理和服务的数据集合[.网络大数据是指“人、机、学科方向正逐步成为学术研究的新热点.近年，物”三元世界在网络空间(Cyberspace)中彼此交互《Nature》和《Science》等刊物相继出版专刊来探讨与融合所产生并在互联网上可获得的大数据，简称对大数据的研究.2008年《Nature》出版的专刊“Big 网络数据. Data”,从互联网技术、网络经济学、超级计算、环境当前，网络大数据在规模与复杂度上的快速增科学和生物医药等多个方面介绍了海量数据带来的长对现有T架构的处理和计算能力提出了挑战. 挑战).20l1年《Science》推出关于数据处理的专刊据著名咨询公司IDC发布的研究报告，2011年网络 “Dealing with Data”,讨论了数据洪流(Data Deluge) 大数据总量为18ZB,预计到2020年，总量将达到所带来的机遇[町.特别指出，倘若能够更有效地组织 35ZB. 和使用这些数据，人们将得到更多的机会发挥科学 IBM将大数据的特点总结为3个V,即大量化技术对社会发展的巨大推动作用. (Volume)、多样化(Variety)和快速化(Velocity). 1.2网络大数据研究的意义首先，网络空间中数据的体量不断扩大，数据集合的总体而言，网络大数据研究的重要性体现在以规模已经从GB、TB到了PB,而网络大数据甚至以下几个方面： EB和ZB(101)等单位来计数.IDC的研究报告称， (1)网络大数据的研究对捍卫国家网络空间的未来十年全球大数据将增加50倍，管理数据仓库的数字主权，维护社会稳定，推动社会与经济可持续发服务器的数量将增加10倍以迎合50倍的大数据增展有着独特的作用.信息化时代，国家层面的竞争力长①.其次，网络大数据类型繁多，包括结构化数据、将部分体现为一国拥有网络大数据的规模、活性以半结构化数据和非结构化数据.在现代互联网应用及对数据的解释与运用的能力.国家在网络空间的中，呈现出非结构化数据大幅增长的特点，至2012年数字主权也将是继海、陆、空、天四空间之后另一个末非结构化数据占有比例达到互联网整个数据量的大国博弈的空间，在网络大数据领域的落后，意味着 75%以上.这些非结构化数据的产生往往伴随着社失守产业战略制高点，意味着国家安全将在网络空交网络、移动计算和传感器等新技术的不断涌现和间出现漏洞.为此，今年3月，美国政府整合6个部应用.再次，网络大数据往往呈现出突发涌现等非线门投资2亿美元启动“大数据研究和发展计划”.在性状态演变现象，因此难以对其变化进行有效评估该计划中，美国国家科学基金会提出要“形成一个包和预测.另一方面，网络大数据常常以数据流的形式括数学、统计基础和计算机算法的独特学科”.该计动态、快速地产生，具有很强的时效性，用户只有把划还强调，大数据技术事关美国的国家安全，影响科握好对数据流的掌控才能充分利用这些数据. 学研究的步伐，还将引发教育和学习的变革，这意味近几年，网络大数据越来越显示出巨大的影响作用，正在改变着人们的工作与生活.2012年11月 ① http://www.emc.com/ 《时代》杂志撰文指出奥巴马总统连任成功背后的秘 2http://swampland.time.com// ③ http://www.china-cloud.com/ 密，其中的关键是对过去两年来相关网络数据的搜 http://server.51cto.com/ ?1994-2015 China Academic Journal Electronic Publishing House.All rights reserved.http://www.cnki.net

１引言１．１研究与发展现状近年来，随着互联网、物联网、云计算、三网融合等ＩＴ与通信技术的迅猛发展，数据的快速增长成了许多行业共同面对的严峻挑战和宝贵机遇，因而信息社会已经进入了大数据（ＢｉｇＤａｔａ）时代．大数据的涌现不仅改变着人们的生活与工作方式、企业的运作模式，甚至还引起科学研究模式的根本性改变．一般意义上，大数据是指无法在一定时间内用常规机器和软硬件工具对其进行感知、获取、管理、处理和服务的数据集合［１］．网络大数据是指“人、机、物”三元世界在网络空间（Ｃｙｂｅｒｓｐａｃｅ）中彼此交互与融合所产生并在互联网上可获得的大数据，简称网络数据．当前，网络大数据在规模与复杂度上的快速增长对现有ＩＴ架构的处理和计算能力提出了挑战．据著名咨询公司ＩＤＣ发布的研究报告，２０１１年网络大数据总量为１．８ＺＢ，预计到２０２０年，总量将达到３５ＺＢ．ＩＢＭ将大数据的特点总结为３个Ｖ，即大量化（Ｖｏｌｕｍｅ）、多样化（Ｖａｒｉｅｔｙ）和快速化（Ｖｅｌｏｃｉｔｙ）．首先，网络空间中数据的体量不断扩大，数据集合的规模已经从ＧＢ、ＴＢ到了ＰＢ，而网络大数据甚至以ＥＢ和ＺＢ（１０２１）等单位来计数．ＩＤＣ的研究报告称，未来十年全球大数据将增加５０倍，管理数据仓库的服务器的数量将增加１０倍以迎合５０倍的大数据增长①．其次，网络大数据类型繁多，包括结构化数据、半结构化数据和非结构化数据．在现代互联网应用中，呈现出非结构化数据大幅增长的特点，至２０１２年末非结构化数据占有比例达到互联网整个数据量的７５％以上．这些非结构化数据的产生往往伴随着社交网络、移动计算和传感器等新技术的不断涌现和应用．再次，网络大数据往往呈现出突发涌现等非线性状态演变现象，因此难以对其变化进行有效评估和预测．另一方面，网络大数据常常以数据流的形式动态、快速地产生，具有很强的时效性，用户只有把握好对数据流的掌控才能充分利用这些数据．近几年，网络大数据越来越显示出巨大的影响作用，正在改变着人们的工作与生活．２０１２年１１月《时代》杂志撰文指出奥巴马总统连任成功背后的秘密，其中的关键是对过去两年来相关网络数据的搜集、分析和挖掘②．目前，ｅＢａｙ的分析平台每天处理的数据量高达１００ＰＢ，超过了纳斯达克交易所每天的数据处理量．为了准确分析用户的购物行为，ｅＢａｙ定义了超过５００种类型的数据，对顾客的行为进行跟踪分析③．２０１２年的双十一，中国互联网再次发生了最大规模的商业活动：淘宝系网站的销售总额达到１９１亿元人民币．淘宝之所以能应对如此巨大的交易量和超高并发性的分析需求，得益于其对往年的情况，特别是用户的消费习惯、搜索习惯以及浏览习惯等数据所进行的综合分析④．网络大数据给学术界也同样带来了巨大的挑战和机遇．网络数据科学与技术作为信息科学、社会科学、网络科学和系统科学等相关领域交叉的新兴学科方向正逐步成为学术研究的新热点．近年，《Ｎａｔｕｒｅ》和《Ｓｃｉｅｎｃｅ》等刊物相继出版专刊来探讨对大数据的研究．２００８年《Ｎａｔｕｒｅ》出版的专刊“ＢｉｇＤａｔａ”，从互联网技术、网络经济学、超级计算、环境科学和生物医药等多个方面介绍了海量数据带来的挑战［２］．２０１１年《Ｓｃｉｅｎｃｅ》推出关于数据处理的专刊 “ＤｅａｌｉｎｇｗｉｔｈＤａｔａ”，讨论了数据洪流（ＤａｔａＤｅｌｕｇｅ）所带来的机遇［３］．特别指出，倘若能够更有效地组织和使用这些数据，人们将得到更多的机会发挥科学技术对社会发展的巨大推动作用．１．２网络大数据研究的意义总体而言，网络大数据研究的重要性体现在以下几个方面：（１）网络大数据的研究对捍卫国家网络空间的数字主权，维护社会稳定，推动社会与经济可持续发展有着独特的作用．信息化时代，国家层面的竞争力将部分体现为一国拥有网络大数据的规模、活性以及对数据的解释与运用的能力．国家在网络空间的数字主权也将是继海、陆、空、天四空间之后另一个大国博弈的空间．在网络大数据领域的落后，意味着失守产业战略制高点，意味着国家安全将在网络空间出现漏洞．为此，今年３月，美国政府整合６个部门投资２亿美元启动“大数据研究和发展计划”．在该计划中，美国国家科学基金会提出要“形成一个包括数学、统计基础和计算机算法的独特学科”．该计划还强调，大数据技术事关美国的国家安全，影响科学研究的步伐，还将引发教育和学习的变革．这意味６２１１计算机学报２０１３年 ① ② ③ ④ ｈｔｔｐ：／／ｗｗｗ．ｅｍｃ．ｃｏｍ／ｈｔｔｐ：／／ｓｗａｍｐｌａｎｄ．ｔｉｍｅ．ｃｏｍ／／ｈｔｔｐ：／／ｗｗｗ．ｃｈｉｎａ－ｃｌｏｕｄ．ｃｏｍ／ｈｔｔｐ：／／ｓｅｒｖｅｒ．５１ｃｔｏ．ｃｏｍ／

6期王元卓等：网络大数据：现状与展望 1127 着网络大数据的主权已上升为国家意志，直接影响 Gray)在他最后一次演讲中描绘了数据密集型科学国家和社会的稳定，事关国家的战略安全，研究的“第四范式”(The Fourth Paradigm),把数 (2)网络大数据是国民经济核心产业信息化升据密集型科学从计算科学中单独区分开来.格雷认级的重要推动力量.“人、机、物”三元世界的融合产为，要解决我们面临的某些最棘手的全球性挑战，生了大规模的数据，如何感知、测量、利用这些网络 “第四范式”可能是唯一具有系统性的方法大数据成为国民经济中许多行业面临的共同难题，网络大数据的深挖掘、大规模利用是新兴产业成为这些行业数字化、信息化的障碍和藩篱.如何使界的立足点.即便针对大数据的研究目前还没有建立不同行业都能突破这一障碍，关键在于对网络大数一套完整的理论体系，也缺少高效快速的处理、分析据基本共性问题的解决，譬如，对于非结构化数据的与挖掘的算法与范式，但大数据的应用前景毋庸置统一表示与分析，目前缺少有效的方法和工具.因疑，因为大数据从根本上来说就是来源于应用的问此，通过对网络大数据共性问题的分析和研究，使企题.著名出版公司O'Reilly的创始人Tim)'Reilly 业能够掌握网络大数据的处理能力或者能够承受网断言，大数据就是下一个Intel Inside,未来属于那络大数据处理的成本与代价，进而使整个行业迈入些能把数据转换为产品的公司和人群.MGI的研究数字化与信息化的新阶段.在这个意义上，对网络大报告也宣称，大数据是下一代革新、竞争力和生产力数据基础共性问题的解决将是新一代信息技术融合的先导，网络大数据可为世界经济创造巨大价值，提应用的新焦点，是信息产业持续高速增长的新引擎，高企业和公共部门的生产率和竞争力，并为消费者也是行业用户提升竞争能力的新动力. 创造巨大的经济利益.Gartner公司则更具体地预 (3)网络大数据在科学和技术上的突破，将可测，到2015年，采用大数据和海量信息管理的公司能诞生出数据服务、数据材料、数据制药等战略性新将在各项财务指标上，超过未做准备的竞争对手兴产业.网络数据科学与技术的突破意味着人们能 20% 够理清数据交互连接产生的复杂性，掌握数据冗余本文梳理了网络大数据所带来的挑战以及相关与缺失双重特征引起的不确定性，驾驭数据的高速的研究体系，从网络空间感知与数据表示、网络大数增长与交叉互连引起的涌现性(Emergence)),进据存储与管理体系、网络数据挖掘和社会计算以及而能够根据实际需求从网络数据中挖掘出其所蕴含网络数据平台系统与应用4个方面回顾了相关领域的信息、知识甚至是智慧，最终达到充分利用网络数的新近发展，探讨了网络大数据研究方向和所面临据价值的目的.涌现性是指由低层次的多个元素构的挑战，并展望了未来的主要研究方向. 成高层次的系统时展示出的每个单一元素所不具备的性质.网络数据不再是产业环节上产生的副产品， 2网络大数据带来的挑战相反地，网络数据已成为联系各个环节的关键纽带. 通过对网络数据纽带的分析与掌握，可以降低行业如上所述，网络大数据面临着来自诸多方面的成本、促进行业效率、提升行业生产力.因此，可以预挑战.但从研究的角度来说，根本挑战在于其复杂见，在网络数据的驱动下，行业模式的革新将可能催性、不确定性和涌现性.对这3个基本特性的研究决生出数据材料、数据制造、数据能源、数据制药等一定着网络大数据的发展趋势、研究进展和应用前景，系列战略性的新兴产业. 2.1网络大数据的复杂性 (4)大数据引起了学术界对科学研究方法论的复杂性造成网络大数据存储、分析、挖掘等多个重新审视，正在引发科学研究思维与方法的一场革环节的困难.网络大数据的复杂性主要包括数据类命.科学研究最初只有实验科学，随后出现了理论科型的复杂性、数据结构的复杂性和数据内在模式的学，研究各种定律和定理.由于在许多问题上，理论复杂性分析方法变得太过复杂以至于难以解决难题，人们 (1)数据类型复杂性.信息技术的发展使得数开始寻求模拟的方法，这又产生了计算科学.而大数据产生的途径不断增加，数据类型持续增多.相应据的出现催生了一种新的科研模式，即面对大数据，地，则需要开发新的数据采集、存储与处理技术.例科研人员只需从数据中直接查找、分析或挖掘所需如社交网络的兴起，使得微博、SNS个人状态信息要的信息、知识和智慧，甚至无需直接接触需研究的等短文本数据逐渐成为互联网上的主要信息传播媒对象.2007年，已故的图灵奖得主吉姆格雷(Jim 介，与传统的长文本不同，短文本由于长度短，上下 ?1994-2015 China Academic Journal Electronic Publishing House.All rights reserved.http://www.cnki.net

着网络大数据的主权已上升为国家意志，直接影响国家和社会的稳定，事关国家的战略安全．（２）网络大数据是国民经济核心产业信息化升级的重要推动力量．“人、机、物”三元世界的融合产生了大规模的数据，如何感知、测量、利用这些网络大数据成为国民经济中许多行业面临的共同难题，成为这些行业数字化、信息化的障碍和藩篱．如何使不同行业都能突破这一障碍，关键在于对网络大数据基本共性问题的解决．譬如，对于非结构化数据的统一表示与分析，目前缺少有效的方法和工具．因此，通过对网络大数据共性问题的分析和研究，使企业能够掌握网络大数据的处理能力或者能够承受网络大数据处理的成本与代价，进而使整个行业迈入数字化与信息化的新阶段．在这个意义上，对网络大数据基础共性问题的解决将是新一代信息技术融合应用的新焦点，是信息产业持续高速增长的新引擎，也是行业用户提升竞争能力的新动力．（３）网络大数据在科学和技术上的突破，将可能诞生出数据服务、数据材料、数据制药等战略性新兴产业．网络数据科学与技术的突破意味着人们能够理清数据交互连接产生的复杂性，掌握数据冗余与缺失双重特征引起的不确定性，驾驭数据的高速增长与交叉互连引起的涌现性（Ｅｍｅｒｇｅｎｃｅ）［４］，进而能够根据实际需求从网络数据中挖掘出其所蕴含的信息、知识甚至是智慧，最终达到充分利用网络数据价值的目的．涌现性是指由低层次的多个元素构成高层次的系统时展示出的每个单一元素所不具备的性质．网络数据不再是产业环节上产生的副产品，相反地，网络数据已成为联系各个环节的关键纽带．通过对网络数据纽带的分析与掌握，可以降低行业成本、促进行业效率、提升行业生产力．因此，可以预见，在网络数据的驱动下，行业模式的革新将可能催生出数据材料、数据制造、数据能源、数据制药等一系列战略性的新兴产业．（４）大数据引起了学术界对科学研究方法论的重新审视，正在引发科学研究思维与方法的一场革命．科学研究最初只有实验科学，随后出现了理论科学，研究各种定律和定理．由于在许多问题上，理论分析方法变得太过复杂以至于难以解决难题，人们开始寻求模拟的方法，这又产生了计算科学．而大数据的出现催生了一种新的科研模式，即面对大数据，科研人员只需从数据中直接查找、分析或挖掘所需要的信息、知识和智慧，甚至无需直接接触需研究的对象．２００７年，已故的图灵奖得主吉姆格雷（ＪｉｍＧｒａｙ）在他最后一次演讲中描绘了数据密集型科学研究的“第四范式”（ＴｈｅＦｏｕｒｔｈＰａｒａｄｉｇｍ）［５］，把数据密集型科学从计算科学中单独区分开来．格雷认为，要解决我们面临的某些最棘手的全球性挑战， “第四范式”可能是唯一具有系统性的方法．网络大数据的深挖掘、大规模利用是新兴产业界的立足点．即便针对大数据的研究目前还没有建立一套完整的理论体系，也缺少高效快速的处理、分析与挖掘的算法与范式，但大数据的应用前景毋庸置疑，因为大数据从根本上来说就是来源于应用的问题．著名出版公司Ｏ’Ｒｅｉｌｌｙ的创始人ＴｉｍＯ’Ｒｅｉｌｌｙ断言，大数据就是下一个ＩｎｔｅｌＩｎｓｉｄｅ，未来属于那些能把数据转换为产品的公司和人群．ＭＧＩ的研究报告也宣称，大数据是下一代革新、竞争力和生产力的先导，网络大数据可为世界经济创造巨大价值，提高企业和公共部门的生产率和竞争力，并为消费者创造巨大的经济利益．Ｇａｒｔｎｅｒ公司则更具体地预测，到２０１５年，采用大数据和海量信息管理的公司将在各项财务指标上，超过未做准备的竞争对手２０％．本文梳理了网络大数据所带来的挑战以及相关的研究体系，从网络空间感知与数据表示、网络大数据存储与管理体系、网络数据挖掘和社会计算以及网络数据平台系统与应用４个方面回顾了相关领域的新近发展，探讨了网络大数据研究方向和所面临的挑战，并展望了未来的主要研究方向．２网络大数据带来的挑战如上所述，网络大数据面临着来自诸多方面的挑战．但从研究的角度来说，根本挑战在于其复杂性、不确定性和涌现性．对这３个基本特性的研究决定着网络大数据的发展趋势、研究进展和应用前景．２．１网络大数据的复杂性复杂性造成网络大数据存储、分析、挖掘等多个环节的困难．网络大数据的复杂性主要包括数据类型的复杂性、数据结构的复杂性和数据内在模式的复杂性．（１）数据类型复杂性．信息技术的发展使得数据产生的途径不断增加，数据类型持续增多．相应地，则需要开发新的数据采集、存储与处理技术．例如社交网络的兴起，使得微博、ＳＮＳ个人状态信息等短文本数据逐渐成为互联网上的主要信息传播媒介．与传统的长文本不同，短文本由于长度短，上下６期王元卓等：网络大数据：现状与展望７２１１

1128 计算机学报 2013年文信息和统计信息很少，给传统的文本挖掘（如检仍然存在很多不足（如对一些长尾词的查询，对二义索、主题发现、语义和情感分析等)带来很大的困难性查询词的理解等)，都有待进一步提高，另外，网络相关的研究包括利用外部数据源（如Wikipedia[o)、大数据通常是高维的，往往会带来数据高度稀疏与搜索结果[)等)扩充文档，或者利用内部相似文档信维度灾难等问题.在这种情况下，由于数据模式统计息来扩充短文本的表达[侧.然而，无论是利用外部数显著性较弱，以往的统计学习方法多针对高频数据据，还是利用内部数据，都可能引入更多的噪声，另挖掘模式，因此难以产生令人满意的效果.近年来，一方面，不同数据类型的有机融合给传统的数据处受实际应用驱动，高维稀疏问题成为了统计学习领理方法带来了新的挑战.例如在社交媒体的研究当域的热点问题)].相关理论研究发现，基于稀疏表中地域信息与内容的融合[]、时空信息与内容信息达的学习方法（如LASS)等），在获得较好学习效的结合[1o等等. 果的同时，还具有更高的效率和鲁棒性) (2)数据结构的复杂性，传统上处理的数据对 2.2网络大数据的不确定性象都是有结构的，能够存储到关系数据库中，但随着不确定性使得网络数据难以被建模和学习，从数据生成方式的多样化，如社交网络、移动计算和传而难以有效利用其价值.网络数据的不确定性包括感器等技术，非结构化数据成为大数据的主流形式，数据本身的不确定性、模型的不确定性和学习的不非结构化数据具有许多格式，包括文本、文档、图形、确定性视频等等.非结构化数据当中蕴含着丰富的知识，但 (1)数据的不确定性.原始数据的不准确以及其异构和可变的性质也给数据分析与挖掘工作带来数据采集处理粒度、应用需求与数据集成和展示等了更大的挑战.与结构化的数据相比，非结构化数据因素使得数据在不同维度、不同尺度上都有不同程相对组织凌乱，包含更多的无用信息，给数据的存储度的不确定性.传统侧重于准确性数据的处理方法，与分析带来很大的困难.目前相关的研究热点，包括难以应对海量、高维、多类型的不确定性数据.具体开发非关系型数据库（如Google的BigTable,开源而言，在数据的采集、存储、建模、查询、检索、挖掘等的HBase等)来存储非结构化数据.Google提出了方面都需要有新的方法来应对不确定性的挑战) MapReduce计算框架，Yahoo!、Facebook等公司在近年来，概率统计的方法被逐步应用于不确定性数此基础上实现了Hadoop、Hive之类的分布式架构，据的处理中，一方面，数据的不确定性要求我们使用对非结构化数据做基本的分析工作.国内各大公司不确定的方法加以应对：另一方面，计算机硬件的发和科研单位也启动了用于支撑非结构化处理的基础展也为这类方法提供了效率、效能上的可能.日前，设施研发，如百度的云计算平台、中国科学院计算技该领域研究尚浅，在学术界和产业界尚有大量问题术研究所的凌云(LingCloud)系统等. 亟待解决. (3)数据模式的复杂性.随着数据规模的增大， (2)模型的不确定性，数据的不确定性要求对描述和刻画数据的特征必然随之增大，而由其组成数据的处理方式能够提出新的模型方法，并能够把的数据内在模式将会以指数形式增长.首先，数据类握模型的表达能力与复杂程度之间的平衡.在对不型的多样化决定了数据模式的多样化.不仅需要熟确定数据的建模和系统设计上，最常用且朴素的观悉各种类型的数据模式，同时也要善于把握它们之点是“可能世界模型[).该观点认为，在一定的结间的相互作用.这种面向多模式学习的研究需要综构规范下，应将数据的每一种状态都加以刻画.但该合利用各个方面的知识（如文本挖掘、图像处理、信种模型过于复杂，难以用一种通用的模型结构来适息网络、甚至社会学等等).为此，Sun提出用网络应具体的应用需求.在实际应用中，我们往往采取简来描述异质数据间的关系，同时提出了“元路径化的模型刻画不确定性数据的特性，如独立性假设、 (Meta-Path)”的概率来刻画目标数据模式[叮.这同分布假设等等.尤其值得注意的是，概率图模样，通过定义合适的元路径，便可在数据网络中挖掘型]由于具有很强的表达能力而且可对数据相关有价值的模式.其次，非结构化的数据通常比结构化性进行建模，因此已被广泛应用在不确定数据的建数据蕴含更多的无用信息和噪声，网络数据需要高模领域。另外，在数据的管理和挖掘上面，不确定性效鲁棒的方法来实现去粗存精，去冗存真.搜索引擎模型的构建应当考虑到数据的查询、检索、传输、展就是从无结构化数据中检索出有用信息的一种工示等方面的影响门具，尽管搜索技术在工业上已经取得极大的成功，但 (3)学习的不确定性.数据模型通常都需要对 ?1994-2015 China Academic Journal Electronic Publishing House.All rights reserved.http://www.cnki.net

文信息和统计信息很少，给传统的文本挖掘（如检索、主题发现、语义和情感分析等）带来很大的困难．相关的研究包括利用外部数据源（如Ｗｉｋｉｐｅｄｉａ［６］、搜索结果［７］等）扩充文档，或者利用内部相似文档信息来扩充短文本的表达［８］．然而，无论是利用外部数据，还是利用内部数据，都可能引入更多的噪声．另一方面，不同数据类型的有机融合给传统的数据处理方法带来了新的挑战．例如在社交媒体的研究当中地域信息与内容的融合［９］、时空信息与内容信息的结合［１０］等等．（２）数据结构的复杂性．传统上处理的数据对象都是有结构的，能够存储到关系数据库中．但随着数据生成方式的多样化，如社交网络、移动计算和传感器等技术，非结构化数据成为大数据的主流形式．非结构化数据具有许多格式，包括文本、文档、图形、视频等等．非结构化数据当中蕴含着丰富的知识，但其异构和可变的性质也给数据分析与挖掘工作带来了更大的挑战．与结构化的数据相比，非结构化数据相对组织凌乱，包含更多的无用信息，给数据的存储与分析带来很大的困难．目前相关的研究热点，包括开发非关系型数据库（如Ｇｏｏｇｌｅ的ＢｉｇＴａｂｌｅ，开源的ＨＢａｓｅ等）来存储非结构化数据．Ｇｏｏｇｌｅ提出了ＭａｐＲｅｄｕｃｅ计算框架，Ｙａｈｏｏ！、Ｆａｃｅｂｏｏｋ等公司在此基础上实现了Ｈａｄｏｏｐ、Ｈｉｖｅ之类的分布式架构，对非结构化数据做基本的分析工作．国内各大公司和科研单位也启动了用于支撑非结构化处理的基础设施研发，如百度的云计算平台、中国科学院计算技术研究所的凌云（ＬｉｎｇＣｌｏｕｄ）系统等．（３）数据模式的复杂性．随着数据规模的增大，描述和刻画数据的特征必然随之增大，而由其组成的数据内在模式将会以指数形式增长．首先，数据类型的多样化决定了数据模式的多样化．不仅需要熟悉各种类型的数据模式，同时也要善于把握它们之间的相互作用．这种面向多模式学习的研究需要综合利用各个方面的知识（如文本挖掘、图像处理、信息网络、甚至社会学等等）．为此，Ｓｕｎ提出用网络来描述异质数据间的关系，同时提出了 “元路径（Ｍｅｔａ－Ｐａｔｈ）”的概率来刻画目标数据模式［１１］．这样，通过定义合适的元路径，便可在数据网络中挖掘有价值的模式．其次，非结构化的数据通常比结构化数据蕴含更多的无用信息和噪声，网络数据需要高效鲁棒的方法来实现去粗存精，去冗存真．搜索引擎就是从无结构化数据中检索出有用信息的一种工具．尽管搜索技术在工业上已经取得极大的成功，但仍然存在很多不足（如对一些长尾词的查询，对二义性查询词的理解等），都有待进一步提高．另外，网络大数据通常是高维的，往往会带来数据高度稀疏与维度灾难等问题．在这种情况下，由于数据模式统计显著性较弱，以往的统计学习方法多针对高频数据挖掘模式，因此难以产生令人满意的效果．近年来，受实际应用驱动，高维稀疏问题成为了统计学习领域的热点问题［１２］．相关理论研究发现，基于稀疏表达的学习方法（如ＬＡＳＳＯ等），在获得较好学习效果的同时，还具有更高的效率和鲁棒性［１３］．２．２网络大数据的不确定性不确定性使得网络数据难以被建模和学习，从而难以有效利用其价值．网络数据的不确定性包括数据本身的不确定性、模型的不确定性和学习的不确定性．（１）数据的不确定性．原始数据的不准确以及数据采集处理粒度、应用需求与数据集成和展示等因素使得数据在不同维度、不同尺度上都有不同程度的不确定性．传统侧重于准确性数据的处理方法，难以应对海量、高维、多类型的不确定性数据．具体而言，在数据的采集、存储、建模、查询、检索、挖掘等方面都需要有新的方法来应对不确定性的挑战［１４］．近年来，概率统计的方法被逐步应用于不确定性数据的处理中．一方面，数据的不确定性要求我们使用不确定的方法加以应对；另一方面，计算机硬件的发展也为这类方法提供了效率、效能上的可能．目前，该领域研究尚浅，在学术界和产业界尚有大量问题亟待解决．（２）模型的不确定性．数据的不确定性要求对数据的处理方式能够提出新的模型方法，并能够把握模型的表达能力与复杂程度之间的平衡．在对不确定数据的建模和系统设计上，最常用且朴素的观点是“可能世界模型”［１５］．该观点认为，在一定的结构规范下，应将数据的每一种状态都加以刻画．但该种模型过于复杂，难以用一种通用的模型结构来适应具体的应用需求．在实际应用中，我们往往采取简化的模型刻画不确定性数据的特性，如独立性假设、同分布假设等等．尤其值得注意的是，概率图模型［１６］由于具有很强的表达能力而且可对数据相关性进行建模，因此已被广泛应用在不确定数据的建模领域．另外，在数据的管理和挖掘上面，不确定性模型的构建应当考虑到数据的查询、检索、传输、展示等方面的影响［１７］．（３）学习的不确定性．数据模型通常都需要对８２１１计算机学报２０１３年

6期王元卓等：网络大数据：现状与展望 1129 模型参数进行学习，然而，在很多情况下找到模型的并发现每个人连发两封邮件之间的时间间隔涌现出最优解是P问题，甚至找到一个局部最优解都很幂率分布特征.此外，自然界和社会中个体之间不同困难，因此很多学习问题都采用近似的、不确定的方的竞争模式会导致不同的同步状态的涌现性法来寻找一个相对不错的解.但在大数据的背景下， (3)智慧的涌现性.网络数据在没有全局控制传统近似的、不确定的学习方法需要面对规模和时和预先定义的情况下，通过对来自大量自发个体的效的挑战.随着多核CPU/GPU的普及以及并行计语义进行互相融合和连接而形成语义，整个过程随算框架的研究，分而治之的方法被普遍认为是解决着数据的变化而持续演进，从而形成网络数据的涌网络大数据问题一条必由之路.如何将近似的、不确现语义，也可以称之为智慧涌现.作为一种特殊的智定的学习方法拓展到这种框架上成为当前研究的重慧涌现形式，众包正在通过互联网和社会网络快速点.近年来，不少高校和研究机构，在该领域做出了发展，成为一种新的商业模式、新的数据产生模式和探索.如在矩阵分解运算中对数据进行分块的计算新的数据处理协作模式，方法能够利用多台机器并行计算，从而提高数据的总体而言，尽管与网络大数据研究密切相关的处理速度11町.此外，除了学习模型参数值的不确定数据库、数据挖掘、机器学习和知识工程等领域近些外，模型的复杂性和参数个数也受到不同领域、不同年来都有很大的进展，甚至在许多不同的领域得到数据类型和应用需求的影响而不能提前确定，近年了深入的应用，但由于网络大数据规模海量、关系复来，在统计学习领域，非参模型方法的提出[20]为自杂等根本特性，使得相关领域的研究成果难以被直动学习出模型复杂度和参数个数提供了一种思路. 接借鉴于网络大数据的研究，因此，网络大数据的研但该类模型计算上较为复杂，如何分布式地、并行地究需要一套全新的理论和方法来进行方向性的指应用到网络大数据的处理上，还是一个开放问题. 导.但到目前为止，甚至连大数据的精确定义还缺乏 2.3网络大数据的涌现性一个统一的标准.网络大数据科学与技术这门学科涌现性是网络数据有别于其它数据的关键特的内涵和外延还缺乏严格的限定和详实的论证：在性.涌现性在度量、研判与预测上的困难使得网络数大数据的环境下，传统“假设、模型、检验”的科学方据难以被驾驭，网络数据的涌现性主要表现为模式法受到质疑，从“数据”到“数据”的第四范式还没有的涌现性、行为的涌现性和智慧的涌现性，建立，需要一个完备的新的理论体系来指导该学科 (1)模式的涌现性，在多尺度、异质关系的网络的发展和研究数据中，由于不同的数据在属性、功能等方面既存在差异又相互关联，因此使网络大数据在结构、功能等 3网络空间感知与数据表示方面涌现出了局部结构所不具备的特定模式特征，在结构方面，数据之间不同的关联程度使得数据构网络数据具有跨媒体关联、强时效演变、多主体成的网络涌现出模块结构.在功能方面，网络在演化互动等特点，使得我们对网络大数据的态势感知、质过程中会自发地形成相互分离的连通小块[222)，这量评估、融合表示等均面临新的问题. 一涌现性结果对于研究更多的社会网络模型和理解 3.1网络大数据的感知与获取网络瓦解失效的发生有着重要意义，按照网络空间中数据的蕴藏深度，整个网络空 (2)行为的涌现性.随着数据采集技术的不断间可以划分为Surface Web和Deep Web],或称发展，人们得到的很多数据都具有时序性，而社会网作Hidden Webtz].Surface Web是指Web中通过络中个体行为的涌现性则是基于数据时序分布的统超链接可被传统搜索引擎爬取到的静态页面，而计结果.在社会网络中有较大相似性的个体之间容 Deep Web则由Web中可在线访问的数据库组成. 易建立社会关系.通过研究Schelling给出的个体社 Deep Web的数据隐藏在Web数据库提供的查询接会关系网络模型发现，网络在演化过程中会自发地口后面，只有通过向查询接口提交查询才能获得.与形成相互分离的连通块，这一个体行为涌现的结果 Surface Web相比，Deep Web所包含的信息更丰不依赖于初始网络的拓扑结构，对于研究更多的社富.同时，Deep Web具有规模大、实时动态变化、异会网络模型和理解行为涌现的规律具有重要意构性、分布性以及访问方式特殊等特点.为了充分利义[2].著名网络科学家Barabasi研究发现，人们发用Deep Web中的数据资源，需要充分获取Deep 邮件的数量在一天的某些时刻会出现“爆发”现象， Wb中高质量的数据并予以集成，整个集成过程可 ?1994-2015 China Academic Journal Electronic Publishing House.All rights reserved.http://www.cnki.net

模型参数进行学习．然而，在很多情况下找到模型的最优解是ＮＰ问题，甚至找到一个局部最优解都很困难．因此很多学习问题都采用近似的、不确定的方法来寻找一个相对不错的解．但在大数据的背景下，传统近似的、不确定的学习方法需要面对规模和时效的挑战．随着多核ＣＰＵ／ＧＰＵ的普及以及并行计算框架的研究，分而治之的方法被普遍认为是解决网络大数据问题一条必由之路．如何将近似的、不确定的学习方法拓展到这种框架上成为当前研究的重点．近年来，不少高校和研究机构，在该领域做出了探索．如在矩阵分解运算中对数据进行分块的计算方法能够利用多台机器并行计算，从而提高数据的处理速度［１８－１９］．此外，除了学习模型参数值的不确定外，模型的复杂性和参数个数也受到不同领域、不同数据类型和应用需求的影响而不能提前确定．近年来，在统计学习领域，非参模型方法的提出［２０－２１］为自动学习出模型复杂度和参数个数提供了一种思路．但该类模型计算上较为复杂，如何分布式地、并行地应用到网络大数据的处理上，还是一个开放问题．２．３网络大数据的涌现性涌现性是网络数据有别于其它数据的关键特性．涌现性在度量、研判与预测上的困难使得网络数据难以被驾驭．网络数据的涌现性主要表现为模式的涌现性、行为的涌现性和智慧的涌现性．（１）模式的涌现性．在多尺度、异质关系的网络数据中，由于不同的数据在属性、功能等方面既存在差异又相互关联，因此使网络大数据在结构、功能等方面涌现出了局部结构所不具备的特定模式特征．在结构方面，数据之间不同的关联程度使得数据构成的网络涌现出模块结构．在功能方面，网络在演化过程中会自发地形成相互分离的连通小块［２２－２４］．这一涌现性结果对于研究更多的社会网络模型和理解网络瓦解失效的发生有着重要意义．（２）行为的涌现性．随着数据采集技术的不断发展，人们得到的很多数据都具有时序性，而社会网络中个体行为的涌现性则是基于数据时序分布的统计结果．在社会网络中有较大相似性的个体之间容易建立社会关系．通过研究Ｓｃｈｅｌｌｉｎｇ给出的个体社会关系网络模型发现，网络在演化过程中会自发地形成相互分离的连通块，这一个体行为涌现的结果不依赖于初始网络的拓扑结构，对于研究更多的社会网络模型和理解行为涌现的规律具有重要意义［２５］．著名网络科学家Ｂａｒａｂａｓｉ研究发现，人们发邮件的数量在一天的某些时刻会出现“爆发”现象，并发现每个人连发两封邮件之间的时间间隔涌现出幂率分布特征．此外，自然界和社会中个体之间不同的竞争模式会导致不同的同步状态的涌现性．（３）智慧的涌现性．网络数据在没有全局控制和预先定义的情况下，通过对来自大量自发个体的语义进行互相融合和连接而形成语义，整个过程随着数据的变化而持续演进，从而形成网络数据的涌现语义，也可以称之为智慧涌现．作为一种特殊的智慧涌现形式，众包正在通过互联网和社会网络快速发展，成为一种新的商业模式、新的数据产生模式和新的数据处理协作模式．总体而言，尽管与网络大数据研究密切相关的数据库、数据挖掘、机器学习和知识工程等领域近些年来都有很大的进展，甚至在许多不同的领域得到了深入的应用，但由于网络大数据规模海量、关系复杂等根本特性，使得相关领域的研究成果难以被直接借鉴于网络大数据的研究．因此，网络大数据的研究需要一套全新的理论和方法来进行方向性的指导．但到目前为止，甚至连大数据的精确定义还缺乏一个统一的标准．网络大数据科学与技术这门学科的内涵和外延还缺乏严格的限定和详实的论证；在大数据的环境下，传统“假设、模型、检验”的科学方法受到质疑，从“数据”到“数据”的第四范式还没有建立，需要一个完备的新的理论体系来指导该学科的发展和研究．３网络空间感知与数据表示网络数据具有跨媒体关联、强时效演变、多主体互动等特点，使得我们对网络大数据的态势感知、质量评估、融合表示等均面临新的问题．３．１网络大数据的感知与获取按照网络空间中数据的蕴藏深度，整个网络空间可以划分为ＳｕｒｆａｃｅＷｅｂ和ＤｅｅｐＷｅｂ［２６］，或称作ＨｉｄｄｅｎＷｅｂ［２７］．ＳｕｒｆａｃｅＷｅｂ是指Ｗｅｂ中通过超链接可被传统搜索引擎爬取到的静态页面，而ＤｅｅｐＷｅｂ则由Ｗｅｂ中可在线访问的数据库组成．ＤｅｅｐＷｅｂ的数据隐藏在Ｗｅｂ数据库提供的查询接口后面，只有通过向查询接口提交查询才能获得．与ＳｕｒｆａｃｅＷｅｂ相比，ＤｅｅｐＷｅｂ所包含的信息更丰富．同时，ＤｅｅｐＷｅｂ具有规模大、实时动态变化、异构性、分布性以及访问方式特殊等特点．为了充分利用ＤｅｅｐＷｅｂ中的数据资源，需要充分获取ＤｅｅｐＷｅｂ中高质量的数据并予以集成，整个集成过程可６期王元卓等：网络大数据：现状与展望９２１１

1130 计算机学报 2013年以分为数据获取、数据抽取和数据整合3个环节，要集中在网络中的文本信息方面.对文本信息进行 3.2网络大数据的质量评估与采样表示和建模其目的是让计算机能够正确理解人类的对网络空间中多源数据进行质量评估，一方面语言，能够分析和表达出其中的语义信息，文本信息需要建立数据模型或提出适当的采样方法；另一方的表达经历了从浅层词语表达方式到深层语义表达面，需要提出对采样数据的评价与检验方法.网络数方式这样一个历程，其中代表性的工作包括了向量据采样是将数据从Web数据库提取出来的过程.传空间表示(VSM)[2]、隐语义索引(LSI)3町和概率话统的数据库采样是随机从数据库中选取数据记录以题模型（如图1所示）[]等.随着研究不断深入，话获得数据库的统计信息的过程，典型方法可参考文题模型被广泛地应用在各个领域，进一步有人提出献[28-30].但是要获取Web数据库中的数据只能了改进的话题模型[)，以增强已有话题模型的学习通过向查询接口提交查询，不能自由地从Web数据能力，解决其跨领域的问题等等，从而使其能更好地库获取记录，故而传统方法不能实现对Web数据库应用于文本数据的表达的采样. 针对Web数据库采样，HIDDEN-DB-SAM- PLER[]是第一项工作，它给出了对范围属性和分类属性的处理方法，而对查询接口中设计的必填的可任意取值的关键词属性未作处理.文献[32]提出基于图模型的增量式Web数据库采样方法WDB- Sampler,通过查询接口从Web数据库中以增量的方式获取近似随机的样本.但是该方法是针对样本图1概率话题模型[o] 中每条数据作为顶点来建立图模型，每一轮查询后尽管对数据表达的研究历经了很长的时间，但都要将查询结果扩充到图模型中用于产生下一轮查是对于网络大数据的建模和表达还面临着很多新的询词，这样做的代价比较高. 挑战.例如，对于海量文本数据的建模，我们需要模 3.3网络大数据的清洗与提炼型能够对更大规模的参数空间进行有效地学习，需由于现实世界数据的多源性、异质性以及采集要能够有效地建模并解决数据的稀疏性所带来的问数据时的一些人工错误，导致网络数据是含有噪音、题，需要能够对动态演化的网络大数据进行合理的冗余和缺失的.如何有效地衡量数据的质量是一个表达.此外，对于图片和多媒体数据，我们也需要进重要的研究方向.文献[33]定义了衡量数据质量的一步探索其建模与表达方式，以便能够更加有效地 4个指标：一致性、正确性、完整性和最小性，文献[34] 表达其内在的语义信息提出了数据工程中数据质量的需求分析和模型，认为存在很多候选的数据质量衡量指标，用户应根据 4 网络大数据存储与管理体系应用的需求选择其中一部分. 数据的清洗建立在数据质量标准之上，为了得网络大数据处理的数据规模从TB级上升到到高质量的数据，清洗与提炼过程必须满足几个条 PB、EB级，面临着如何降低数据存储成本、充分利件：检测并除去数据中所有明显的错误和不一致：尽用计算资源、提高系统并发吞吐率、支持分布式的非可能地减小人工干预和用户的编程工作量，而且要线性迭代算法优化等众多难题容易扩展到其它数据源；应该和数据转化相结合；要 4.1分布式数据存储有相应的描述语言来指定数据转化和数据清洗操 Google公司提出的GFS、MapReduce,BigTable 作，所有这些操作应该在一个统一的框架下完成.对等技术是分布式数据处理技术的具体实现，是于数据清洗，工业界已经开发了很多数据抽取、转化 Google搜索引擎系统三大核心技术.此后，Apache 和装载工具(ETL tool)[3可.一些研究人员研究相似软件基金会推出了开放源码Hadoop和HBase系重复记录的识别和剔除（如文献[34,36]），还有一些统，实现了apReduce编程模型、分布式文件系统研究包括数据的变换和集成（如文献[37-38]）. 和分布式列簇数据库.Hadoop系统在Yahoo!、 3.4网络大数据的融合表示 IBM、百度、Facebook等公司得到了大量应用和快对网络数据的建模和表达理论方面的研究，主速的发展.但作为一个新兴的技术体系，分布式数据 ?1994-2015 China Academic Journal Electronic Publishing House.All rights reserved.http://www.cnki.net

以分为数据获取、数据抽取和数据整合３个环节．３．２网络大数据的质量评估与采样对网络空间中多源数据进行质量评估，一方面需要建立数据模型或提出适当的采样方法；另一方面，需要提出对采样数据的评价与检验方法．网络数据采样是将数据从Ｗｅｂ数据库提取出来的过程．传统的数据库采样是随机从数据库中选取数据记录以获得数据库的统计信息的过程，典型方法可参考文献［２８－３０］．但是要获取Ｗｅｂ数据库中的数据只能通过向查询接口提交查询，不能自由地从Ｗｅｂ数据库获取记录，故而传统方法不能实现对Ｗｅｂ数据库的采样．针对Ｗｅｂ数据库采样，ＨＩＤＤＥＮ－ＤＢ－ＳＡＭ－ＰＬＥＲ［３１］是第一项工作，它给出了对范围属性和分类属性的处理方法，而对查询接口中设计的必填的可任意取值的关键词属性未作处理．文献［３２］提出基于图模型的增量式Ｗｅｂ数据库采样方法ＷＤＢ－Ｓａｍｐｌｅｒ，通过查询接口从Ｗｅｂ数据库中以增量的方式获取近似随机的样本．但是该方法是针对样本中每条数据作为顶点来建立图模型，每一轮查询后都要将查询结果扩充到图模型中用于产生下一轮查询词，这样做的代价比较高．３．３网络大数据的清洗与提炼由于现实世界数据的多源性、异质性以及采集数据时的一些人工错误，导致网络数据是含有噪音、冗余和缺失的．如何有效地衡量数据的质量是一个重要的研究方向．文献［３３］定义了衡量数据质量的４个指标：一致性、正确性、完整性和最小性．文献［３４］提出了数据工程中数据质量的需求分析和模型，认为存在很多候选的数据质量衡量指标，用户应根据应用的需求选择其中一部分．数据的清洗建立在数据质量标准之上，为了得到高质量的数据，清洗与提炼过程必须满足几个条件：检测并除去数据中所有明显的错误和不一致；尽可能地减小人工干预和用户的编程工作量，而且要容易扩展到其它数据源；应该和数据转化相结合；要有相应的描述语言来指定数据转化和数据清洗操作，所有这些操作应该在一个统一的框架下完成．对于数据清洗，工业界已经开发了很多数据抽取、转化和装载工具（ＥＴＬｔｏｏｌ）［３５］．一些研究人员研究相似重复记录的识别和剔除（如文献［３４，３６］），还有一些研究包括数据的变换和集成（如文献［３７－３８］）．３．４网络大数据的融合表示对网络数据的建模和表达理论方面的研究，主要集中在网络中的文本信息方面．对文本信息进行表示和建模其目的是让计算机能够正确理解人类的语言，能够分析和表达出其中的语义信息．文本信息的表达经历了从浅层词语表达方式到深层语义表达方式这样一个历程，其中代表性的工作包括了向量空间表示（ＶＳＭ）［２９］、隐语义索引（ＬＳＩ）［３９］和概率话题模型（如图１所示）［４０］等．随着研究不断深入，话题模型被广泛地应用在各个领域，进一步有人提出了改进的话题模型［４１］，以增强已有话题模型的学习能力，解决其跨领域的问题等等，从而使其能更好地应用于文本数据的表达．图１概率话题模型［４０］尽管对数据表达的研究历经了很长的时间，但是对于网络大数据的建模和表达还面临着很多新的挑战．例如，对于海量文本数据的建模，我们需要模型能够对更大规模的参数空间进行有效地学习，需要能够有效地建模并解决数据的稀疏性所带来的问题，需要能够对动态演化的网络大数据进行合理的表达．此外，对于图片和多媒体数据，我们也需要进一步探索其建模与表达方式，以便能够更加有效地表达其内在的语义信息．４网络大数据存储与管理体系网络大数据处理的数据规模从ＴＢ级上升到ＰＢ、ＥＢ级，面临着如何降低数据存储成本、充分利用计算资源、提高系统并发吞吐率、支持分布式的非线性迭代算法优化等众多难题．４．１分布式数据存储Ｇｏｏｇｌｅ公司提出的ＧＦＳ、ＭａｐＲｅｄｕｃｅ、ＢｉｇＴａｂｌｅ等技术是分布式数据处理技术的具体实现，是Ｇｏｏｇｌｅ搜索引擎系统三大核心技术．此后，Ａｐａｃｈｅ软件基金会推出了开放源码Ｈａｄｏｏｐ和ＨＢａｓｅ系统，实现了ＭａｐＲｅｄｕｃｅ编程模型、分布式文件系统和分布式列簇数据库．Ｈａｄｏｏｐ系统在Ｙａｈｏｏ！、ＩＢＭ、百度、Ｆａｃｅｂｏｏｋ等公司得到了大量应用和快速的发展．但作为一个新兴的技术体系，分布式数据０３１１计算机学报２０１３年

6期王元卓等：网络大数据：现状与展望 1131 处理技术在支持大规模网络信息处理及应用等大数提出了一种介于关系模型和Key-Value对模型之间据计算应用方面还存在着很多不足，的新数据模型：Ordered Table.Ordered Table模型行存储(Row-Store)和列存储(Column-Store) 提供了稀疏的、分布式的、持久存储的、基于主键是两种典型的数据库物理存储策略.行存储方式较排序的映射，数据由行、列和时间戳表示.BigTable 为传统，它在磁盘中依次保存每条记录，比较适合事中表的Scheme非常灵活，可以在运行时修改. 务操作；列存储方式垂直划分关系表，以列为单位存 Ordered Table模型可以对基于主键的区间查询储数据，列存储还具有数据压缩(Compression)、提供有力的支持，对于涉及多个字段数据的多维区延期物化(Late Materialization)、块循环(Block 间查询主要采用二级索引技术，但这引起了性能 Iteration)等特性[2].由于数据分析任务往往仅使用问题. 较少字段，因此列存储方式的效率更高.数据分析任为避免大量随机读，另一种思路是使用聚簇索务在大数据应用中更为常见，因此许多系统尽管无法引，即同时按索引顺序存储全部数据.为保证多个查完全实现列存储的所有特性，但也或多或少地借鉴了询列均有很好的性能，需要按多个索引列聚簇，但这相关概念，包括BigTable、HBase等).文献[44]提将导致存储开销成倍增长.此外还面临着因统计信出了行列混合式数据存储结构(RCFile)以解决海量息的缺失带来的新的挑战.关系数据库领域处理多数据快速加载、缩短查询响应时间、磁盘空间高效利个维度的查询优化时，关键是根据表的统计信息估用等问题（如图2所示）.RCFile融合了行存储和列算子查询的代价，比如通过记录数量、数据分布的直存储的优点，通过行组划分降低数据加载开销，通过方图等估算结果集大小、需要读取的数据块数量等. 列数据压缩提高存储空间利用率.国际上应用最广文献[45]提出的互补式聚簇索引(CCIndex), 泛的两大分布式数据分析系统Hive和Pig均集成利用多副本为每个索引列各创建一张互为补充的聚了RCFile技术.RCFile已经成为分布式离线数据簇索引表，使得索引列上的区间查询对应聚簇索引分析系统中数据存储结构的事实标准. 表的连续扫描（如图3所示）.解决了NoSQL数据库的二级索引技术因无法保持连续扫描特性而处理 Relation RCFile tt 效率低下的问题.同时，结合查询结果集估算方法， ABCD 以挑选最优查询计划.通过禁用底层存储系统的副 101111121131 HDFS 102112122132 Block Row Group 103113123133 本机制来避免引入额外的存储开销，并提供增量式 8 Group 1 四Yace 的快速数据恢复机制.目前，CCIndex技术已应用在 101,102,103,104,105 111.112.113.114.115 淘宝的数据魔方中， 121.122.123.124.125 131,132,133,134,135 4.3数据世系管理数据世系(Data Provenance)?[s]包含了不同数据源间的数据演化过程和相同数据源内部数据的演图2 RCFile数据存储结构示例a) 化过程.数据世系一般有两类基本方法，非注解的方法和基于注解的方法，前者采用模式映射方式使用分布式数据存储是网络大数据应用的一个重要数据处理函数和其相对应的反向函数，但在更复杂环节，但目前的研究工作仍存在一些局限性，针对海的例子中可能并不存在集合之间的可逆函数，必须量数据存储和处理所面临的数据总量超大规模、处使用注解描述世系.事实上基于注解的方法的应用理速度要求高和数据类型异质多样等难题，需要开范围要远远高于非注解的方法发支持高可扩展、深度处理的PB级以上分布式数数据世系可针对多种数据类型，包括关系型数据存储框架，同时需要研究适应数据布局分布的存据、XML数据和不确定数据等，自20世纪90年代储结构优化方法，以提高网络大数据存储和处理效以来，数据世系的研究取得很大的进展44，并且应率，降低系统建设成本，从而实现高效、高可用的网用到了多个领域之中.面对网络大数据，数据世系管络大数据分布式存储. 理的研究工作需关注以下几个方面]：(1)传统的 4.2数据高效索引数据管理下的数据世系的管理还有很多的工作亟待目前的主流查询索引技术是以Google公司的考虑，其中考察数据的起源和演化过程将是一个大 BigTable为代表的列簇式NoSQL数据库.Big Table 的挑战；(2)在网络环境下不确定性数据广泛存在， ?1994-2015 China Academic Journal Electronic Publishing House.All rights reserved.http://www.cnki.net

处理技术在支持大规模网络信息处理及应用等大数据计算应用方面还存在着很多不足．行存储（Ｒｏｗ－Ｓｔｏｒｅ）和列存储（Ｃｏｌｕｍｎ－Ｓｔｏｒｅ）是两种典型的数据库物理存储策略．行存储方式较为传统，它在磁盘中依次保存每条记录，比较适合事务操作；列存储方式垂直划分关系表，以列为单位存储数据，列存储还具有数据压缩（Ｃｏｍｐｒｅｓｓｉｏｎ）、延期物化（ＬａｔｅＭａｔｅｒｉａｌｉｚａｔｉｏｎ）、块循环（ＢｌｏｃｋＩｔｅｒａｔｉｏｎ）等特性［４２］．由于数据分析任务往往仅使用较少字段，因此列存储方式的效率更高．数据分析任务在大数据应用中更为常见，因此许多系统尽管无法完全实现列存储的所有特性，但也或多或少地借鉴了相关概念，包括ＢｉｇＴａｂｌｅ、ＨＢａｓｅ等［４３］．文献［４４］提出了行列混合式数据存储结构（ＲＣＦｉｌｅ）以解决海量数据快速加载、缩短查询响应时间、磁盘空间高效利用等问题（如图２所示）．ＲＣＦｉｌｅ融合了行存储和列存储的优点，通过行组划分降低数据加载开销，通过列数据压缩提高存储空间利用率．国际上应用最广泛的两大分布式数据分析系统Ｈｉｖｅ和Ｐｉｇ均集成了ＲＣＦｉｌｅ技术．ＲＣＦｉｌｅ已经成为分布式离线数据分析系统中数据存储结构的事实标准．图２ＲＣＦｉｌｅ数据存储结构示例［４４］分布式数据存储是网络大数据应用的一个重要环节．但目前的研究工作仍存在一些局限性．针对海量数据存储和处理所面临的数据总量超大规模、处理速度要求高和数据类型异质多样等难题，需要开发支持高可扩展、深度处理的ＰＢ级以上分布式数据存储框架，同时需要研究适应数据布局分布的存储结构优化方法，以提高网络大数据存储和处理效率，降低系统建设成本，从而实现高效、高可用的网络大数据分布式存储．４．２数据高效索引目前的主流查询索引技术是以Ｇｏｏｇｌｅ公司的ＢｉｇＴａｂｌｅ为代表的列簇式ＮｏＳＱＬ数据库．ＢｉｇＴａｂｌｅ提出了一种介于关系模型和Ｋｅｙ－Ｖａｌｕｅ对模型之间的新数据模型：ＯｒｄｅｒｅｄＴａｂｌｅ．ＯｒｄｅｒｅｄＴａｂｌｅ模型提供了稀疏的、分布式的、持久存储的、基于主键排序的映射，数据由行、列和时间戳表示．ＢｉｇＴａｂｌｅ中表的Ｓｃｈｅｍｅ非常灵活，可以在运行时修改．ＯｒｄｅｒｅｄＴａｂｌｅ模型可以对基于主键的区间查询提供有力的支持，对于涉及多个字段数据的多维区间查询主要采用二级索引技术，但这引起了性能问题．为避免大量随机读，另一种思路是使用聚簇索引，即同时按索引顺序存储全部数据．为保证多个查询列均有很好的性能，需要按多个索引列聚簇，但这将导致存储开销成倍增长．此外还面临着因统计信息的缺失带来的新的挑战．关系数据库领域处理多个维度的查询优化时，关键是根据表的统计信息估算子查询的代价，比如通过记录数量、数据分布的直方图等估算结果集大小、需要读取的数据块数量等．文献［４５］提出的互补式聚簇索引（ＣＣＩｎｄｅｘ），利用多副本为每个索引列各创建一张互为补充的聚簇索引表，使得索引列上的区间查询对应聚簇索引表的连续扫描（如图３所示）．解决了ＮｏＳＱＬ数据库的二级索引技术因无法保持连续扫描特性而处理效率低下的问题．同时，结合查询结果集估算方法，以挑选最优查询计划．通过禁用底层存储系统的副本机制来避免引入额外的存储开销，并提供增量式的快速数据恢复机制．目前，ＣＣＩｎｄｅｘ技术已应用在淘宝的数据魔方中．４．３数据世系管理数据世系（ＤａｔａＰｒｏｖｅｎａｎｃｅ）［４６］包含了不同数据源间的数据演化过程和相同数据源内部数据的演化过程．数据世系一般有两类基本方法，非注解的方法和基于注解的方法．前者采用模式映射方式使用数据处理函数和其相对应的反向函数，但在更复杂的例子中可能并不存在集合之间的可逆函数，必须使用注解描述世系．事实上基于注解的方法的应用范围要远远高于非注解的方法．数据世系可针对多种数据类型，包括关系型数据、ＸＭＬ数据和不确定数据等．自２０世纪９０年代以来，数据世系的研究取得很大的进展［４７－４８］，并且应用到了多个领域之中．面对网络大数据，数据世系管理的研究工作需关注以下几个方面［４９］：（１）传统的数据管理下的数据世系的管理还有很多的工作亟待考虑，其中考察数据的起源和演化过程将是一个大的挑战；（２）在网络环境下不确定性数据广泛存在，６期王元卓等：网络大数据：现状与展望１３１１

1132 计算机学报 2013年 Complemental Clustering Index Table(CCITO) CCIT2,key2=idx2+id+idx2Length id idx1 idx2 info key2 idx1 info 001 cpu n1 infol n100102cpu infol 002 mem n1 info2 h100202mem info2 003 net n3 info3 n200402cpu info4 004 cpu n2 n300302net info3 key2 idul id idxlidx2 雪x乙 CCITI,keyl=idx1+id+idx1Length Complemental Check Table,CCTo key2 idx2 info CCT2. replicated cpu00103 nl infol replicated Cpu00403 n2 infod mem00203 n1 info2 net00303n3 info3 CCTI. Primary key replicated Index column Data 图3互补聚簇索引表[ 并且具有多种多样的表现形式.数据的演化过程同量，以损失函数为优化目标，寻找在检索领域中常用时也伴随着数据不确定性的演化，可以利用数据的的评价准则下最好的排序函数，常见的排序学习算法世系追踪数据不确定性的来源和演化过程；(3)如可以分为逐点(Pointwise,如McRanktso])、逐对何解决异构世系标准的融合问题.大数据应用将涵 (Pairwise,如RankBoost[s)、RankNet'sz)和逐列盖更多的原本可能相互隔离的数据集合，如何将适 (Listwise,t如ListNettss]、AdaRanktst]、SVM-MAp]) 用不同标准的数据世系信息整合在一起是一个关键 3类方法.现有模型在处理用户需求相关性、多样性问题，和重要性等不同目标排序方面仍有不足，此外，社会媒体中需要关注数据的短文本特征、对简短关键 5网络大数据挖掘和社会计算词表达的深入理解和分析，掌握用户真实的查询意图56. 利用计算技术对网络大数据进行挖掘分析，发命名实体是现实世界中的具体或者抽象但具有现蕴含的知识，研究社会运行的规律与发展趋势，是特定意义的实体，从海量信息中获取其蕴含的内在挖掘网络大数据的深层价值和实现社会行为可计算知识，需要研究对命名实体、实体关系的挖掘.社会的主要途径.随着社会媒体的涌现，持续增长的用户媒体生成的海量网络数据中，实体类型趣来越多，力数据在规模和复杂性上都有着指数式的攀升，导致度越来越细，关系越来越繁杂.对于实体关系的挖传统的挖掘和计算方法在性能和效用上遇到了严重掘，研究人员提出了基于规则s刃和基于机器学习[] 的瓶颈，基于内容信息的数据挖掘和基于结构信息的方法.2007年，Getoor等提出统计关系学习是里的社会计算是目前网络大数据挖掘和社会计算领域程碑式的技术[6)，突破了传统统计模型对于研究对的研究热点. 象同类型、不相关的两个假设，可以更全面地表达领 5.1基于内容信息的数据挖掘域知识.目前，实体和关系的挖掘仍是网络数据挖掘语言是社会媒体最重要的表现形式，文本是社领域关注的研究问题，存在很多亟待解决的问题，例会媒体中用户表达信息的最重要的方式.基于内容如对新涌现出的实体的抽取与识别，挖掘结果的可信息的数据挖掘包括网络搜索技术与实体关联分析用性和可理解性，大规模高效知识库、本体库语义网等主要研究内容络的构建等社会媒体的出现为互联网信息搜索提出了新的 5.2基于结构信息的社会计算挑战，研究的热点从传统的海量数据抓取、索引结构社会网络是以社会媒体中的用户为节点，用户优化和用户查询分析等转移到了排序学习算法，专注间的关系为连边而构建的网络.它既是用户间社会于提高检索质量.排序学习模型将文档表示为特征向关系的反映，也是用户之间进行信息交互的载体，具 ?1994-2015 China Academic Journal Electronic Publishing House.All rights reserved.http://www.cnki.net

图３互补聚簇索引表［４５］并且具有多种多样的表现形式．数据的演化过程同时也伴随着数据不确定性的演化，可以利用数据的世系追踪数据不确定性的来源和演化过程；（３）如何解决异构世系标准的融合问题．大数据应用将涵盖更多的原本可能相互隔离的数据集合，如何将适用不同标准的数据世系信息整合在一起是一个关键问题．５网络大数据挖掘和社会计算利用计算技术对网络大数据进行挖掘分析，发现蕴含的知识，研究社会运行的规律与发展趋势，是挖掘网络大数据的深层价值和实现社会行为可计算的主要途径．随着社会媒体的涌现，持续增长的用户数据在规模和复杂性上都有着指数式的攀升，导致传统的挖掘和计算方法在性能和效用上遇到了严重的瓶颈．基于内容信息的数据挖掘和基于结构信息的社会计算是目前网络大数据挖掘和社会计算领域的研究热点．５．１基于内容信息的数据挖掘语言是社会媒体最重要的表现形式，文本是社会媒体中用户表达信息的最重要的方式．基于内容信息的数据挖掘包括网络搜索技术与实体关联分析等主要研究内容．社会媒体的出现为互联网信息搜索提出了新的挑战，研究的热点从传统的海量数据抓取、索引结构优化和用户查询分析等转移到了排序学习算法，专注于提高检索质量．排序学习模型将文档表示为特征向量，以损失函数为优化目标，寻找在检索领域中常用的评价准则下最好的排序函数，常见的排序学习算法可以分为逐点（Ｐｏｉｎｔｗｉｓｅ，如ＭｃＲａｎｋ［５０］）、逐对（Ｐａｉｒｗｉｓｅ，如ＲａｎｋＢｏｏｓｔ［５１］、ＲａｎｋＮｅｔ［５２］）和逐列（Ｌｉｓｔｗｉｓｅ，如ＬｉｓｔＮｅｔ［５３］、ＡｄａＲａｎｋ［５４］、ＳＶＭ－ＭＡＰ［５５］）３类方法．现有模型在处理用户需求相关性、多样性和重要性等不同目标排序方面仍有不足．此外，社会媒体中需要关注数据的短文本特征、对简短关键词表达的深入理解和分析，掌握用户真实的查询意图［５６］．命名实体是现实世界中的具体或者抽象但具有特定意义的实体，从海量信息中获取其蕴含的内在知识，需要研究对命名实体、实体关系的挖掘．社会媒体生成的海量网络数据中，实体类型越来越多，力度越来越细，关系越来越繁杂．对于实体关系的挖掘，研究人员提出了基于规则［５７］和基于机器学习［５８］的方法．２００７年，Ｇｅｔｏｏｒ等提出统计关系学习是里程碑式的技术［５９］，突破了传统统计模型对于研究对象同类型、不相关的两个假设，可以更全面地表达领域知识．目前，实体和关系的挖掘仍是网络数据挖掘领域关注的研究问题，存在很多亟待解决的问题，例如对新涌现出的实体的抽取与识别，挖掘结果的可用性和可理解性，大规模高效知识库、本体库语义网络的构建等．５．２基于结构信息的社会计算社会网络是以社会媒体中的用户为节点，用户间的关系为连边而构建的网络．它既是用户间社会关系的反映，也是用户之间进行信息交互的载体．具２３１１计算机学报２０１３年

6期王元卓等：网络大数据：现状与展望 1133 有关系的异质性、结构的多尺度性以及网络的动态演化性3方面特性.社会网络中个体因血缘关系或 6网络数据平台系统与应用兴趣爱好等因素而形成了连接紧密的圈子，这种内部关系紧密而对外关系相对稀疏的结构被称为社为了应对网络大数据的发展趋势，更好地为企区，社区结构是社会网络所普遍具有的结构特征，社业和个人提供数据分析的需求，亟需构建各类不同区结构的存在对于网络的高效搜索、网络演化、信息的网络大数据平台，支持用户对数据的多种需求.下扩散等具有重要意义.针对社区结构的研究可分为面我们从数据平台建设、基于数据平台的高端数据社区发现、社区结构演化等方面6]，分析以及网络大数据平台的应用3个角度总结相关社区发现[6)旨在识别出网络固有的社区结构，的内容. 按照节点间的连边关系把节点划分成若干节点组， 6.1网络大数据平台引擎建设使得节点内部的连边相对稠密，不同节点之间的连构建网络大数据平台就是要将不同渠道、不同边相对稀疏.Girvan和Newman2]提出分裂式层次来源、不同结构的数据进行有机的整合，与传统数据聚类方法，是一种自顶向下的社区分割过程；文平台不同的是，网络大数据海量的规模、多样的类献[63]提出模块度概念，采用一种被假定没有社区型、快速的流动和动态的体系以及巨大的价值是大结构的网络作为参照网络，对于一个给定的网络划数据平台构建需要重点考虑的几个因素.除此之外，分，通过对比原有网络和参照网络中处于该划分的数据的分类存储、数据平台的开放性、数据的智能处各个分量内部边的比例，给出一种度量网络划分质理以及数据平台与用户的交互都为网络大数据平台量的方法；对于重叠社区结构的研究，Palla等人[s) 的建设带来前所未有的挑战.网络大数据平台处理提出了一种基于完全子图渗流的社区发现方法，已的数据类型是多种多样的.根据数据类型的不同，网应用到生物、信息、社会等网络中：进一步，文献[65] 络大数据平台可以分为不同的类型，比如本体数据定义新的网络模块度，采用聚合式层次聚类的方式，平台、企业日常事务数据平台、流数据平台、电子商务提出了能够同时揭示网络层次重叠社区结构（如数据平台等等.目前这些平台的搭建已经具有了一些图4所示)的社区发现方法. 有代表性的工作.如Google公司的Freebase①、微软公司的Probase②s]、国内著名的中文信息结构 Scientists Physicists 库一知网(Hownet)③等.在商用数据平台方面， Department of Biological Physics IBM公司的Infosphere大数据分析平台④、天睿公司的Teradata统一数据环境⑤以及由国内天猫、阿 Mathematicians ,忆oomt *Zoom 里云、万网联合推出的国内首个电商云工作平台聚 Seientifi Family Community 石塔@是3个典型的数据平台， 6.2网络大数据下的高端数据分析一个优秀的综合大数据处理平台不但可以为企业的决策和个人的生活提供服务，甚至还可以为国图4层次重叠社区结构示意图s] 家政策的制定提供支持.首先，依托大数据平台，国社区演化是网络自身结构与在其上频繁发生的家可以分析各实体和产业之间的关联关系，从而了交互过程相互作用的结果，社区演化分析主要研究解行业发展的趋势，找到影响产业发展的关键性因社区随时间变化的情况，并分析导致这些变化的机素，统筹规划资金、人才、技术的良性流动与优化配制和原因，包括社区的形成、生长、缩减、合并、分裂置.其次，大数据平台可以为企业提供巨大的商业价和消亡等.在动态演化过程网络建模研究方面，值.企业分析人员可以分析多种多样的内容.譬如， Barabasi和Albertt]提出了著名的BA网络生成模分析顾客偏好及顾客群体，对群体进行细分并量体型，建立了网络微观机制和宏观拓扑结构特征的关联规律.文献[67]基于完全子图渗流社区发现方法研究 ① http://www.freebase.com/ 社区演化，得出了小社区稳定性是保证其存在的前提 http://research.microsoft.com/en-us/projects/probase/ ③ http://www.keenage.com/ 而大社区的动态性是存在的基础的结论.随着含时间 0 http://www.ibm.com/software/data/infosphere http://www.teradata.com.cn/ 数据的积累，关于社区演化的研究将会是一个热点. http://cloud.tmall.com/index.htm ?1994-2015 China Academic Journal Electronic Publishing House.All rights reserved.http://www.cnki.net

有关系的异质性、结构的多尺度性以及网络的动态演化性３方面特性．社会网络中个体因血缘关系或兴趣爱好等因素而形成了连接紧密的圈子，这种内部关系紧密而对外关系相对稀疏的结构被称为社区．社区结构是社会网络所普遍具有的结构特征，社区结构的存在对于网络的高效搜索、网络演化、信息扩散等具有重要意义．针对社区结构的研究可分为社区发现、社区结构演化等方面［６０］．社区发现［６１］旨在识别出网络固有的社区结构，按照节点间的连边关系把节点划分成若干节点组，使得节点内部的连边相对稠密，不同节点之间的连边相对稀疏．Ｇｉｒｖａｎ和Ｎｅｗｍａｎ［６２］提出分裂式层次聚类方法，是一种自顶向下的社区分割过程；文献［６３］提出模块度概念，采用一种被假定没有社区结构的网络作为参照网络，对于一个给定的网络划分，通过对比原有网络和参照网络中处于该划分的各个分量内部边的比例，给出一种度量网络划分质量的方法；对于重叠社区结构的研究，Ｐａｌｌａ等人［６４］提出了一种基于完全子图渗流的社区发现方法，已应用到生物、信息、社会等网络中；进一步，文献［６５］定义新的网络模块度，采用聚合式层次聚类的方式，提出了能够同时揭示网络层次重叠社区结构（如图４所示）的社区发现方法．图４层次重叠社区结构示意图［６５］社区演化是网络自身结构与在其上频繁发生的交互过程相互作用的结果．社区演化分析主要研究社区随时间变化的情况，并分析导致这些变化的机制和原因，包括社区的形成、生长、缩减、合并、分裂和消亡等．在动态演化过程网络建模研究方面，Ｂａｒａｂｓｉ和Ａｌｂｅｒｔ［６６］提出了著名的ＢＡ网络生成模型，建立了网络微观机制和宏观拓扑结构特征的关联规律．文献［６７］基于完全子图渗流社区发现方法研究社区演化，得出了小社区稳定性是保证其存在的前提而大社区的动态性是存在的基础的结论．随着含时间数据的积累，关于社区演化的研究将会是一个热点．６网络数据平台系统与应用为了应对网络大数据的发展趋势，更好地为企业和个人提供数据分析的需求，亟需构建各类不同的网络大数据平台，支持用户对数据的多种需求．下面我们从数据平台建设、基于数据平台的高端数据分析以及网络大数据平台的应用３个角度总结相关的内容．６．１网络大数据平台引擎建设构建网络大数据平台就是要将不同渠道、不同来源、不同结构的数据进行有机的整合．与传统数据平台不同的是，网络大数据海量的规模、多样的类型、快速的流动和动态的体系以及巨大的价值是大数据平台构建需要重点考虑的几个因素．除此之外，数据的分类存储、数据平台的开放性、数据的智能处理以及数据平台与用户的交互都为网络大数据平台的建设带来前所未有的挑战．网络大数据平台处理的数据类型是多种多样的．根据数据类型的不同，网络大数据平台可以分为不同的类型，比如本体数据平台、企业日常事务数据平台、流数据平台、电子商务数据平台等等．目前这些平台的搭建已经具有了一些有代表性的工作．如Ｇｏｏｇｌｅ公司的Ｆｒｅｅｂａｓｅ①、微软公司的Ｐｒｏｂａｓｅ②［６８］、国内著名的中文信息结构库———知网（Ｈｏｗｎｅｔ）③等．在商用数据平台方面，ＩＢＭ公司的Ｉｎｆｏｓｐｈｅｒｅ大数据分析平台④、天睿公司的Ｔｅｒａｄａｔａ统一数据环境⑤以及由国内天猫、阿里云、万网联合推出的国内首个电商云工作平台聚石塔⑥是３个典型的数据平台．６．２网络大数据下的高端数据分析一个优秀的综合大数据处理平台不但可以为企业的决策和个人的生活提供服务，甚至还可以为国家政策的制定提供支持．首先，依托大数据平台，国家可以分析各实体和产业之间的关联关系，从而了解行业发展的趋势，找到影响产业发展的关键性因素，统筹规划资金、人才、技术的良性流动与优化配置．其次，大数据平台可以为企业提供巨大的商业价值．企业分析人员可以分析多种多样的内容．譬如，分析顾客偏好及顾客群体，对群体进行细分并量体６期王元卓等：网络大数据：现状与展望３３１１ ① ② ③ ④ ⑤ ⑥ ｈｔｔｐ：／／ｗｗｗ．ｆｒｅｅｂａｓｅ．ｃｏｍ／ｈｔｔｐ：／／ｒｅｓｅａｒｃｈ．ｍｉｃｒｏｓｏｆｔ．ｃｏｍ／ｅｎ－ｕｓ／ｐｒｏｊｅｃｔｓ／ｐｒｏｂａｓｅ／ｈｔｔｐ：／／ｗｗｗ．ｋｅｅｎａｇｅ．ｃｏｍ／ｈｔｔｐ：／／ｗｗｗ．ｉｂｍ．ｃｏｍ／ｓｏｆｔｗａｒｅ／ｄａｔａ／ｉｎｆｏｓｐｈｅｒｅｈｔｔｐ：／／ｗｗｗ．ｔｅｒａｄａｔａ．ｃｏｍ．ｃｎ／ｈｔｔｐ：／／ｃｌｏｕｄ．ｔｍａｌｌ．ｃｏｍ／ｉｎｄｅｘ．ｈｔｍ

1134 计算机学报 2013年裁衣般地采取独特的行动：分析具有代表性的客户很多传统的数据分析与挖掘任务如检索、主题发现、群体，采取有针对性的营销策略，进行病毒式营销和语义和情感分析等变得异常困难，然而目前，人们对模式推广：运用大数据模拟实境，发掘新的需求和提网络大数据复杂性及其背后的物理意义缺乏理解，高投入的回报率，进行商业模式、产品和服务的创新对网络大数据的分布与协作关联等规律认识不足，等.再次，大数据平台还可以为个人的日常生活带来对大数据的复杂性和计算复杂性的内在联系缺乏深诸多便利.建立在大数据平台下的互联网产业，将刻理解，加上缺少面向领域的大数据处理知识，极大深加工的信息和数据主动推送给目标用户，便于地制约了人们对大数据高效计算模型和方法的设计用户结合自身喜好选择感兴趣的模式、产品和搭能力.有鉴于此，如何量化定义大数据复杂性的本质配方式.除此之外，用户还可以从大数据平台中获特征及其外在度量指标，进而研究网络数据复杂性取更有价值的知识，通过本体知识平台，用户可以的内在机理是个重要的研究问题，分析知识的来源、演化过程、分析知识间的因果关数据计算需要新模式与新范式.网络大数据的系、知识本身的歧义性和模糊性，更好地理解和关诸多突出特性使得传统的数据分析、数据挖掘、数据联知识. 处理的方式方法都不再适用.因此，面对网络大数 6.3网络大数据的应用据，我们需要有数据密集型计算的基本模式和新型网络大数据平台在舆情监控、模式和关键字搜的计算范式，需要提出数据计算的效率评估方法等索、数据工程、情报分析、市场营销、医药卫生等领域基本理论.由于数据体量太大，甚至有的数据本身就具有重要的应用.举例来说，大数据平台的出现在搜以分布式的形式存在，难以集中起来处理，因此对于索引擎中的应用是使得搜索引擎对数据的深入加工网络大数据的计算需要从中心化的、自顶向下的模和处理变成现实，能够更好地理解用户的搜索意图式转为去中心化的、自底向上、自组织的计算模式，用户可以不用自已去筛选信息，而是由搜索引擎根而且，网络大数据来自于数量众多的网络用户，由于据其搜索历史及个人偏好将有价值的信息呈现给用人为因素的随机性，网络大数据常常具有很高的噪户，又如，网络大数据平台催生了很多面向程序员与声，同时也富含着冗余数据、甚至是垃圾数据.因此，数据科学家的工具（如Karmasphere和Datameer), 面对网络大数据，去芜存精、化繁为简可能是必要的使得程序员将数据而非业务逻辑作为程序的主要实处理范式之一，另外，面对网络大数据将形成基于数体，编写出更简短的程序，更清晰地表达对数据所做据的智能，我们可能需要寻找类似“数据的体量十的处理.可以预见，大数据平台正在以一种前所未有简单的逻辑”的方法去解决复杂问题. 的方式改变着各行各业，对大数据平台的应用能够新型的T基础架构.网络大数据对于系统，不更好地帮助人们获取信息并对信息进行更高效地处管是存储系统、传输系统还是计算系统都提出了很理和应用多苛刻的要求，现有的数据中心技术很难满足网络大数据的需求，因此，需要考虑对整个T架构进行 7研究展望革命性的重构，而存储能力的增长远远赶不上数据的增长，因此设计最合理的分层存储架构，不仅满足当前在上述几个方向的研究工作都面临着网络 scale-up式的可扩展性，而且还能满足scale--out式大数据带来的新问题，也意味着每个方向都有不少的可扩展性，已成为IT系统的关键.在大数据时的挑战.展望未来，面对网络大数据，以下几个方面代，T系统需要从数据围着处理器转改变为处理能的研究将是问题的核心. 力围着数据转，将计算推送给数据，而不是将数据推网络大数据的复杂性度量.网络大数据使人们送给计算.此外，网络大数据平台（包括计算平台、传处理计算问题时获得了前所未有的大规模样本，但输平台、存储平台等)是网络大数据技术链条中的瓶同时网络大数据也呈现出前所未有的复杂特征，不颈，特别是网络大数据的高速传输，需要革命性的新得不面对更加复杂的数据对象，其典型的特性是类技术. 型和模式多样、关联关系繁杂、质量良莠不齐.网络数据的安全和隐私问题.数据有价值，有价值大数据内在的复杂性使得数据的感知、表达、理解和就可能产生争夺和侵害.只要有数据，就必然存在安计算等多个环节面临着巨大的挑战，导致了传统全全与隐私的问题，随着数据的增多，网络大数据面临量数据计算模式下时空维度上计算复杂度的激增，着重大的风险和威胁，需要遵守更多更合理的规定， ?1994-2015 China Academic Journal Electronic Publishing House.All rights reserved.http://www.cnki.net

裁衣般地采取独特的行动；分析具有代表性的客户群体，采取有针对性的营销策略，进行病毒式营销和模式推广；运用大数据模拟实境，发掘新的需求和提高投入的回报率，进行商业模式、产品和服务的创新等．再次，大数据平台还可以为个人的日常生活带来诸多便利．建立在大数据平台下的互联网产业，将深加工的信息和数据主动推送给目标用户，便于用户结合自身喜好选择感兴趣的模式、产品和搭配方式．除此之外，用户还可以从大数据平台中获取更有价值的知识．通过本体知识平台，用户可以分析知识的来源、演化过程、分析知识间的因果关系、知识本身的歧义性和模糊性，更好地理解和关联知识．６．３网络大数据的应用网络大数据平台在舆情监控、模式和关键字搜索、数据工程、情报分析、市场营销、医药卫生等领域具有重要的应用．举例来说，大数据平台的出现在搜索引擎中的应用是使得搜索引擎对数据的深入加工和处理变成现实，能够更好地理解用户的搜索意图．用户可以不用自己去筛选信息，而是由搜索引擎根据其搜索历史及个人偏好将有价值的信息呈现给用户．又如，网络大数据平台催生了很多面向程序员与数据科学家的工具（如Ｋａｒｍａｓｐｈｅｒｅ和Ｄａｔａｍｅｅｒ），使得程序员将数据而非业务逻辑作为程序的主要实体，编写出更简短的程序，更清晰地表达对数据所做的处理．可以预见，大数据平台正在以一种前所未有的方式改变着各行各业，对大数据平台的应用能够更好地帮助人们获取信息并对信息进行更高效地处理和应用．７研究展望当前在上述几个方向的研究工作都面临着网络大数据带来的新问题，也意味着每个方向都有不少的挑战．展望未来，面对网络大数据，以下几个方面的研究将是问题的核心．网络大数据的复杂性度量．网络大数据使人们处理计算问题时获得了前所未有的大规模样本，但同时网络大数据也呈现出前所未有的复杂特征，不得不面对更加复杂的数据对象，其典型的特性是类型和模式多样、关联关系繁杂、质量良莠不齐．网络大数据内在的复杂性使得数据的感知、表达、理解和计算等多个环节面临着巨大的挑战，导致了传统全量数据计算模式下时空维度上计算复杂度的激增，很多传统的数据分析与挖掘任务如检索、主题发现、语义和情感分析等变得异常困难．然而目前，人们对网络大数据复杂性及其背后的物理意义缺乏理解，对网络大数据的分布与协作关联等规律认识不足，对大数据的复杂性和计算复杂性的内在联系缺乏深刻理解，加上缺少面向领域的大数据处理知识，极大地制约了人们对大数据高效计算模型和方法的设计能力．有鉴于此，如何量化定义大数据复杂性的本质特征及其外在度量指标，进而研究网络数据复杂性的内在机理是个重要的研究问题．数据计算需要新模式与新范式．网络大数据的诸多突出特性使得传统的数据分析、数据挖掘、数据处理的方式方法都不再适用．因此，面对网络大数据，我们需要有数据密集型计算的基本模式和新型的计算范式，需要提出数据计算的效率评估方法等基本理论．由于数据体量太大，甚至有的数据本身就以分布式的形式存在，难以集中起来处理，因此对于网络大数据的计算需要从中心化的、自顶向下的模式转为去中心化的、自底向上、自组织的计算模式．而且，网络大数据来自于数量众多的网络用户．由于人为因素的随机性，网络大数据常常具有很高的噪声，同时也富含着冗余数据、甚至是垃圾数据．因此，面对网络大数据，去芜存精、化繁为简可能是必要的处理范式之一．另外，面对网络大数据将形成基于数据的智能，我们可能需要寻找类似“数据的体量＋简单的逻辑”的方法去解决复杂问题．新型的ＩＴ基础架构．网络大数据对于系统，不管是存储系统、传输系统还是计算系统都提出了很多苛刻的要求，现有的数据中心技术很难满足网络大数据的需求．因此，需要考虑对整个ＩＴ架构进行革命性的重构．而存储能力的增长远远赶不上数据的增长，因此设计最合理的分层存储架构，不仅满足ｓｃａｌｅ－ｕｐ式的可扩展性，而且还能满足ｓｃａｌｅ－ｏｕｔ式的可扩展性，已成为ＩＴ系统的关键．在大数据时代，ＩＴ系统需要从数据围着处理器转改变为处理能力围着数据转，将计算推送给数据，而不是将数据推送给计算．此外，网络大数据平台（包括计算平台、传输平台、存储平台等）是网络大数据技术链条中的瓶颈，特别是网络大数据的高速传输，需要革命性的新技术．数据的安全和隐私问题．数据有价值，有价值就可能产生争夺和侵害．只要有数据，就必然存在安全与隐私的问题．随着数据的增多，网络大数据面临着重大的风险和威胁，需要遵守更多更合理的规定，４３１１计算机学报２０１３年

点击下载完整版文档（PDF格式）

共14页，试读结束，阅读完整版请下载

点击下载（PDF格式）

浏览记录