正在加载图片...
1134 计算机学报 2013年 裁衣般地采取独特的行动:分析具有代表性的客户 很多传统的数据分析与挖掘任务如检索、主题发现、 群体,采取有针对性的营销策略,进行病毒式营销和 语义和情感分析等变得异常困难,然而目前,人们对 模式推广:运用大数据模拟实境,发掘新的需求和提 网络大数据复杂性及其背后的物理意义缺乏理解, 高投入的回报率,进行商业模式、产品和服务的创新 对网络大数据的分布与协作关联等规律认识不足, 等.再次,大数据平台还可以为个人的日常生活带来 对大数据的复杂性和计算复杂性的内在联系缺乏深 诸多便利.建立在大数据平台下的互联网产业,将 刻理解,加上缺少面向领域的大数据处理知识,极大 深加工的信息和数据主动推送给目标用户,便于 地制约了人们对大数据高效计算模型和方法的设计 用户结合自身喜好选择感兴趣的模式、产品和搭 能力.有鉴于此,如何量化定义大数据复杂性的本质 配方式.除此之外,用户还可以从大数据平台中获 特征及其外在度量指标,进而研究网络数据复杂性 取更有价值的知识,通过本体知识平台,用户可以 的内在机理是个重要的研究问题, 分析知识的来源、演化过程、分析知识间的因果关 数据计算需要新模式与新范式.网络大数据的 系、知识本身的歧义性和模糊性,更好地理解和关 诸多突出特性使得传统的数据分析、数据挖掘、数据 联知识. 处理的方式方法都不再适用.因此,面对网络大数 6.3网络大数据的应用 据,我们需要有数据密集型计算的基本模式和新型 网络大数据平台在舆情监控、模式和关键字搜 的计算范式,需要提出数据计算的效率评估方法等 索、数据工程、情报分析、市场营销、医药卫生等领域 基本理论.由于数据体量太大,甚至有的数据本身就 具有重要的应用.举例来说,大数据平台的出现在搜 以分布式的形式存在,难以集中起来处理,因此对于 索引擎中的应用是使得搜索引擎对数据的深入加工 网络大数据的计算需要从中心化的、自顶向下的模 和处理变成现实,能够更好地理解用户的搜索意图 式转为去中心化的、自底向上、自组织的计算模式, 用户可以不用自已去筛选信息,而是由搜索引擎根 而且,网络大数据来自于数量众多的网络用户,由于 据其搜索历史及个人偏好将有价值的信息呈现给用 人为因素的随机性,网络大数据常常具有很高的噪 户,又如,网络大数据平台催生了很多面向程序员与 声,同时也富含着冗余数据、甚至是垃圾数据.因此, 数据科学家的工具(如Karmasphere和Datameer), 面对网络大数据,去芜存精、化繁为简可能是必要的 使得程序员将数据而非业务逻辑作为程序的主要实 处理范式之一,另外,面对网络大数据将形成基于数 体,编写出更简短的程序,更清晰地表达对数据所做 据的智能,我们可能需要寻找类似“数据的体量十 的处理.可以预见,大数据平台正在以一种前所未有 简单的逻辑”的方法去解决复杂问题. 的方式改变着各行各业,对大数据平台的应用能够 新型的T基础架构.网络大数据对于系统,不 更好地帮助人们获取信息并对信息进行更高效地处 管是存储系统、传输系统还是计算系统都提出了很 理和应用 多苛刻的要求,现有的数据中心技术很难满足网络 大数据的需求,因此,需要考虑对整个T架构进行 7研究展望 革命性的重构,而存储能力的增长远远赶不上数据 的增长,因此设计最合理的分层存储架构,不仅满足 当前在上述几个方向的研究工作都面临着网络 scale-up式的可扩展性,而且还能满足scale--out式 大数据带来的新问题,也意味着每个方向都有不少 的可扩展性,已成为IT系统的关键.在大数据时 的挑战.展望未来,面对网络大数据,以下几个方面 代,T系统需要从数据围着处理器转改变为处理能 的研究将是问题的核心. 力围着数据转,将计算推送给数据,而不是将数据推 网络大数据的复杂性度量.网络大数据使人们 送给计算.此外,网络大数据平台(包括计算平台、传 处理计算问题时获得了前所未有的大规模样本,但 输平台、存储平台等)是网络大数据技术链条中的瓶 同时网络大数据也呈现出前所未有的复杂特征,不 颈,特别是网络大数据的高速传输,需要革命性的新 得不面对更加复杂的数据对象,其典型的特性是类 技术. 型和模式多样、关联关系繁杂、质量良莠不齐.网络 数据的安全和隐私问题.数据有价值,有价值 大数据内在的复杂性使得数据的感知、表达、理解和 就可能产生争夺和侵害.只要有数据,就必然存在安 计算等多个环节面临着巨大的挑战,导致了传统全 全与隐私的问题,随着数据的增多,网络大数据面临 量数据计算模式下时空维度上计算复杂度的激增, 着重大的风险和威胁,需要遵守更多更合理的规定, ?1994-2015 China Academic Journal Electronic Publishing House.All rights reserved.http://www.cnki.net裁衣般地采取独特的行动;分析具有代表性的客户 群体,采取有针对性的营销策略,进行病毒式营销和 模式推广;运用大数据模拟实境,发掘新的需求和提 高投入的回报率,进行商业模式、产品和服务的创新 等.再次,大数据平台还可以为个人的日常生活带来 诸多便利.建立 在 大 数 据 平 台 下 的 互 联 网 产 业,将 深加工的信息和数据主动推送给目 标用户,便 于 用户结合自身喜好选择感兴趣的模式、产 品 和 搭 配方式.除此之外,用 户 还 可 以 从 大 数 据 平 台 中 获 取更有价值的知 识.通 过 本 体 知 识 平 台,用 户 可 以 分析知识的来源、演 化 过 程、分 析 知 识 间 的 因 果 关 系、知识本身的歧 义 性 和 模 糊 性,更 好 地 理 解 和 关 联知识. 6.3 网络大数据的应用 网络大数据平台在舆情监控、模式和关键字搜 索、数据工程、情报分析、市场营销、医药卫生等领域 具有重要的应用.举例来说,大数据平台的出现在搜 索引擎中的应用是使得搜索引擎对数据的深入加工 和处理变成现实,能够更好地理解用户的搜索意图. 用户可以不用自己去筛选信息,而是由搜索引擎根 据其搜索历史及个人偏好将有价值的信息呈现给用 户.又如,网络大数据平台催生了很多面向程序员与 数据科学家的工具(如 Karmasphere和 Datameer), 使得程序员将数据而非业务逻辑作为程序的主要实 体,编写出更简短的程序,更清晰地表达对数据所做 的处理.可以预见,大数据平台正在以一种前所未有 的方式改变着各行各业,对大数据平台的应用能够 更好地帮助人们获取信息并对信息进行更高效地处 理和应用. 7 研究展望 当前在上述几个方向的研究工作都面临着网络 大数据带来的新问题,也意味着每个方向都有不少 的挑战.展望未来,面对网络大数据,以下几个方面 的研究将是问题的核心. 网络大数据的复杂性度量.网络大数据使人们 处理计算问题时获得了前所未有的大规模样本,但 同时网络大数据也呈现出前所未有的复杂特征,不 得不面对更加复杂的数据对象,其典型的特性是类 型和模式多样、关联关系繁杂、质量良莠不齐.网络 大数据内在的复杂性使得数据的感知、表达、理解和 计算等多个环节面临着巨大的挑战,导致了传统全 量数据计算模式下时空维度上计算复杂度的激增, 很多传统的数据分析与挖掘任务如检索、主题发现、 语义和情感分析等变得异常困难.然而目前,人们对 网络大数据复杂性及其背后的物理意义缺乏理解, 对网络大数据的分布与协作关联等规律认识不足, 对大数据的复杂性和计算复杂性的内在联系缺乏深 刻理解,加上缺少面向领域的大数据处理知识,极大 地制约了人们对大数据高效计算模型和方法的设计 能力.有鉴于此,如何量化定义大数据复杂性的本质 特征及其外在度量指标,进而研究网络数据复杂性 的内在机理是个重要的研究问题. 数据计算需要新模式与新范式.网络大数据的 诸多突出特性使得传统的数据分析、数据挖掘、数据 处理的方式 方 法 都 不 再 适 用.因 此,面 对 网 络 大 数 据,我们需要有数据密集型计算的基本模式和新型 的计算范式,需要提出数据计算的效率评估方法等 基本理论.由于数据体量太大,甚至有的数据本身就 以分布式的形式存在,难以集中起来处理,因此对于 网络大数据的计算需要从中心化的、自顶向下的模 式转为去中心化的、自底向上、自组织的计算模式. 而且,网络大数据来自于数量众多的网络用户.由于 人为因素的随机性,网络大数据常常具有很高的噪 声,同时也富含着冗余数据、甚至是垃圾数据.因此, 面对网络大数据,去芜存精、化繁为简可能是必要的 处理范式之一.另外,面对网络大数据将形成基于数 据的智能,我们可能需要寻找类 似“数 据 的 体 量+ 简单的逻辑”的方法去解决复杂问题. 新型的IT基础架构.网络大数据对于系统,不 管是存储系统、传输系统还是计算系统都提出了很 多苛刻的要求,现有的数据中心技术很难满足网络 大数据的需求.因此,需要考虑对整个IT 架构进行 革命性的重构.而存储能力的增长远远赶不上数据 的增长,因此设计最合理的分层存储架构,不仅满足 scale-up式的可扩展性,而且还能满足scale-out式 的可扩 展 性,已 成 为IT 系 统 的 关 键.在 大 数 据 时 代,IT 系统需要从数据围着处理器转改变为处理能 力围着数据转,将计算推送给数据,而不是将数据推 送给计算.此外,网络大数据平台(包括计算平台、传 输平台、存储平台等)是网络大数据技术链条中的瓶 颈,特别是网络大数据的高速传输,需要革命性的新 技术. 数据的安全 和 隐 私 问 题.数 据 有 价 值,有 价 值 就可能产生争夺和侵害.只要有数据,就必然存在安 全与隐私的问题.随着数据的增多,网络大数据面临 着重大的风险和威胁,需要遵守更多更合理的规定, 4311 计 算 机 学 报 2013年
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有