正在加载图片...
1128 计算机学报 2013年 文信息和统计信息很少,给传统的文本挖掘(如检 仍然存在很多不足(如对一些长尾词的查询,对二义 索、主题发现、语义和情感分析等)带来很大的困难 性查询词的理解等),都有待进一步提高,另外,网络 相关的研究包括利用外部数据源(如Wikipedia[o)、 大数据通常是高维的,往往会带来数据高度稀疏与 搜索结果[)等)扩充文档,或者利用内部相似文档信 维度灾难等问题.在这种情况下,由于数据模式统计 息来扩充短文本的表达[侧.然而,无论是利用外部数 显著性较弱,以往的统计学习方法多针对高频数据 据,还是利用内部数据,都可能引入更多的噪声,另 挖掘模式,因此难以产生令人满意的效果.近年来, 一方面,不同数据类型的有机融合给传统的数据处 受实际应用驱动,高维稀疏问题成为了统计学习领 理方法带来了新的挑战.例如在社交媒体的研究当 域的热点问题)].相关理论研究发现,基于稀疏表 中地域信息与内容的融合[]、时空信息与内容信息 达的学习方法(如LASS)等),在获得较好学习效 的结合[1o等等. 果的同时,还具有更高的效率和鲁棒性) (2)数据结构的复杂性,传统上处理的数据对 2.2网络大数据的不确定性 象都是有结构的,能够存储到关系数据库中,但随着 不确定性使得网络数据难以被建模和学习,从 数据生成方式的多样化,如社交网络、移动计算和传 而难以有效利用其价值.网络数据的不确定性包括 感器等技术,非结构化数据成为大数据的主流形式, 数据本身的不确定性、模型的不确定性和学习的不 非结构化数据具有许多格式,包括文本、文档、图形、 确定性 视频等等.非结构化数据当中蕴含着丰富的知识,但 (1)数据的不确定性.原始数据的不准确以及 其异构和可变的性质也给数据分析与挖掘工作带来 数据采集处理粒度、应用需求与数据集成和展示等 了更大的挑战.与结构化的数据相比,非结构化数据 因素使得数据在不同维度、不同尺度上都有不同程 相对组织凌乱,包含更多的无用信息,给数据的存储 度的不确定性.传统侧重于准确性数据的处理方法, 与分析带来很大的困难.目前相关的研究热点,包括 难以应对海量、高维、多类型的不确定性数据.具体 开发非关系型数据库(如Google的BigTable,开源 而言,在数据的采集、存储、建模、查询、检索、挖掘等 的HBase等)来存储非结构化数据.Google提出了 方面都需要有新的方法来应对不确定性的挑战) MapReduce计算框架,Yahoo!、Facebook等公司在 近年来,概率统计的方法被逐步应用于不确定性数 此基础上实现了Hadoop、Hive之类的分布式架构, 据的处理中,一方面,数据的不确定性要求我们使用 对非结构化数据做基本的分析工作.国内各大公司 不确定的方法加以应对:另一方面,计算机硬件的发 和科研单位也启动了用于支撑非结构化处理的基础 展也为这类方法提供了效率、效能上的可能.日前, 设施研发,如百度的云计算平台、中国科学院计算技 该领域研究尚浅,在学术界和产业界尚有大量问题 术研究所的凌云(LingCloud)系统等. 亟待解决. (3)数据模式的复杂性.随着数据规模的增大, (2)模型的不确定性,数据的不确定性要求对 描述和刻画数据的特征必然随之增大,而由其组成 数据的处理方式能够提出新的模型方法,并能够把 的数据内在模式将会以指数形式增长.首先,数据类 握模型的表达能力与复杂程度之间的平衡.在对不 型的多样化决定了数据模式的多样化.不仅需要熟 确定数据的建模和系统设计上,最常用且朴素的观 悉各种类型的数据模式,同时也要善于把握它们之 点是“可能世界模型[).该观点认为,在一定的结 间的相互作用.这种面向多模式学习的研究需要综 构规范下,应将数据的每一种状态都加以刻画.但该 合利用各个方面的知识(如文本挖掘、图像处理、信 种模型过于复杂,难以用一种通用的模型结构来适 息网络、甚至社会学等等).为此,Sun提出用网络 应具体的应用需求.在实际应用中,我们往往采取简 来描述异质数据间的关系,同时提出了“元路径 化的模型刻画不确定性数据的特性,如独立性假设、 (Meta-Path)”的概率来刻画目标数据模式[叮.这 同分布假设等等.尤其值得注意的是,概率图模 样,通过定义合适的元路径,便可在数据网络中挖掘 型]由于具有很强的表达能力而且可对数据相关 有价值的模式.其次,非结构化的数据通常比结构化 性进行建模,因此已被广泛应用在不确定数据的建 数据蕴含更多的无用信息和噪声,网络数据需要高 模领域。另外,在数据的管理和挖掘上面,不确定性 效鲁棒的方法来实现去粗存精,去冗存真.搜索引擎 模型的构建应当考虑到数据的查询、检索、传输、展 就是从无结构化数据中检索出有用信息的一种工 示等方面的影响门 具,尽管搜索技术在工业上已经取得极大的成功,但 (3)学习的不确定性.数据模型通常都需要对 ?1994-2015 China Academic Journal Electronic Publishing House.All rights reserved.http://www.cnki.net文信息和统 计 信 息 很 少,给 传 统 的 文 本 挖 掘(如 检 索、主题发现、语义和情感分析等)带来很大的困难. 相关的研究包括利用 外 部 数 据 源(如 Wikipedia[6]、 搜索结果[7]等)扩充文档,或者利用内部相似文档信 息来扩充短文本的表达[8] .然而,无论是利用外部数 据,还是利用内部数据,都可能引入更多的噪声.另 一方面,不同数据类型的有机融合给传统的数据处 理方法带来了新的挑战.例如在社交媒体的研究当 中地域信息与内容的融合[9]、时空信息与内容信息 的结合[10]等等. (2)数据结构的复杂性.传 统 上 处 理 的 数 据 对 象都是有结构的,能够存储到关系数据库中.但随着 数据生成方式的多样化,如社交网络、移动计算和传 感器等技术,非结构化数据成为大数据的主流形式. 非结构化数据具有许多格式,包括文本、文档、图形、 视频等等.非结构化数据当中蕴含着丰富的知识,但 其异构和可变的性质也给数据分析与挖掘工作带来 了更大的挑战.与结构化的数据相比,非结构化数据 相对组织凌乱,包含更多的无用信息,给数据的存储 与分析带来很大的困难.目前相关的研究热点,包括 开发非关系型数据库(如 Google的 BigTable,开源 的 HBase等)来存储非结构化数据.Google提出了 MapReduce计算框架,Yahoo!、Facebook等公司在 此基础上实现了 Hadoop、Hive之类的分布式架构, 对非结构化数据做基本的分析工作.国内各大公司 和科研单位也启动了用于支撑非结构化处理的基础 设施研发,如百度的云计算平台、中国科学院计算技 术研究所的凌云(LingCloud)系统等. (3)数据模式的复杂性.随着数据规模的增大, 描述和刻画数据的特征必然随之增大,而由其组成 的数据内在模式将会以指数形式增长.首先,数据类 型的多样化决定了数据模式的多样化.不仅需要熟 悉各种类型的数据模式,同时也要善于把握它们之 间的相互作用.这种面向多模式学习的研究需要综 合利用各个方面的知识(如文本挖掘、图像处理、信 息网络、甚 至 社 会 学 等 等).为 此,Sun 提 出 用 网 络 来描述异质数据间 的关系,同 时 提 出 了 “元 路 径 (Meta-Path)”的 概 率 来 刻 画 目 标 数 据 模 式[11] .这 样,通过定义合适的元路径,便可在数据网络中挖掘 有价值的模式.其次,非结构化的数据通常比结构化 数据蕴含更多的无用信息和噪声,网络数据需要高 效鲁棒的方法来实现去粗存精,去冗存真.搜索引擎 就是从无结 构 化 数 据 中 检 索 出 有 用 信 息 的 一 种 工 具.尽管搜索技术在工业上已经取得极大的成功,但 仍然存在很多不足(如对一些长尾词的查询,对二义 性查询词的理解等),都有待进一步提高.另外,网络 大数据通常是高维的,往往会带来数据高度稀疏与 维度灾难等问题.在这种情况下,由于数据模式统计 显著性较弱,以往的统计学习方法多针对高频数据 挖掘模式,因此难以产生令人满意的效果.近年来, 受实际应用驱动,高维稀疏问题成为了统计学习领 域的热点问 题[12] .相 关 理 论 研 究 发 现,基 于 稀 疏 表 达的学习方 法(如 LASSO 等),在 获 得 较 好 学 习 效 果的同时,还具有更高的效率和鲁棒性[13] . 2.2 网络大数据的不确定性 不确定性使得网络数据难以被建模和学习,从 而难以有效利用其价值.网络数据的不确定性包括 数据本身的不确定性、模型的不确定性和学习的不 确定性. (1)数据 的 不 确 定 性.原 始 数 据 的 不 准 确 以 及 数据采集处理粒度、应用需求与数据集成和展示等 因素使得数据在不同维度、不同尺度上都有不同程 度的不确定性.传统侧重于准确性数据的处理方法, 难以应对海量、高维、多类型的不确定性数据.具体 而言,在数据的采集、存储、建模、查询、检索、挖掘等 方面都需要有新的方法来应对不确定性的挑战[14] . 近年来,概率统计的方法被逐步应用于不确定性数 据的处理中.一方面,数据的不确定性要求我们使用 不确定的方法加以应对;另一方面,计算机硬件的发 展也为这类方法提供了效率、效能上的可能.目前, 该领域研究尚浅,在学术界和产业界尚有大量问题 亟待解决. (2)模型 的 不 确 定 性.数 据 的 不 确 定 性 要 求 对 数据的处理方式能够提出新的模型方法,并能够把 握模型的表达能力与复杂程度之间的平衡.在对不 确定数据的建模和系统设计上,最常用且朴素的观 点是“可能 世 界 模 型”[15] .该 观 点 认 为,在 一 定 的 结 构规范下,应将数据的每一种状态都加以刻画.但该 种模型过于复杂,难以用一种通用的模型结构来适 应具体的应用需求.在实际应用中,我们往往采取简 化的模型刻画不确定性数据的特性,如独立性假设、 同分 布 假 设 等 等.尤 其 值 得 注 意 的 是,概 率 图 模 型[16]由于具有 很 强 的 表 达 能 力 而 且 可 对 数 据 相 关 性进行建模,因此已被广泛应用在不确定数据的建 模领域.另外,在数据的管理和挖掘上面,不确定性 模型的构建应当考虑到数据的查询、检索、传输、展 示等方面的影响[17] . (3)学习 的 不 确 定 性.数 据 模 型 通 常 都 需 要 对 8211 计 算 机 学 报 2013年
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有