文信息和统计信息很少，给传统的文本挖掘（如检索

点击下载：《社会科学研究方法》课程教学资源（阅读材料）计算机学报：网络大数据——现状与展望

正在加载图片...

1128 计算机学报 2013年文信息和统计信息很少，给传统的文本挖掘（如检仍然存在很多不足（如对一些长尾词的查询，对二义索、主题发现、语义和情感分析等)带来很大的困难性查询词的理解等)，都有待进一步提高，另外，网络相关的研究包括利用外部数据源（如Wikipedia[o)、大数据通常是高维的，往往会带来数据高度稀疏与搜索结果[)等)扩充文档，或者利用内部相似文档信维度灾难等问题.在这种情况下，由于数据模式统计息来扩充短文本的表达[侧.然而，无论是利用外部数显著性较弱，以往的统计学习方法多针对高频数据据，还是利用内部数据，都可能引入更多的噪声，另挖掘模式，因此难以产生令人满意的效果.近年来，一方面，不同数据类型的有机融合给传统的数据处受实际应用驱动，高维稀疏问题成为了统计学习领理方法带来了新的挑战.例如在社交媒体的研究当域的热点问题)].相关理论研究发现，基于稀疏表中地域信息与内容的融合[]、时空信息与内容信息达的学习方法（如LASS)等），在获得较好学习效的结合[1o等等. 果的同时，还具有更高的效率和鲁棒性) (2)数据结构的复杂性，传统上处理的数据对 2.2网络大数据的不确定性象都是有结构的，能够存储到关系数据库中，但随着不确定性使得网络数据难以被建模和学习，从数据生成方式的多样化，如社交网络、移动计算和传而难以有效利用其价值.网络数据的不确定性包括感器等技术，非结构化数据成为大数据的主流形式，数据本身的不确定性、模型的不确定性和学习的不非结构化数据具有许多格式，包括文本、文档、图形、确定性视频等等.非结构化数据当中蕴含着丰富的知识，但 (1)数据的不确定性.原始数据的不准确以及其异构和可变的性质也给数据分析与挖掘工作带来数据采集处理粒度、应用需求与数据集成和展示等了更大的挑战.与结构化的数据相比，非结构化数据因素使得数据在不同维度、不同尺度上都有不同程相对组织凌乱，包含更多的无用信息，给数据的存储度的不确定性.传统侧重于准确性数据的处理方法，与分析带来很大的困难.目前相关的研究热点，包括难以应对海量、高维、多类型的不确定性数据.具体开发非关系型数据库（如Google的BigTable,开源而言，在数据的采集、存储、建模、查询、检索、挖掘等的HBase等)来存储非结构化数据.Google提出了方面都需要有新的方法来应对不确定性的挑战) MapReduce计算框架，Yahoo!、Facebook等公司在近年来，概率统计的方法被逐步应用于不确定性数此基础上实现了Hadoop、Hive之类的分布式架构，据的处理中，一方面，数据的不确定性要求我们使用对非结构化数据做基本的分析工作.国内各大公司不确定的方法加以应对：另一方面，计算机硬件的发和科研单位也启动了用于支撑非结构化处理的基础展也为这类方法提供了效率、效能上的可能.日前，设施研发，如百度的云计算平台、中国科学院计算技该领域研究尚浅，在学术界和产业界尚有大量问题术研究所的凌云(LingCloud)系统等. 亟待解决. (3)数据模式的复杂性.随着数据规模的增大， (2)模型的不确定性，数据的不确定性要求对描述和刻画数据的特征必然随之增大，而由其组成数据的处理方式能够提出新的模型方法，并能够把的数据内在模式将会以指数形式增长.首先，数据类握模型的表达能力与复杂程度之间的平衡.在对不型的多样化决定了数据模式的多样化.不仅需要熟确定数据的建模和系统设计上，最常用且朴素的观悉各种类型的数据模式，同时也要善于把握它们之点是“可能世界模型[).该观点认为，在一定的结间的相互作用.这种面向多模式学习的研究需要综构规范下，应将数据的每一种状态都加以刻画.但该合利用各个方面的知识（如文本挖掘、图像处理、信种模型过于复杂，难以用一种通用的模型结构来适息网络、甚至社会学等等).为此，Sun提出用网络应具体的应用需求.在实际应用中，我们往往采取简来描述异质数据间的关系，同时提出了“元路径化的模型刻画不确定性数据的特性，如独立性假设、 (Meta-Path)”的概率来刻画目标数据模式[叮.这同分布假设等等.尤其值得注意的是，概率图模样，通过定义合适的元路径，便可在数据网络中挖掘型]由于具有很强的表达能力而且可对数据相关有价值的模式.其次，非结构化的数据通常比结构化性进行建模，因此已被广泛应用在不确定数据的建数据蕴含更多的无用信息和噪声，网络数据需要高模领域。另外，在数据的管理和挖掘上面，不确定性效鲁棒的方法来实现去粗存精，去冗存真.搜索引擎模型的构建应当考虑到数据的查询、检索、传输、展就是从无结构化数据中检索出有用信息的一种工示等方面的影响门具，尽管搜索技术在工业上已经取得极大的成功，但 (3)学习的不确定性.数据模型通常都需要对 ?1994-2015 China Academic Journal Electronic Publishing House.All rights reserved.http://www.cnki.net文信息和统计信息很少，给传统的文本挖掘（如检索、主题发现、语义和情感分析等）带来很大的困难．相关的研究包括利用外部数据源（如Ｗｉｋｉｐｅｄｉａ［６］、搜索结果［７］等）扩充文档，或者利用内部相似文档信息来扩充短文本的表达［８］．然而，无论是利用外部数据，还是利用内部数据，都可能引入更多的噪声．另一方面，不同数据类型的有机融合给传统的数据处理方法带来了新的挑战．例如在社交媒体的研究当中地域信息与内容的融合［９］、时空信息与内容信息的结合［１０］等等．（２）数据结构的复杂性．传统上处理的数据对象都是有结构的，能够存储到关系数据库中．但随着数据生成方式的多样化，如社交网络、移动计算和传感器等技术，非结构化数据成为大数据的主流形式．非结构化数据具有许多格式，包括文本、文档、图形、视频等等．非结构化数据当中蕴含着丰富的知识，但其异构和可变的性质也给数据分析与挖掘工作带来了更大的挑战．与结构化的数据相比，非结构化数据相对组织凌乱，包含更多的无用信息，给数据的存储与分析带来很大的困难．目前相关的研究热点，包括开发非关系型数据库（如Ｇｏｏｇｌｅ的ＢｉｇＴａｂｌｅ，开源的ＨＢａｓｅ等）来存储非结构化数据．Ｇｏｏｇｌｅ提出了ＭａｐＲｅｄｕｃｅ计算框架，Ｙａｈｏｏ！、Ｆａｃｅｂｏｏｋ等公司在此基础上实现了Ｈａｄｏｏｐ、Ｈｉｖｅ之类的分布式架构，对非结构化数据做基本的分析工作．国内各大公司和科研单位也启动了用于支撑非结构化处理的基础设施研发，如百度的云计算平台、中国科学院计算技术研究所的凌云（ＬｉｎｇＣｌｏｕｄ）系统等．（３）数据模式的复杂性．随着数据规模的增大，描述和刻画数据的特征必然随之增大，而由其组成的数据内在模式将会以指数形式增长．首先，数据类型的多样化决定了数据模式的多样化．不仅需要熟悉各种类型的数据模式，同时也要善于把握它们之间的相互作用．这种面向多模式学习的研究需要综合利用各个方面的知识（如文本挖掘、图像处理、信息网络、甚至社会学等等）．为此，Ｓｕｎ提出用网络来描述异质数据间的关系，同时提出了 “元路径（Ｍｅｔａ－Ｐａｔｈ）”的概率来刻画目标数据模式［１１］．这样，通过定义合适的元路径，便可在数据网络中挖掘有价值的模式．其次，非结构化的数据通常比结构化数据蕴含更多的无用信息和噪声，网络数据需要高效鲁棒的方法来实现去粗存精，去冗存真．搜索引擎就是从无结构化数据中检索出有用信息的一种工具．尽管搜索技术在工业上已经取得极大的成功，但仍然存在很多不足（如对一些长尾词的查询，对二义性查询词的理解等），都有待进一步提高．另外，网络大数据通常是高维的，往往会带来数据高度稀疏与维度灾难等问题．在这种情况下，由于数据模式统计显著性较弱，以往的统计学习方法多针对高频数据挖掘模式，因此难以产生令人满意的效果．近年来，受实际应用驱动，高维稀疏问题成为了统计学习领域的热点问题［１２］．相关理论研究发现，基于稀疏表达的学习方法（如ＬＡＳＳＯ等），在获得较好学习效果的同时，还具有更高的效率和鲁棒性［１３］．２．２网络大数据的不确定性不确定性使得网络数据难以被建模和学习，从而难以有效利用其价值．网络数据的不确定性包括数据本身的不确定性、模型的不确定性和学习的不确定性．（１）数据的不确定性．原始数据的不准确以及数据采集处理粒度、应用需求与数据集成和展示等因素使得数据在不同维度、不同尺度上都有不同程度的不确定性．传统侧重于准确性数据的处理方法，难以应对海量、高维、多类型的不确定性数据．具体而言，在数据的采集、存储、建模、查询、检索、挖掘等方面都需要有新的方法来应对不确定性的挑战［１４］．近年来，概率统计的方法被逐步应用于不确定性数据的处理中．一方面，数据的不确定性要求我们使用不确定的方法加以应对；另一方面，计算机硬件的发展也为这类方法提供了效率、效能上的可能．目前，该领域研究尚浅，在学术界和产业界尚有大量问题亟待解决．（２）模型的不确定性．数据的不确定性要求对数据的处理方式能够提出新的模型方法，并能够把握模型的表达能力与复杂程度之间的平衡．在对不确定数据的建模和系统设计上，最常用且朴素的观点是“可能世界模型”［１５］．该观点认为，在一定的结构规范下，应将数据的每一种状态都加以刻画．但该种模型过于复杂，难以用一种通用的模型结构来适应具体的应用需求．在实际应用中，我们往往采取简化的模型刻画不确定性数据的特性，如独立性假设、同分布假设等等．尤其值得注意的是，概率图模型［１６］由于具有很强的表达能力而且可对数据相关性进行建模，因此已被广泛应用在不确定数据的建模领域．另外，在数据的管理和挖掘上面，不确定性模型的构建应当考虑到数据的查询、检索、传输、展示等方面的影响［１７］．（３）学习的不确定性．数据模型通常都需要对８２１１计算机学报２０１３年

<<向上翻页向下翻页>>

点击下载：《社会科学研究方法》课程教学资源（阅读材料）计算机学报：网络大数据——现状与展望