正在加载图片...
网络新媒体技术 2012年 括存储、内存和CPU,造成机器成本和能耗不断提高。当前大部分数据分析与挖掘软件不具备TB级以上大 数据的复杂分析和建模能力。 随着对大数据价值认识的深入,大数据的典型特征又加入的一个价值( Value)维度,用以描述大数据的 价值。在现实应用中,数据量大的数据并不一定有很大的价值。例如,很多数据在没有有效整合之前,重要 的分析与挖掘无法开展,因此不具有很大的应用价值,而数据整合本身就是大数据的一大挑战。不能及时 有效处理分析的数据也没有很大的应用价值,如大量的视频数据,目前还没有有效分析和挖掘大量视频数 据的技术,很多应用还要靠人来监控 2.3大数据的价值 大量数据的生成和累积是信息化的必然结果。现代企业在采购、仓储、运输、产品设计、生产、销售和客 户服务等诸多环节都采集并积累了大量的供应商、服务提供商和客户的交易数据,生产和经营数据,产品研 发数据,财务及人力资源管理数据等,因此可以说现代企业是运营在数据之上,诸多生产和经营的决策问题 必须通过数据分析才能解决 麦肯锡的研究表明,随着消费者、企业和各经济部门充分发挥大数据的潜力,由大数据驱动的创新、生 产力提高、经济增长、以及新的竞争模式和价值取向变革的巨大浪潮将达到巅峰。与过去不同的是,随着 系列新技术趋势发展的加速和凝聚,大数据所带来的变化规模和范围已经达到新的拐点,将会迅速膨胀 比如,有效利用大数据可以提高健康护理的质量和效率,潜在为美国每年创造3千亿美元的价值,其中三分 之二是来自于降低健康护理的成本,相当于每年减少全国健康护理花费的8%。零售业充分利用大数据可 以提高运营效益60%。在欧洲发达国家,充分利用大数据提高政府管理效率,每年可以减少政府运营费用1 千亿欧元。相信未来大数据的产业规模将会至少以万亿美元来进行衡量,大数据将会给信息技术领域带来 个新的增长点。 大数据带来的潜在经济价值和社会价值巨大,但这些价值必须通过数据的有效整合、分析和挖掘才能 释放出来。数据的整合是建立数据仓库的必要工作,对于结构化数据的整合有很多解决方案和软件工具 目前的挑战是非结构化数据的融合和整合,如:文本数据、图像数据、信号数据、音频数据、视频数据等,由于 这方面的技术挑战较多,本文不作详细论述。下节针对大数据分析的科学问题和方法问题作一简要介绍。 3大数据分析的科学问题 f1 f2 f3 f4 f5 Thousands of features 数据分析与挖掘的数据基本表达形 1XYZX37 A N 2C V 54 C Y 式是对象一属性矩阵或表格,如图1所 示。其中每一行表达一个对象,如一个 客户。每一列表达对象的一个属性,如 Z C E09 客户的年龄或性别。整个属性的集合确 n-4xVsx口8……1Y 定了对象表达的维度,而行数代表对象 n-3XC口X口 C N 样本的个数。大多数数据分析和挖掘算 n-2DV Y68 法以对象一属性矩阵为输入数据格式, n-1X S VY 57 nZ S V X 0 对这些算法来讲,大数据的挑战具体体 现在对象一属性矩阵的属性数量和对象 Millions of bjects/ 数量都很大,使得这些算法难以处理或 records 得到的结果不满足应用要求。 图1对象一属性矩阵,口表示缺省值 1超高维问题 大数据带来的变化之一是对象的属 性越来越多,虽然表达对象的信息越来越丰富,但成千上万的属性也造成巨大的维度灾难( curse of dimer signality)。 与此同时,这种超高维数据也带来其他一些问题,如:复杂数据类型问题,噪声和缺省值问题,分布不平 o1994-2013CHinaAcademicJournalElectronicpUblishingHouse.Allrightsreservedhttp://www.cnki.net网 络 新 媒 体 技 术 2012 年 括存储、内存和 CPU,造成机器成本和能耗不断提高。当前大部分数据分析与挖掘软件不具备 TB 级以上大 数据的复杂分析和建模能力。 随着对大数据价值认识的深入,大数据的典型特征又加入的一个价值( Value) 维度,用以描述大数据的 价值。在现实应用中,数据量大的数据并不一定有很大的价值。例如,很多数据在没有有效整合之前,重要 的分析与挖掘无法开展,因此不具有很大的应用价值,而数据整合本身就是大数据的一大挑战。不能及时 有效处理分析的数据也没有很大的应用价值,如大量的视频数据,目前还没有有效分析和挖掘大量视频数 据的技术,很多应用还要靠人来监控。 2. 3 大数据的价值 大量数据的生成和累积是信息化的必然结果。现代企业在采购、仓储、运输、产品设计、生产、销售和客 户服务等诸多环节都采集并积累了大量的供应商、服务提供商和客户的交易数据,生产和经营数据,产品研 发数据,财务及人力资源管理数据等,因此可以说现代企业是运营在数据之上,诸多生产和经营的决策问题 必须通过数据分析才能解决。 麦肯锡的研究表明,随着消费者、企业和各经济部门充分发挥大数据的潜力,由大数据驱动的创新、生 产力提高、经济增长、以及新的竞争模式和价值取向变革的巨大浪潮将达到巅峰。与过去不同的是,随着一 系列新技术趋势发展的加速和凝聚,大数据所带来的变化规模和范围已经达到新的拐点,将会迅速膨胀。 比如,有效利用大数据可以提高健康护理的质量和效率,潜在为美国每年创造 3 千亿美元的价值,其中三分 之二是来自于降低健康护理的成本,相当于每年减少全国健康护理花费的 8% 。零售业充分利用大数据可 以提高运营效益 60% 。在欧洲发达国家,充分利用大数据提高政府管理效率,每年可以减少政府运营费用 1 千亿欧元。相信未来大数据的产业规模将会至少以万亿美元来进行衡量,大数据将会给信息技术领域带来 一个新的增长点。 大数据带来的潜在经济价值和社会价值巨大,但这些价值必须通过数据的有效整合、分析和挖掘才能 释放出来。数据的整合是建立数据仓库的必要工作,对于结构化数据的整合有很多解决方案和软件工具。 目前的挑战是非结构化数据的融合和整合,如: 文本数据、图像数据、信号数据、音频数据、视频数据等,由于 这方面的技术挑战较多,本文不作详细论述。下节针对大数据分析的科学问题和方法问题作一简要介绍。 图 1 对象 - 属性矩阵,□表示缺省值 3 大数据分析的科学问题 数据分析与挖掘的数据基本表达形 式是对象—属性矩阵或表格,如图 1 所 示。其中每一行表达一个对象,如一个 客户。每一列表达对象的一个属性,如 客户的年龄或性别。整个属性的集合确 定了对象表达的维度,而行数代表对象 样本的个数。大多数数据分析和挖掘算 法以对象—属性矩阵为输入数据格式, 对这些算法来讲,大数据的挑战具体体 现在对象—属性矩阵的属性数量和对象 数量都很大,使得这些算法难以处理或 得到的结果不满足应用要求。 3. 1 超高维问题 大数据带来的变化之一是对象的属 性越来越多,虽然表达对象的信息越来越丰富,但成千上万的属性也造成巨大的维度灾难( curse of dimen￾sionality) 。 与此同时,这种超高维数据也带来其他一些问题,如: 复杂数据类型问题,噪声和缺省值问题,分布不平 22
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有