忌编语 大数据时代到来 姜奇平 大数据( Big data)正构成我们明天的新大陆。那种一模一样的数据,与长相相同的麦当劳、铁锹 从2012年开始,我们将从大陆时代,移民进入一样,仍属于过去的时代 大数据时代 在真正的数据时代,网商将不再奔向数据趋同 麦肯锡公司提出的大数据时代到来的观点,引的淘宝商城,而将涌向提供个性化竞争力的AaaS 起了全球广泛的反响。多家机构认为,“大数据”(分析即服务, analytics-as-a- service),扑向 将会成为贯穿2012年的一条全新投资主线。 3V的怀抱。 作为特指的大数据,按EMC的界定,其中的 淘宝目前每天活跃数据量已经超过50TB,共 “大”是指大型数据集,一般在10TB规模左右;有4亿条产品讯息和2亿多名注册用户在上面活动 多用户把多个数据集放在一起,形成PB级的数据每天超过4000万人次访问。“大数据”的作用,就 量;同时这些数据来自多种数据源,以实时、迭代是把这些数据采集进数据仓库中,然后用分布式的 的方式来实现。IBM把大数据概括成了三个V,即技术框架( Hadoop),对非关系型数据进行异质 大量化( Volume)、多样化( Variety)和快速化性处理( NOSQL),通过数据分析与挖掘,发展 ( Velocity)。大数据通常与 Hadoop, NoSQL、数一对一的商业智能,从中产生让网商因小而美、不 据分析与挖据、数据仓库、商业智能以及开源云计再打价格战的企业和个人竞争力;让中国产生不再 算架构等诸多热点话题联系在一起 依靠“中国制造”,而转向“中国创造”的国家竞 作为泛指的大数据,则指向了定制化、差异争力。 化、个性化方向的竞争力。例如美国奥巴马总统委 大数据时代,还会使一些具有数据核心技术的 员会的科技顾问 Stephen Brobst所说:“过去3年企业面临新的机会。IBM希望提供端到端、整体的 里产生的数据量比以往4万年的数据量还要多,大大数据解决方案,机器人“沃森”在人机大战中获 数据时代的来临已经毋庸置疑。我们即将面临一场胜就是其中的成果。眼看已经不行的惠普,随着对 变革,新兴大数据将成为企业发展的当务之急,而数据分析仓库供应商 Vertica的收购,俨然有了追随 常规技术已经难以应对Pb级的大规模数据量。这一 Teradata的资本。只要愚蠢的投资人不再多事,就 变化所带来的挑战,是成功的企业在未来发展过程有可能咸鱼翻身。更不用说EMC占对了内存计算的 中必须要面对的。只有那些能够运用这些新数据型要津,抢得大数据和云计算的先机。几家欢乐几家 态的企业,方能打造可持续的重要竞争优势。 愁,就看数据有没有 我们原以为已经进入数据时代,其实真正的数 我个人以为,大数据并不像某些人说的,是云 据时代从2012年刚刚开始。标志性的区别就在于 计算之“后”的又一浪。而就是云计算本身。因为 以往的数据只是结构化的数据,是非个性化的数都是数据的大规模集聚与定制化分布的结合 据;而进入2012年,非结构化数据占有比例将达到 我们来到了一个人类新的分水岭,由此要把农 互联网整个数据量的75%以上,这意味着个性化数业文明的分散化,与工业文明的集中化,在大数据 据时代的到来。 中融为一体,集天地之精华,释放出无穷的能量, 异质性、个性化,这才是数据的真正本质。而达到信息时代的“光明顶”。M 6《互联网周f》2012.120 www.ciweek_com C1994-2012ChinaAcademicJournalElectronicPublishingHouse.Allrightsreservedhttp://www.cnki.net
6 《互联网周刊》2012.1.20 www.ciweek.com 总编寄语 大数据(Big data)正构成我们明天的新大陆。 从2012年开始,我们将从大陆时代,移民进入 大数据时代。 麦肯锡公司提出的大数据时代到来的观点,引 起了全球广泛的反响。多家机构认为,“大数据” 将会成为贯穿2012年的一条全新投资主线。 作为特指的大数据,按E M C的界定,其中的 “大”是指大型数据集,一般在10T B规模左右; 多用户把多个数据集放在一起,形成P B级的数据 量;同时这些数据来自多种数据源,以实时、迭代 的方式来实现。I BM把大数据概括成了三个V,即 大量化(Volume)、多样化(Variety)和快速化 (Velocity)。大数据通常与Hadoop、NoSQL、数 据分析与挖掘、数据仓库、商业智能以及开源云计 算架构等诸多热点话题联系在一起。 作为泛指的大数据,则指向了定制化、差异 化、个性化方向的竞争力。例如美国奥巴马总统委 员会的科技顾问Stephen Brobst所说:“过去3年 里产生的数据量比以往4万年的数据量还要多,大 数据时代的来临已经毋庸置疑。我们即将面临一场 变革,新兴大数据将成为企业发展的当务之急,而 常规技术已经难以应对P b级的大规模数据量。这一 变化所带来的挑战,是成功的企业在未来发展过程 中必须要面对的。只有那些能够运用这些新数据型 态的企业,方能打造可持续的重要竞争优势。” 我们原以为已经进入数据时代,其实真正的数 据时代从2012年刚刚开始。标志性的区别就在于, 以往的数据只是结构化的数据,是非个性化的数 据;而进入2012年,非结构化数据占有比例将达到 互联网整个数据量的75%以上,这意味着个性化数 据时代的到来。 异质性、个性化,这才是数据的真正本质。而 姜奇平 那种一模一样的数据,与长相相同的麦当劳、铁锹 一样,仍属于过去的时代。 在真正的数据时代,网商将不再奔向数据趋同 的淘宝商城,而将涌向提供个性化竞争力的A a a S (分析即服务,analytics-as-a-service),扑向 3V的怀抱。 淘宝目前每天活跃数据量已经超过50T B,共 有4亿条产品讯息和2亿多名注册用户在上面活动, 每天超过4000万人次访问。“大数据”的作用,就 是把这些数据采集进数据仓库中,然后用分布式的 技术框架(H a d o o p),对非关系型数据进行异质 性处理(N o S Q L),通过数据分析与挖掘,发展 一对一的商业智能,从中产生让网商因小而美、不 再打价格战的企业和个人竞争力;让中国产生不再 依靠“中国制造”,而转向“中国创造”的国家竞 争力。 大数据时代,还会使一些具有数据核心技术的 企业面临新的机会。IBM希望提供端到端、整体的 大数据解决方案,机器人“沃森”在人机大战中获 胜就是其中的成果。眼看已经不行的惠普,随着对 数据分析仓库供应商Vertica的收购,俨然有了追随 Teradata的资本。只要愚蠢的投资人不再多事,就 有可能咸鱼翻身。更不用说EMC占对了内存计算的 要津,抢得大数据和云计算的先机。几家欢乐几家 愁,就看数据有没有。 我个人以为,大数据并不像某些人说的,是云 计算之“后”的又一浪。而就是云计算本身。因为 都是数据的大规模集聚与定制化分布的结合。 我们来到了一个人类新的分水岭,由此要把农 业文明的分散化,与工业文明的集中化,在大数据 中融为一体,集天地之精华,释放出无穷的能量, 达到信息时代的“光明顶”。 大数据时代到来