正在加载图片...
■大数据的研究现状与科学思考 的重要基石。 有B,或者反过来有B就一定有A。严格来 目前,研究web数据的学者以复杂网络讲,统计学无法检验逻辑上的因果关系 上的数据(信息)传播机理、搜索聚类、同步如,根据统计结果:可以说“吸烟的人群肺癌 和控制作为主要研究方向。最新的研究成发病率会比不吸烟的人群高几倍”,但统计 果表明",随机的 Scale-free网络不是一般的结果无法得出“吸烟致癌”的逻辑结论。统 “小世界”,而是“超小世界 rasmall it学的相关性有时可能会产生把结果当成 world”,规模为N的网络的最短路径的平原因的错觉。如,统计结果表明:下雨之前 均长度不是一般小世界的lnN而是lN。常见到燕子低飞,从时间先后看两者的关系 网络数据研究应发现网络数据产生、传播以可能得出燕子低飞是下雨的原因,而事实 及网络信息涌现的内在机制,还要研究隐藏上,将要下雨才是燕子低飞的原因。 在数据背后的社会学、心理学、经济学的机 也许正是因为统计方法不能致力于寻 理,同时利用这些机理研究互联网对政治、找真正的原因,才促使数据挖掘和大数据技 经济、文化、教育、科研的影响。基于大数据术在商业领域广泛流行。企业的目标是多 对复杂系统内在机理进行整体性的研究,也赚钱,只要从数据挖掘中发现某种措施与增 许将为研究复杂系统提供新的途径。从这加企业利润有较强的相关性,采取这种措施 种意义上看,数据科学是从整体上研究复杂就是了,不必深究为什么能增加利润,更不 系统的一门科学, 必发现其背后的内在规律和模型。一般而 发现 Scale-free网络的 Albert-Laszlo言,企业收集和处理大数据,不是按学者们 Bas教授在2012年1月的 Nature Phys经常描述的从数据到信息再到知识和智 is上发表一篇重要文章“ The network take-慧”的研究思路,而是走“从数据直接到价 orer。文章认为:20世纪是量子力学的世值”的捷径。Goge广告获得巨额收入经常 纪,从电子学到天文物理学,从核能到量子被引用作为大数据相关分析的成功案例,美 计算,都离不开量子力学:而到了21世纪,国Wred杂志主编 Chris Anderson在他的著 网络理论正在成为量子力学的可尊敬的后名文章“ The End of Theory”的结尾发间:“现 继,正在构建一个新的理论和算法的框架。在是时候问这一句了:科学能从谷歌那儿学 43大数据研究中的关联关系与因果关系到什么?7 大数据研究不同于传统的逻辑推理研 因果关系的研究曾引发了科学体系的 究,而是对数量巨大的数据做统计性的搜建立,近代科学体系获得的成就已经证明 索、比较、聚类、分类等分析归纳,因此继承科学是研究因果关系最重要的手段。相关 了统计科学的一些特点。统计学关注数据性研究是可以替代因果分析的科学新发展 的相关性或称关联性,所谓相关性”是指两还只是因果分析的补充,不同的学者有完全 个或两个以上变量的取值之间存在某种规不同的看法。我们都是从做平面几何证明 律性。“相关分析的目的是找出数据集里隐题开始进入科学大花园的,脑子里固有的逻 藏的相互关系网(关联网),一般用支持度、辑思维模式少不了因果分析,判断是否是真 可信度、兴趣度等参数反映相关性。两个数理也习惯看充分必要条件,对于大数据的关 据A和B有相关性,只有反映A和B在取值联分析蕴含的科学意义往往理解不深。对 时相互有影响并不能告诉我们有A就一定于简单封闭的系统,基于小数据的因果分析 中阉院院刊651 C1994-2013ChinaAcademicJournalElectronicPublishingHouse.Allrightsreservedhttp://www.cnki.net院刊 的重要基石。 目前,研究Web数据的学者以复杂网络 上的数据(信息)传播机理、搜索、聚类、同步 和控制作为主要研究方向。最新的研究成 果表明[4] ,随机的Scale-free 网络不是一般的 “ 小 世 界 ”,而 是“ 超 小 世 界(Ultrasmall world)”,规模为 N 的网络的最短路径的平 均长度不是一般小世界的 lnN 而是 lnlnN。 网络数据研究应发现网络数据产生、传播以 及网络信息涌现的内在机制,还要研究隐藏 在数据背后的社会学、心理学、经济学的机 理,同时利用这些机理研究互联网对政治、 经济、文化、教育、科研的影响。基于大数据 对复杂系统内在机理进行整体性的研究,也 许将为研究复杂系统提供新的途径。从这 种意义上看,数据科学是从整体上研究复杂 系统的一门科学。 发 现 Scale-free 网 络 的 Albert-László Barabási 教授在 2012 年 1 月的 Nature Phys⁃ ics 上发表一篇重要文章“The network take⁃ over”[3] 。文章认为:20世纪是量子力学的世 纪,从电子学到天文物理学,从核能到量子 计算,都离不开量子力学;而到了 21 世纪, 网络理论正在成为量子力学的可尊敬的后 继,正在构建一个新的理论和算法的框架。 4.3 大数据研究中的关联关系与因果关系 大数据研究不同于传统的逻辑推理研 究,而是对数量巨大的数据做统计性的搜 索、比较、聚类、分类等分析归纳,因此继承 了统计科学的一些特点。统计学关注数据 的相关性或称关联性,所谓“相关性”是指两 个或两个以上变量的取值之间存在某种规 律性。“相关分析”的目的是找出数据集里隐 藏的相互关系网(关联网),一般用支持度、 可信度、兴趣度等参数反映相关性。两个数 据A和B有相关性,只有反映A和B在取值 时相互有影响,并不能告诉我们有A就一定 有B,或者反过来有B就一定有A。严格来 讲,统计学无法检验逻辑上的因果关系。 如,根据统计结果:可以说“吸烟的人群肺癌 发病率会比不吸烟的人群高几倍”,但统计 结果无法得出“吸烟致癌”的逻辑结论。统 计学的相关性有时可能会产生把结果当成 原因的错觉。如,统计结果表明:下雨之前 常见到燕子低飞,从时间先后看两者的关系 可能得出燕子低飞是下雨的原因,而事实 上,将要下雨才是燕子低飞的原因。 也许正是因为统计方法不能致力于寻 找真正的原因,才促使数据挖掘和大数据技 术在商业领域广泛流行。企业的目标是多 赚钱,只要从数据挖掘中发现某种措施与增 加企业利润有较强的相关性,采取这种措施 就是了,不必深究为什么能增加利润,更不 必发现其背后的内在规律和模型。一般而 言,企业收集和处理大数据,不是按学者们 经常描述的“从数据到信息再到知识和智 慧”的研究思路,而是走“从数据直接到价 值”的捷径。Google广告获得巨额收入经常 被引用作为大数据相关分析的成功案例,美 国 Wired 杂志主编 Chris Anderson 在他的著 名文章“The End of Theory”的结尾发问:“现 在是时候问这一句了:科学能从谷歌那儿学 到什么?”[2] 。 因果关系的研究曾引发了科学体系的 建立,近代科学体系获得的成就已经证明, 科学是研究因果关系最重要的手段。相关 性研究是可以替代因果分析的科学新发展 还只是因果分析的补充,不同的学者有完全 不同的看法。我们都是从做平面几何证明 题开始进入科学大花园的,脑子里固有的逻 辑思维模式少不了因果分析,判断是否是真 理也习惯看充分必要条件,对于大数据的关 联分析蕴含的科学意义往往理解不深。对 于简单封闭的系统,基于小数据的因果分析 651 大数据的研究现状与科学思考
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有