正在加载图片...
包括所有格式的办公文档、文本、图片、ⅫM、HTML、各类报表、图像和音 频、视频信息等数据。 4、常用的大数据获取途径 (1)系统日志采集 可以使用海量数据采集工具,用于系统日志采集,如 Hadoop的 Chukwa Cloudera的 Flume、 Facebook的 Scribe等,这些工具均采用分布式架构,能满 足大数据的日志数据采集和传输需求。 (2)互联网数据采集 通过网络爬虫或网站公开API等方式从网站上获取数据信息,该方法可以数 据从网页中抽取出来,将其存储为统一的本地数据文件,它支持图片、音频、视 频等文件或附件的采集,附件与正文可以自动关联。除了网站中包含的内容之外, 还可以使用DPI或DFⅠ等带宽管理技术实现对网络流量的采集。 (3)APP移动端数据采集 APP是获取用户移动端数据的一种有效方法,APP中的SDK插件可以将用户 使用APP的信息汇总给指定服务器,即便用户在没有访问时,也能获知用户终端 的相关信息,包括安装应用的数量和类型等。单个APP用户规模有限,数据量有 限;但数十万APP用户,获取的用户终端数据和部分行为数据也会达到数亿的量 (4)与数据服务机构进行合作 数据服务机构通常具备规范的数据共享和交易渠道,人们可以在平台上快速 明确地获取自己所需要的数据。而对于企业生产经营数据或学科研究数据等保密 性要求较高的数据,也可以通过与企业或研究机构合作,使用特定系统接口等相 关方式采集数据。 2大数据的关键技术 为了高效实时地处理巨大的数据问题,大数据技术的发展应运而生。所谓大 数据技术,即针对数据集合来进行一系列收集、存储、管理、处理、分析、共享 和可视化等操作的技术。目前,大数据技术涉及大数据釆集、大数据存储与管理 大数据计算模式与系统、大数据分析与挖掘和大数据隐私与安全等方面 2.1大数据采集技术 大数据具有规模大和数据源多样化等特点,为获取高质量数据,可将大数据 釆集过程分为数据清洗、数据转换和数据集成3个环节。数据清洗是指通过检测 除去数据中的明显错误和不一致来达到减少人工干预和用户编程量的目的;数据 转换是指按照已经设计好的规则对清洗后的数据进行转换来达到统一异构数据 格式的目的;数据集成是指为后继流程提供统一且高质量的数据集合来达到解决 “信息孤岛”现象的目的。包括所有格式的办公文档、文本、图片、XML、HTML、各类报表、图像和音 频、视频信息等数据。 4、常用的大数据获取途径 (1)系统日志采集 可以使用海量数据采集工具,用于系统日志采集,如 Hadoop 的 Chukwa、 Cloudera 的 Flume、Facebook 的 Scribe 等,这些工具均采用分布式架构,能满 足大数据的日志数据采集和传输需求。 (2)互联网数据采集 通过网络爬虫或网站公开 API 等方式从网站上获取数据信息,该方法可以数 据从网页中抽取出来,将其存储为统一的本地数据文件,它支持图片、音频、视 频等文件或附件的采集,附件与正文可以自动关联。除了网站中包含的内容之外, 还可以使用 DPI 或 DFI 等带宽管理技术实现对网络流量的采集。 (3)APP 移动端数据采集 APP 是获取用户移动端数据的一种有效方法,APP 中的 SDK 插件可以将用户 使用 APP 的信息汇总给指定服务器,即便用户在没有访问时,也能获知用户终端 的相关信息,包括安装应用的数量和类型等。单个 APP 用户规模有限,数据量有 限;但数十万 APP 用户,获取的用户终端数据和部分行为数据也会达到数亿的量 级。 (4)与数据服务机构进行合作 数据服务机构通常具备规范的数据共享和交易渠道,人们可以在平台上快速、 明确地获取自己所需要的数据。而对于企业生产经营数据或学科研究数据等保密 性要求较高的数据,也可以通过与企业或研究机构合作,使用特定系统接口等相 关方式采集数据。 2 大数据的关键技术 为了高效实时地处理巨大的数据问题,大数据技术的发展应运而生。所谓大 数据技术,即针对数据集合来进行一系列收集、存储、管理、处理、分析、共享 和可视化等操作的技术。目前,大数据技术涉及大数据采集、大数据存储与管理、 大数据计算模式与系统、大数据分析与挖掘和大数据隐私与安全等方面。 2.1 大数据采集技术 大数据具有规模大和数据源多样化等特点,为获取高质量数据,可将大数据 采集过程分为数据清洗、数据转换和数据集成3个环节。数据清洗是指通过检测 除去数据中的明显错误和不一致来达到减少人工干预和用户编程量的目的;数据 转换是指按照已经设计好的规则对清洗后的数据进行转换来达到统一异构数据 格式的目的;数据集成是指为后继流程提供统一且高质量的数据集合来达到解决 “信息孤岛”现象的目的
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有