正在加载图片...
生的背景和逻辑,大数据特征,大数据的可视化、大数据的分布式并行处理以 及大数据的工具软件。 第二节对金融大数据分析方法进行介绍,包括金融大数据的获取、金融大 数据的预处理以及金融大数据的关联分析。 第三节介绍机器学习原理,包括监督学习、无监督学习、半监督学习以及 强化学习。其中监督学习介绍了线性模型、决策树和随机森林、贝叶斯方法、 支撑向量机、人工神经网络和集成学习等,而无监督学习包括聚类方法、降维 方法、流形学习等 2.基本概念 大数据大数据技术监督学习非监督学习决策树支撑向量机人工神经 网络贝叶斯方法机器学习集成学习聚类降维流行学习半监督学习强化 学习 3.基本原理 (1)大数据是数据积累到一定阶段并成为知识经济体系中核心资源过程中 的一系列技术层面、资源层面以及思想层面的变革的总称,在技术层面体现为 数据存储、分析以及管理的创新和变革。 (2)大数据特征可以从5个不同视角米体现,分别是数据量、种类、价 值、速度和可靠性。这五个角度对应的英文分别是Volume、Variety、Value Velocity和Veracity,因此,大数据的特征可以称为“5v”特征。 (3)大数据技术除了考虑数据分析算法和模型外,还要考虑数据和数据分 析结果的展示(可视化)人、相关计算执行效率(分布式处理)以及算法模型的实 施(工具软件)。 (4)金融大数据的预处理包括数据统计描述、数据对象关系描述和数据准 备。数据统计描述有很多种,在大数据预处理中,最重要的是数据中心趋势判 断和数据离散趋势判断。数据中心趋势判断的方法包括均值、中位数等,数据 的离散趋势判断包括方差、极差和分位数等。数据对象关系描述主要是指数据 属性之间的关系,包括各种相关系数以及更复杂的信息论方法。数据准备是使 得用于分析的数据适合分析的模型和方法。 (5)所谓关联分析,就是发现大数据背景下对象之间的隐含关系以及相互 影响,从而确定是否存在一个或者多个事件的发生引发了另外一个或者多个反 应。 (6)所谓监督学习是从给定的训练数据集中学习出一个模型。当新的数据 到来时,人们可以将新数据输入到模型,然后得到结果。不同的行业可以根据 结果的意义进行决策。这里的模型一般是指己经获得明确参数的函数。 (7)无监督学习(unsupervised1 earning)是针对样木中没有标注数据 的情况,即只有特征而没有目标。从数学角度看,监督学习是为了获得一个条 件概率,而无监督学习则是获得一个无条件联合概率分布:从应用角度看,无 监督学习是通过对无标记训练数据的学习来揭示数据得内在性质和规律,为进10 生的背景和逻辑,大数据特征,大数据的可视化、大数据的分布式并行处理以 及大数据的工具软件。 第二节对金融大数据分析方法进行介绍,包括金融大数据的获取、金融大 数据的预处理以及金融大数据的关联分析。 第三节介绍机器学习原理,包括监督学习、无监督学习、半监督学习以及 强化学习。其中监督学习介绍了线性模型、决策树和随机森林、贝叶斯方法、 支撑向量机、人工神经网络和集成学习等,而无监督学习包括聚类方法、降维 方法、流形学习等 2.基本概念 大数据 大数据技术 监督学习 非监督学习 决策树 支撑向量机 人工神经 网络 贝叶斯方法 机器学习 集成学习 聚类 降维 流行学习 半监督学习 强化 学习 3.基本原理 (1)大数据是数据积累到一定阶段并成为知识经济体系中核心资源过程中 的一系列技术层面、资源层面以及思想层面的变革的总称,在技术层面体现为 数据存储、分析以及管理的创新和变革。 (2)大数据特征可以从 5 个不同视角来体现,分别是数据量、种类、价 值、速度和可靠性。这五个角度对应的英文分别是 Volume、Variety、Value、 Velocity 和 Veracity ,因此,大数据的特征可以称为“5V”特征。 (3)大数据技术除了考虑数据分析算法和模型外,还要考虑数据和数据分 析结果的展示(可视化)、相关计算执行效率(分布式处理)以及算法模型的实 施(工具软件)。 (4)金融大数据的预处理包括数据统计描述、数据对象关系描述和数据准 备。数据统计描述有很多种,在大数据预处理中,最重要的是数据中心趋势判 断和数据离散趋势判断。数据中心趋势判断的方法包括均值、中位数等,数据 的离散趋势判断包括方差、极差和分位数等。数据对象关系描述主要是指数据 属性之间的关系,包括各种相关系数以及更复杂的信息论方法。数据准备是使 得用于分析的数据适合分析的模型和方法。 (5)所谓关联分析,就是发现大数据背景下对象之间的隐含关系以及相互 影响,从而确定是否存在一个或者多个事件的发生引发了另外一个或者多个反 应。 (6)所谓监督学习是从给定的训练数据集中学习出一个模型。当新的数据 到来时,人们可以将新数据输入到模型,然后得到结果。不同的行业可以根据 结果的意义进行决策。这里的模型一般是指已经获得明确参数的函数。 (7)无监督学习(unsupervised learning)是针对样本中没有标注数据 的情况,即只有特征而没有目标。从数学角度看,监督学习是为了获得一个条 件概率,而无监督学习则是获得一个无条件联合概率分布;从应用角度看,无 监督学习是通过对无标记训练数据的学习来揭示数据得内在性质和规律,为进
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有