数据挖掘实用案例分析 指掘第6章卷积神经网络在音频质量 实用案例分析 评价领域的应用 复旦大学赵卫东博士 0ta间g wdzhao@fudan.edu.cn dicta
数据挖掘实用案例分析 第6章 卷积神经网络在音频质量 评价领域的应用 复旦大学 赵卫东 博士 wdzhao@fudan.edu.cn
章节介绍 深度学习是机器学习的一个重要分支,是目前数据科学领域中比较热门的 研究方向,其起源于神经网络,随着近几年计算能力的提升和大数据的快 速应用逐渐发展起来,人工智能领域的很多应用都采用了深度学习相关的 理论和技术,特别是在自然语言处理、计算机视觉、图像识别、场景分类 等方面成果显著。人工智能的应用获得大众普遍关注后,深度学习相关技 术已成为数据分析人员的必修目标之一。本章主要从深度学习的理论基础 发展历程、常用算法等几个方面对其进行介绍,并结合案例说明其在音 频质量评价方面的应用
章节介绍 • 深度学习是机器学习的一个重要分支,是目前数据科学领域中比较热门的 研究方向,其起源于神经网络,随着近几年计算能力的提升和大数据的快 速应用逐渐发展起来,人工智能领域的很多应用都采用了深度学习相关的 理论和技术,特别是在自然语言处理、计算机视觉、图像识别、场景分类 等方面成果显著。人工智能的应用获得大众普遍关注后,深度学习相关技 术已成为数据分析人员的必修目标之一。本章主要从深度学习的理论基础 、发展历程、常用算法等几个方面对其进行介绍,并结合案例说明其在音 频质量评价方面的应用
章节结构 深度学习基础 深度学习的发展过程 深度学习常用技术框架 常用深度学习算法 音频质量评价 音频样本及特征预处理 音频特征选择 卷积神经网络模型训练 模型参数调优 性能验证
章节结构 • 深度学习基础 – 深度学习的发展过程 – 深度学习常用技术框架 – 常用深度学习算法 • 音频质量评价 – 音频样本及特征预处理 – 音频特征选择 – 卷积神经网络模型训练 • 模型参数调优 • 性能验证
深度学习基础 基于反向传播算法( Back Propagation,BP)的传统人工神经网络是一种浅层 学习模型由于运算能力的限制,往往只有输入层、隐含层、输出层,容易 产生过拟合,泛化能力较差。深度学习的基本思想是通过使用多个层,某 层作为下一层的输入,来实现对输入信息的分级表达,这参考了人类的 分层处理系统,可以让机器自动地学习有用的特征,采用多层神经网络的 结构来抽象特征,从而发现更多的数据分布特点 深度学习的目标是模拟人类大脑进行学习,通过多个层对特征进行学习, 特征表示的粒度要具有一定的结构性,不仅在横向的维度中具有关联,而 且要在纵向抽象时具有意乂,从特征的稀疏编码逐渐迭代抽象,复杂度和 抽象度逐层递增,而抽象的层次越高,其类别越少,也就更易于区分。可 以说,深度学习就是一种非监督式特征学习的过程
深度学习基础 • 基于反向传播算法( Back Propagation,BP)的传统人工神经网络是一种浅层 学习模型由于运算能力的限制,往往只有输入层、隐含层、输出层,容易 产生过拟合,泛化能力较差。深度学习的基本思想是通过使用多个层,某 一层作为下一层的输入,来实现对输入信息的分级表达,这参考了人类的 分层处理系统,可以让机器自动地学习有用的特征,采用多层神经网络的 结构来抽象特征,从而发现更多的数据分布特点 • 深度学习的目标是模拟人类大脑进行学习,通过多个层对特征进行学习, 特征表示的粒度要具有一定的结构性,不仅在横向的维度中具有关联,而 且要在纵向抽象时具有意义,从特征的稀疏编码逐渐迭代抽象,复杂度和 抽象度逐层递增,而抽象的层次越高,其类别越少,也就更易于区分。可 以说,深度学习就是一种非监督式特征学习的过程
深度学习基础 ·深度学习的训练过程是按照分层训练的机制,自底向上进行非监督特征学 习,获得各层的参数,也可以认为是对相应特征进行学习的过程。当然, 其偏差也会逐层传递。在达到最顶层之后对比结果标签,对误差自顶向下 逐层传输,进行有监督学习,对各层中的参数进行微调,通过多次选代调 整,使整个网络的参数具有较好的区分效果
深度学习基础 • 深度学习的训练过程是按照分层训练的机制,自底向上进行非监督特征学 习,获得各层的参数,也可以认为是对相应特征进行学习的过程。当然, 其偏差也会逐层传递。在达到最顶层之后对比结果标签,对误差自顶向下 逐层传输,进行有监督学习,对各层中的参数进行微调,通过多次选代调 整,使整个网络的参数具有较好的区分效果
深度学习的发展过程 人工神经网络经过最近几十年的发展,从1943年心理学家 Mcculloch和数学 家Pitt参考生物神经元的结构发明了神经元模型之后,从单层神经网络到 两层网络,再到多层神经网络,随着层数的增加和激活函数的不断演变发 展,其非线性拟合能力不断加强。随着计算的运算能力和数据量几何级的 增长,以及更多训练模式的引入,神经网络在人工智能领域发挥着越来越 大的作用 日本的 Fukushima于1980年第一次提出基于感受野的模型 1998年,由 Lecun等人提出的 Lenet-5卷积神经网络模型用于对手写字母进 行文字识别,它是基于梯度的反向传播算法对模型进行训练,将感受野理 论应用于神经网络中
议程深度学习的发展过程 • 人工神经网络经过最近几十年的发展,从1943年心理学家 Mcculloch和数学 家 Pitts参考生物神经元的结构发明了神经元模型之后,从单层神经网络到 两层网络,再到多层神经网络,随着层数的增加和激活函数的不断演变发 展,其非线性拟合能力不断加强。随着计算的运算能力和数据量几何级的 增长,以及更多训练模式的引入,神经网络在人工智能领域发挥着越来越 大的作用 • 日本的 Fukushima于1980年第一次提出基于感受野的模型 • 1998年,由 Lecun等人提出的 Lenet-5卷积神经网络模型用于对手写字母进 行文字识别,它是基于梯度的反向传播算法对模型进行训练,将感受野理 论应用于神经网络中
深度学习的发展过程 2006年,多伦多大学的GE. Hinton等提出深度学习的概念。深度学习是一种 多层级的深层次网络结构的机器学习方法,主要是为了解决传统的神经网 络很容易收敛到局部最小值这一问题, Hinton提出使用无监督预训练的方 法优化网络权值的初值,再进行反向参数调整的方法来优化网络性能 ·2010年,深度学习项目首次获得来自美国国防部门DARA计划的资助,参 与方有美国NEC研究院、纽约大学和斯坦福大学 自2011年起,谷歌和微软研究院的语音识别方向研究专家先后采用深度神 经网络技术将语音识别的错误率降低20%~30%,这是长期以来语音识别研 究领域取得的重大突破 2012年,深度神经网络在图像识别应用方面也获得重大进展,在 Imagenet 评测问题中将原来的错误率降低了9% ·2012年6月, Andrew ng等对机器进行大量训练以后,使其学会自动识别猫 图像
议程深度学习的发展过程 • 2006年,多伦多大学的G.E. Hinton等提出深度学习的概念。深度学习是一种 多层级的深层次网络结构的机器学习方法,主要是为了解决传统的神经网 络很容易收敛到局部最小值这一问题, Hinton提出使用无监督预训练的方 法优化网络权值的初值,再进行反向参数调整的方法来优化网络性能 • 2010年,深度学习项目首次获得来自美国国防部门 DARPA计划的资助,参 与方有美国NEC研究院、纽约大学和斯坦福大学 • 自2011年起,谷歌和微软研究院的语音识别方向研究专家先后采用深度神 经网络技术将语音识别的错误率降低20%~30%,这是长期以来语音识别研 究领域取得的重大突破 • 2012年,深度神经网络在图像识别应用方面也获得重大进展,在 Imagenet 评测问题中将原来的错误率降低了9% • 2012年6月, Andrew NG等对机器进行大量训练以后,使其学会自动识别猫 的图像
深度学习的发展过程 2014年, lan goodfellow将生成对抗网络( Generative Adversarial Networks, GAN)引人深度学习领域 2016年,GAN热潮席卷A领域顶级会议,从CLR到NPS,大量高质量论文被 发表和探讨 2016年3月, google公司的 Alphago战胜韩国顶尖围棋棋手李石,2017年1月 4日,又以 Master为账号,在未公开身份的情况下,通过网上比赛战胜了中 韩日台的顶尖围棋手60多人,而 Alphago采用的神经网络技术中就包括了卷 积神经网络和生成对抗网络 卷积神经网络已经成为当前深度学习领域的热点,特别是在图像识别和模 式分类方面,其优势是共享权值的网络结构、局部感知(也称为稀疏连接), 降低神经网络的运算复杂度因为减少了权值的数量,并可以直接将图像作 为输入进行特征提取,避免了对图像的预处理和显式的特征提取,可以进 行同步学习。与之相关的是循环神经网络(RNN)、长短期记忆网络(LSTM)等
议程深度学习的发展过程 • 2014年,Ian Goodfellow将生成对抗网络( Generative Adversarial Networks, GAN)引人深度学习领域 • 2016年,GAN热潮席卷AI领域顶级会议,从lCLR到NIPS,大量高质量论文被 发表和探讨 • 2016年3月, google公司的 Alphago战胜韩国顶尖围棋棋手李石,2017年1月 4日,又以 Master为账号,在未公开身份的情况下,通过网上比赛战胜了中 韩日台的顶尖围棋手60多人,而 Alphago采用的神经网络技术中就包括了卷 积神经网络和生成对抗网络 • 卷积神经网络已经成为当前深度学习领域的热点,特别是在图像识别和模 式分类方面,其优势是共享权值的网络结构、局部感知(也称为稀疏连接), 降低神经网络的运算复杂度因为减少了权值的数量,并可以直接将图像作 为输入进行特征提取,避免了对图像的预处理和显式的特征提取,可以进 行同步学习。与之相关的是循环神经网络(RNN)、长短期记忆网络(LSTM)等
Torch Torch是用Lua语言编写的带AP的深度学习计算框架,支持机器学习算法, 其核心是以图层的方式定义网络,优点是包括了大量模块化的组件,可以 快速进行组合,并且具有较多训练好的模型,可以直接应用。此外, Torch 支持GPU加速,模型运算性能较强 Torch虽然功能强大,但其模型需要LuaJπ的支持,对开发者学习和应用集 成都具有定的障碍,文档方面的支持较弱,对商业支持较少,大部分时间 需要自己编写训练代码。目前最新的 Torch是由 Facebook在2017年1月正式 开放了 Python语言的AP支持,即 Py Torch,支持动态可变的输入和输出,有 助于RNN等方面的应用
议程Torch • Torch是用Lua语言编写的带API的深度学习计算框架,支持机器学习算法, 其核心是以图层的方式定义网络,优点是包括了大量模块化的组件,可以 快速进行组合,并且具有较多训练好的模型,可以直接应用。此外, Torch 支持GPU加速,模型运算性能较强 • Torch虽然功能强大,但其模型需要 LuaJIT的支持,对开发者学习和应用集 成都具有定的障碍,文档方面的支持较弱,对商业支持较少,大部分时间 需要自己编写训练代码。目前最新的 Torch是由 Facebook在2017年1月正式 开放了 Python语言的API支持,即PyTorch,支持动态可变的输入和输出,有 助于RNN等方面的应用
Tensorflow Tensorflow是用一个 Python APl编写的,通过C/C++引擎加速,由谷歌公司开 发并开源,影响力较大且社群用户数量多,对应的教程、资源、社区贡献 也较多,出现问题后更易査找解决方案。它不止用于深度学习,还支持强 化学习和其他算法的工具,与 Numpy等库组合使用可以实现强大的数据分 析能力,支持数据的并行运行和模型的并行运行,在数据展现方面,可以 使用 TensorBoard来对训练过程和结果按web方式进行可视化,只要在训练 过程中将各项参数值和结果记录于文件中即可 ·τ ensorflow的主要缺点是在性能上较 Torch等框架差一些,也比 Torch笨重 些,较难理解,其动态类型在大型项目中容易出错,不利于工具化,且不 提供商业支持
议程Tensorflow • TensorFlow是用一个 Python API编写的,通过C/C++引擎加速,由谷歌公司开 发并开源,影响力较大且社群用户数量多,对应的教程、资源、社区贡献 也较多,出现问题后更易查找解决方案。它不止用于深度学习,还支持强 化学习和其他算法的工具,与 Numpy等库组合使用可以实现强大的数据分 析能力,支持数据的并行运行和模型的并行运行,在数据展现方面,可以 使用 TensorBoard来对训练过程和结果按web方式进行可视化,只要在训练 过程中将各项参数值和结果记录于文件中即可 • Tensorflow的主要缺点是在性能上较 Torch等框架差一些,也比Torch笨重一 些,较难理解,其动态类型在大型项目中容易出错,不利于工具化,且不 提供商业支持