第14卷第1期 智能系统学报 Vol.14 No.I 2019年1月 CAAI Transactions on Intelligent Systems Jan.2019 D0:10.11992/tis.201804009 网络出版地址:http:/kns.cnki.net/kcms/detail/23.1538.TP.20180930.0949.002.html 隐式特征和循环神经网络的多声部音乐生成系统 苗北辰',郭为安2,汪镭 (1.同济大学电子与信息工程学院,上海201804;2.同济大学中德学院,上海201804) 摘要:音乐生成是一种使用算法来生成音乐序列的研究。本文针对音乐样本特征提取以及自动作曲问题提 出了一种基于音乐隐式特征和循环神经网络(recurrent neural network,RNN)的多声部音乐生成算法。该方法通 过使用栈式自编码器对多声部音乐序列每个时间步的音符隐式特征进行提取,结合长短期记忆循环神经网络 (long short--term memory,LSTM),以序列预测的方式搭建了基于隐式特征的音乐生成模型。仿真结果表明,该音 乐生成算法在使用相同风格的音乐数据训练后,得到的模型可以生成旋律与和弦匹配较好的多声部音乐数据。 关键词:音乐生成:隐式特征提取;循环神经网络:栈式自编码器;多声部音乐;序列预测;长短期记忆循环神经 网络:生成模型 中图分类号:TP393.04文献标志码:A文章编号:1673-4785(2019)01-0158-07 中文引用格式:苗北辰,郭为安,汪镭.隐式特征和循环神经网络的多声部音乐生成系统.智能系统学报,2019,14(1): 158-164. 英文引用格式:MIAO Beichen,,GUO Weian,,VANG Lei..A polyphony music generation system based on latent features and a re- current neural network J.CAAI transactions on intelligent systems,2019,14(1):158-164. A polyphony music generation system based on latent features and a recurrent neural network MIAO Beichen',GUO Weian',WANG Lei (1.College of Electronics and Information Engineering,Tongji University,Shanghai 201804,China;2.College of China and Ger- man,Tongji University,Shanghai 201804,China) Abstract:Music generation is a research area that uses algorithms to generate sequences with characteristics of music. Focusing on the problem of feature extraction from music samples and automatic music compositions,this paper pro- poses a polyphony music generation algorithm based on musical latent features and a recurrent neural network(RNN). The proposed algorithm uses a stacked autoencoder to extract latent features from of music sequence notes at each time step;the algorithm then uses long-short term memory RNNs to build a music generation system in the form of sequence prediction.The simulation results show that this algorithm can generate polyphony music with better melody and chord matching. Keywords:music generation;latent feature extraction;recurrent neural network;stacked autoencoder,polyphony mu- sic;sequence prediction;long short-term memory;generation model 音乐生成是使用算法将音乐创作过程的部分新回到研究者们的视野中,与之相关的多种算法 或全部自动化的研究。使用数学的方式研究音乐 模型也都被应用于音乐生成问题的研究。特别 的生成虽然在一千年前就已出现,但受限于其他 是Char RNN模型的提出,以序列预测的方式训 相关学科的发展,一直没有较大的进步。而近年 练生成网络的研究变得火热。Eck等山首次将 来,随着深度学习的不断发展,音乐生成问题重 LSTM引入音乐生成领域,基于前序音符生成后 序音符的思想,搭建了蓝调旋律的生成系统。Stum 收稿日期:2018-04-08.网络出版日期:2018-10-08 基金项目:国家自然科学基金项目(71771176,61503287). 等使用音乐的ABC格式文本作为训练数据,率 通信作者:苗北辰.E-mail:ml104193501@163.com. 先将Char RNN模型引入音乐生成领域,对音符
DOI: 10.11992/tis.201804009 网络出版地址: http://kns.cnki.net/kcms/detail/23.1538.TP.20180930.0949.002.html 隐式特征和循环神经网络的多声部音乐生成系统 苗北辰1 ,郭为安2 ,汪镭1 (1. 同济大学 电子与信息工程学院,上海 201804; 2. 同济大学 中德学院,上海 201804) 摘 要:音乐生成是一种使用算法来生成音乐序列的研究。本文针对音乐样本特征提取以及自动作曲问题提 出了一种基于音乐隐式特征和循环神经网络 (recurrent neural network, RNN) 的多声部音乐生成算法。该方法通 过使用栈式自编码器对多声部音乐序列每个时间步的音符隐式特征进行提取,结合长短期记忆循环神经网络 (long short-term memory, LSTM),以序列预测的方式搭建了基于隐式特征的音乐生成模型。仿真结果表明,该音 乐生成算法在使用相同风格的音乐数据训练后,得到的模型可以生成旋律与和弦匹配较好的多声部音乐数据。 关键词:音乐生成;隐式特征提取;循环神经网络;栈式自编码器;多声部音乐;序列预测;长短期记忆循环神经 网络;生成模型 中图分类号:TP393.04 文献标志码:A 文章编号:1673−4785(2019)01−0158−07 中文引用格式:苗北辰, 郭为安, 汪镭. 隐式特征和循环神经网络的多声部音乐生成系统[J]. 智能系统学报, 2019, 14(1): 158–164. 英文引用格式:MIAO Beichen, GUO Weian, WANG Lei. A polyphony music generation system based on latent features and a recurrent neural network[J]. CAAI transactions on intelligent systems, 2019, 14(1): 158–164. A polyphony music generation system based on latent features and a recurrent neural network MIAO Beichen1 ,GUO Weian2 ,WANG Lei1 (1. College of Electronics and Information Engineering, Tongji University, Shanghai 201804, China; 2. College of China and German, Tongji University, Shanghai 201804, China) Abstract: Music generation is a research area that uses algorithms to generate sequences with characteristics of music. Focusing on the problem of feature extraction from music samples and automatic music compositions, this paper proposes a polyphony music generation algorithm based on musical latent features and a recurrent neural network (RNN). The proposed algorithm uses a stacked autoencoder to extract latent features from of music sequence notes at each time step; the algorithm then uses long-short term memory RNNs to build a music generation system in the form of sequence prediction. The simulation results show that this algorithm can generate polyphony music with better melody and chord matching. Keywords: music generation; latent feature extraction; recurrent neural network; stacked autoencoder; polyphony music; sequence prediction; long short-term memory; generation model 音乐生成是使用算法将音乐创作过程的部分 或全部自动化的研究。使用数学的方式研究音乐 的生成虽然在一千年前就已出现,但受限于其他 相关学科的发展,一直没有较大的进步。而近年 来,随着深度学习的不断发展,音乐生成问题重 新回到研究者们的视野中,与之相关的多种算法 模型也都被应用于音乐生成问题的研究。特别 是 Char RNN 模型的提出,以序列预测的方式训 练生成网络的研究变得火热。Eck 等 [ 1 ]首次将 LSTM 引入音乐生成领域,基于前序音符生成后 序音符的思想,搭建了蓝调旋律的生成系统。Sturm 等 [2]使用音乐的 ABC 格式文本作为训练数据,率 先将 Char RNN 模型引入音乐生成领域,对音符 收稿日期:2018−04−08. 网络出版日期:2018−10−08. 基金项目:国家自然科学基金项目 (71771176,61503287). 通信作者:苗北辰. E-mail:m1104193501@163.com. 第 14 卷第 1 期 智 能 系 统 学 报 Vol.14 No.1 2019 年 1 月 CAAI Transactions on Intelligent Systems Jan. 2019
第1期 苗北辰,等:隐式特征和循环神经网络的多声部音乐生成系统 ·159· 文本进行one hot编码,使用当前音符的编码向 的表达,所以此处只介绍与音乐生成系统相关的 量,预测下一个音符的概率分布,然后采样生成 基本事件。MIDI的基本音符事件有2种:Note 下一个字符,最终生成质量较好的音乐旋律。区 on事件和Note off事件。Note on事件表示一个 别于ABC格式的旋律文本数据,Choi等通过将 具有某种音高、音长的音符在某个通道开始被特 旋律与和弦一起编码成文本数据,然后使用Char 定乐器弹奏,如表示在通道1, RNN模型生成了拥有和弦的多声部音乐。王程 在50个单位时间后开始演奏middle C音。Note 等通过将音乐的音频数据编码成与文本类似的 off事件表示在某个通道的特定乐器停止演奏具 one hot向量,然后使用Char RNN进行音乐的生 有某种音高、音长的音符,如表示在通道1,在20个单位时间后停止演奏 的形式,使用和弦去预测旋律对Char RNN进行 niddle C音。 训练,通过输入人工创作的和弦来生成相应的旋 Piano Roll表示方法是受自动钢琴的启发,它 律I。Chu等提出了分层RNN结构的音乐生成 的实质是一个连续的纸卷,通过在上面进行穿孔 系统,在系统底层生成音符,在更高层生成和弦 来记录信息。每个穿孔代表一个音符控制信息, 及鼓节奏,通过将更多乐理知识引入神经网络的 用于触发给定的音符。穿孔的长度对应音符的持 训练中,生成了结构良好的音乐作品。Makris等m 续时间,穿孔的定位与其间隔相对应,每一列的 提出了使用RNN生成节奏序列,用于生成变节奏 穿孔表示钢琴中的每一个琴键。 的音乐作品。Oord等提出的WaveNet用于生成 1.2基于MDI与Piano Roll的音乐数据建模 原始的音频格式音乐,该网络使用音频压缩后的 本文所研究的是多声部音乐的生成问题,因 数据进行训练,表述为16位的整数值序列,与前 此多声部音乐数据的表示方式至关重要。根据上 人不同的是,他们使用卷积神经网络来搭建系 文对MDI格式和Piano Roll格式的介绍,可以较 统。Mogren!使用两个RNN作为生成对抗网络 为容易地设计一种多声部音乐的表达方式,即使 的生成器和判别器,音乐数据模型则采用了类似 用0和1组成的矩阵表示多声部音乐中每个音符 MIDI数据Event事件的编码方式。 的状态信息,其中行表示钢琴中的88个键,也是 综上所述,可以看出目前音乐生成的研究成 钢琴所能表示的音高范围,列则表示时间序列。 果主要集中在旋律的生成研究上,考虑旋律与和 1表示琴键被按下,0表示琴键被弹起。但这种方 弦搭配的多声部音乐生成的研究并不是很多,本 式有1个缺陷,即在出现一连串的1时,无法分辨 文将从多声部音乐数据的建模方式以及生成模型 出是被多次弹奏还是一个持续较长的音。所以可 的训练策略两个方向进行研究,尝试搭建多声部 以结合MIDI格式的Note on和Note off事件思 音乐的生成系统。 想,将原有的钢琴键维度88扩展成176。使用前 1多声部音乐数据建模 88维的1表示琴键被按下,也就是Note on事件, 使用后88维的1表示琴键被弹起,也就是Note 音乐数据是一种结构非常复杂的时序数据。 off事件,如图1所示。 要使用算法的方式进行音乐数据的生成,首先要 理解音乐数据的结构特征和音乐信息的表达方 MIDI 式。本文基于现代音乐常用的表达方式,即采用 MDI格式和Piano Roll格式分析多声部音乐的特 点,建立音乐数据模型。 Note on事件 Note of事件 1.1MDI格式与Piano Roll格式 前88列 后88列 MDI(音乐数字接口)是一种描述计算机数字 接口与各种乐器连接协议的技术标准。与ABC [01000010…00010010] 等文本格式相比,MDI所携带的信息量更大,现 [00010000…01000100] 代音乐基本都是用MIDI制作合成。它的基本思 [01000001…00100010] 想是将不同音高和音长组合的音符信息表示成一 [00100010…00010001] 个个的事件(Event),同时还携带音符的音量和起 始时间等信息,量化了音乐的基本特征,并将音 图1MDI与Piano Roll相互转化 Fig.1 Translation between MIDI and Piano Roll 乐演奏中的每种乐器表示为一个通道(channel), 记录每种乐器的音符弹奏的方式。MDI的事件 这种方式不仅可以有效区分长音和多次弹奏, 信息有很多类型,由于本文主要聚焦于音乐本身 且方便MIDI音乐数据与Piano Roll矩阵的相互
文本进行 one hot 编码,使用当前音符的编码向 量,预测下一个音符的概率分布,然后采样生成 下一个字符,最终生成质量较好的音乐旋律。区 别于 ABC 格式的旋律文本数据,Choi 等 [3]通过将 旋律与和弦一起编码成文本数据,然后使用 Char RNN 模型生成了拥有和弦的多声部音乐。王程 等 [4]通过将音乐的音频数据编码成与文本类似的 one hot 向量,然后使用 Char RNN 进行音乐的生 成。Lackner[5]则通过将音乐中的和弦和旋律分离 的形式,使用和弦去预测旋律对 Char RNN 进行 训练,通过输入人工创作的和弦来生成相应的旋 律 [5]。Chu 等 [6]提出了分层 RNN 结构的音乐生成 系统,在系统底层生成音符,在更高层生成和弦 及鼓节奏,通过将更多乐理知识引入神经网络的 训练中,生成了结构良好的音乐作品。Makris 等 [7] 提出了使用 RNN 生成节奏序列,用于生成变节奏 的音乐作品。Oord 等 [8]提出的 WaveNet 用于生成 原始的音频格式音乐,该网络使用音频压缩后的 数据进行训练,表述为 16 位的整数值序列,与前 人不同的是,他们使用卷积神经网络来搭建系 统。Mogren[9]使用两个 RNN 作为生成对抗网络 的生成器和判别器,音乐数据模型则采用了类似 MIDI 数据 Event 事件的编码方式。 综上所述,可以看出目前音乐生成的研究成 果主要集中在旋律的生成研究上,考虑旋律与和 弦搭配的多声部音乐生成的研究并不是很多,本 文将从多声部音乐数据的建模方式以及生成模型 的训练策略两个方向进行研究,尝试搭建多声部 音乐的生成系统。 1 多声部音乐数据建模 音乐数据是一种结构非常复杂的时序数据。 要使用算法的方式进行音乐数据的生成,首先要 理解音乐数据的结构特征和音乐信息的表达方 式。本文基于现代音乐常用的表达方式,即采用 MIDI 格式和 Piano Roll 格式分析多声部音乐的特 点,建立音乐数据模型。 1.1 MIDI 格式与 Piano Roll 格式 MIDI(音乐数字接口) 是一种描述计算机数字 接口与各种乐器连接协议的技术标准。与 ABC 等文本格式相比,MIDI 所携带的信息量更大,现 代音乐基本都是用 MIDI 制作合成。它的基本思 想是将不同音高和音长组合的音符信息表示成一 个个的事件 (Event),同时还携带音符的音量和起 始时间等信息,量化了音乐的基本特征,并将音 乐演奏中的每种乐器表示为一个通道 (channel), 记录每种乐器的音符弹奏的方式。MIDI 的事件 信息有很多类型,由于本文主要聚焦于音乐本身 的表达,所以此处只介绍与音乐生成系统相关的 基本事件。MIDI 的基本音符事件有 2 种:Note on 事件和 Note off 事件。Note on 事件表示一个 具有某种音高、音长的音符在某个通道开始被特 定乐器弹奏,如表示在通道 1, 在 50 个单位时间后开始演奏 middle C 音。Note off 事件表示在某个通道的特定乐器停止演奏具 有某种音高、音长的音符,如表示在通道 1,在 20 个单位时间后停止演奏 middle C 音。 Piano Roll 表示方法是受自动钢琴的启发,它 的实质是一个连续的纸卷,通过在上面进行穿孔 来记录信息。每个穿孔代表一个音符控制信息, 用于触发给定的音符。穿孔的长度对应音符的持 续时间,穿孔的定位与其间隔相对应,每一列的 穿孔表示钢琴中的每一个琴键。 1.2 基于 MIDI 与 Piano Roll 的音乐数据建模 本文所研究的是多声部音乐的生成问题,因 此多声部音乐数据的表示方式至关重要。根据上 文对 MIDI 格式和 Piano Roll 格式的介绍,可以较 为容易地设计一种多声部音乐的表达方式,即使 用 0 和 1 组成的矩阵表示多声部音乐中每个音符 的状态信息,其中行表示钢琴中的 88 个键,也是 钢琴所能表示的音高范围,列则表示时间序列。 1 表示琴键被按下,0 表示琴键被弹起。但这种方 式有 1 个缺陷,即在出现一连串的 1 时,无法分辨 出是被多次弹奏还是一个持续较长的音。所以可 以结合 MIDI 格式的 Note on 和 Note off 事件思 想,将原有的钢琴键维度 88 扩展成 176。使用前 88 维的 1 表示琴键被按下,也就是 Note on 事件, 使用后 88 维的 1 表示琴键被弹起,也就是 Note off 事件,如图 1 所示。 MIDI Note on 事件 前88列 Note off 事件 后88列 [0 1 0 0 0 0 1 0 … 0 0 0 1 0 0 1 0] [0 0 0 1 0 0 0 0 … 0 1 0 0 0 1 0 0] [0 1 0 0 0 0 0 1 … 0 0 1 0 0 0 1 0] [0 0 1 0 0 0 1 0 … 0 0 0 1 0 0 0 1] 图 1 MIDI 与 Piano Roll 相互转化 Fig. 1 Translation between MIDI and Piano Roll 这种方式不仅可以有效区分长音和多次弹奏, 且方便 MIDI 音乐数据与 Piano Roll 矩阵的相互 第 1 期 苗北辰,等:隐式特征和循环神经网络的多声部音乐生成系统 ·159·
·160· 智能系统学报 第14卷 转化。但通过实践发现这种多声部音乐的建模方 输入层 隐藏层 输出层 式虽然可以用同一时刻钢琴键状态向量表示旋律 编码层1 解码层1 与和弦的弹奏状态,但无法表征旋律与和弦在时 编码层2 解码层2 间维度上的匹配信息,即各音符之间是独立表达的。 1.3基于栈式自编码器的音乐隐式特征建模设计 根据前文的研究分析,本文认为使用原始P ano Roll格式进行多声部音乐数据的表达方式, 并不能表现旋律与和弦更高维度的组合特征。基 于此,本文提出使用对同一时间步音符状态压缩 的方式,提取各音符状态之间的关系作为音乐的 隐式特征,并以此作为多声部音乐的数据模型。 图2自编码器结构 Fig.2 Structure of the autoencoder 自编码器(autoencoder)是一种具有一层隐藏 层的神经网络,其特殊的结构在于:网络的输人 栈式自编码器的输入层和输出层的神经元节 层与输出层的神经元节点数目相同,且隐藏层的 点均为Piano Roll的钢琴键维度156。而对于隐 节点数要小于输人与输出层。在训练自编码器 藏层,则需先设计一个比输入输出层节点数目小 时,可以使用传统的神经网络训练方式。唯一不 的节点数,通过后续训练实践,逐一调整。 同的是,训练自编码器的输人数据就是要输出的 根据前文分析,本文所要搭建的栈式自编码 目标数据。因此自编码器学习的是一种数据的表 器是对Piano Roll矩阵的每个156维的0、1向量 示功能。因为隐藏层的节点要比输入层的节点 进行特征提取。经过解码器后,应生成与输入向 少,所以编码器部分必须对信息进行有损压缩, 量相同的输出结果。所以本文采用训练网络的代 而解码器部分则需要根据压缩后的特征信息尽可 价函数为均方差代价函数,即 能地重构原始的信息。这就迫使自编码器去发现 cost 1(d-y 数据中重要的区分点,所以自编码器通常用于提 2m (1) 取数据中更高维度的特征。 式中:a为网络的输出结果;y为目标值,即输入向 随着深度学习的出现,栈式自编码器(stacked 量;m为每一次训练的样本数目。本文使用Tensorflow autoencoder)得到了更广泛的应用。栈式自编码 搭建此模型,根据模型Tensorflow自动生成的计 器是由多个自编码器嵌套组成,且隐藏层的神经 算图如图3所示。 精度 元数目依次递减。在这种结构中,编码器会不断 Const Accuracy_1 地压缩数据以提取出更高级别的特征。因此这种 数据类型转换 R 类似深度神经网络的结构,是现在常用的特征提 相等判断 取手段之一。 梯度 通过对现有特征提取方法的比较,本文决定 采用栈式自编码器对多声部音乐的Piano Roll格 取整 损失值 式数据进行隐式特征提取。 1.4搭建用于隐式音乐特征提取的栈式自编码器 解码层 本文使用从freemidi..org采集的50首MIDI 格式的音乐数据进行栈式自编码器训练。通过 编码层 l.2节介绍的Piano Roll格式与MIDI数据的转化 关系,提取50首音乐的Piano Roll矩阵。在实验 输人数据 中发现,由于提取的音乐数据风格相似,音乐的 音高都在24~102。通俗地讲,钢琴的88个键中只 图3栈式自编码器计算图 被用到了中间的78个键。为了降低计算复杂度, Fig.3 Computational graph of the stacked autoencoder 本文将原有的176维的Piano Roll矩阵减少到 使用freemidi.org的50首MIDI音乐提取的 156维,根据此格式的音乐数据搭建栈式自编码 Piano Roll矩阵对网络进行训练,通过调整网络超 器,如图2所示。 参数得到训练结果如图4所示,其中横坐标为训
转化。但通过实践发现这种多声部音乐的建模方 式虽然可以用同一时刻钢琴键状态向量表示旋律 与和弦的弹奏状态,但无法表征旋律与和弦在时 间维度上的匹配信息,即各音符之间是独立表达的。 1.3 基于栈式自编码器的音乐隐式特征建模设计 根据前文的研究分析,本文认为使用原始 Piano Roll 格式进行多声部音乐数据的表达方式, 并不能表现旋律与和弦更高维度的组合特征。基 于此,本文提出使用对同一时间步音符状态压缩 的方式,提取各音符状态之间的关系作为音乐的 隐式特征,并以此作为多声部音乐的数据模型。 自编码器 (autoencoder) 是一种具有一层隐藏 层的神经网络,其特殊的结构在于:网络的输入 层与输出层的神经元节点数目相同,且隐藏层的 节点数要小于输入与输出层。在训练自编码器 时,可以使用传统的神经网络训练方式。唯一不 同的是,训练自编码器的输入数据就是要输出的 目标数据。因此自编码器学习的是一种数据的表 示功能。因为隐藏层的节点要比输入层的节点 少,所以编码器部分必须对信息进行有损压缩, 而解码器部分则需要根据压缩后的特征信息尽可 能地重构原始的信息。这就迫使自编码器去发现 数据中重要的区分点,所以自编码器通常用于提 取数据中更高维度的特征。 随着深度学习的出现,栈式自编码器 (stacked autoencoder) 得到了更广泛的应用。栈式自编码 器是由多个自编码器嵌套组成,且隐藏层的神经 元数目依次递减。在这种结构中,编码器会不断 地压缩数据以提取出更高级别的特征。因此这种 类似深度神经网络的结构,是现在常用的特征提 取手段之一。 通过对现有特征提取方法的比较,本文决定 采用栈式自编码器对多声部音乐的 Piano Roll 格 式数据进行隐式特征提取。 1.4 搭建用于隐式音乐特征提取的栈式自编码器 本文使用从 freemidi.org 采集的 50 首 MIDI 格式的音乐数据进行栈式自编码器训练。通过 1.2 节介绍的 Piano Roll 格式与 MIDI 数据的转化 关系,提取 50 首音乐的 Piano Roll 矩阵。在实验 中发现,由于提取的音乐数据风格相似,音乐的 音高都在 24~102。通俗地讲,钢琴的 88 个键中只 被用到了中间的 78 个键。为了降低计算复杂度, 本文将原有的 176 维的 Piano Roll 矩阵减少到 156 维,根据此格式的音乐数据搭建栈式自编码 器,如图 2 所示。 输入层 隐藏层 输出层 编码层1 解码层1 编码层2 解码层2 图 2 自编码器结构 Fig. 2 Structure of the autoencoder 栈式自编码器的输入层和输出层的神经元节 点均为 Piano Roll 的钢琴键维度 156。而对于隐 藏层,则需先设计一个比输入输出层节点数目小 的节点数,通过后续训练实践,逐一调整。 根据前文分析,本文所要搭建的栈式自编码 器是对 Piano Roll 矩阵的每个 156 维的 0、1 向量 进行特征提取。经过解码器后,应生成与输入向 量相同的输出结果。所以本文采用训练网络的代 价函数为均方差代价函数,即 cost = 1 2m ∑m i=1 (ai −yi) 2 (1) a y m 式中: 为网络的输出结果; 为目标值,即输入向 量; 为每一次训练的样本数目。本文使用 Tensorflow 搭建此模型,根据模型 Tensorflow 自动生成的计 算图如图 3 所示。 梯度 解码层 编码层 输入数据 取整 Const 精度 Accuracy_1 数据类型转换 相等判断 损失值 图 3 栈式自编码器计算图 Fig. 3 Computational graph of the stacked autoencoder 使用 freemidi.org 的 50 首 MIDI 音乐提取的 Piano Roll 矩阵对网络进行训练,通过调整网络超 参数得到训练结果如图 4 所示,其中横坐标为训 ·160· 智 能 系 统 学 报 第 14 卷
第1期 苗北辰,等:隐式特征和循环神经网络的多声部音乐生成系统 ·161· 练数据分批后的迭代次数,纵坐标为根据式(1) 结构上使用截断的序列进行后向传播训练。在经 计算的损失值。 典RNN的基础上,Hochreiter等提出了长短期 0.045 记忆循环神经网络(LSTM),在众多序列问题中得 0.040 到了广泛的应用。除了隐藏状态h值以外,LSTM 0.030 在节点的内部还储存细胞状态(cell state)C值,用 0.020 来表示信息的长期依赖和更新,并且添加了3个 门结构来控制节点状态的更新大小。具体计算公 0.010 式如下: f=(Wi[x,h1]) (2) 6 i,=(Wi[x,h1]) (3) 训练次数/10次 C:=tanh(We[x.h-11) (4) 图4训练结果 C=fC+iC (5) Fig.4 Training results o:tanh(W[x,h1]) (6) 为测试该自编码器在训练数据集以外的音乐 h,=o,·tanh(C) (7) 数据中的特征提取效果,使用另外4首相同风格 3个门的结果都由输入x与前一时刻的隐藏 的MIDI音乐对网络进行测试。将音乐的音符状 状态h得到。第1个门是忘记门f,决定在当前 态数据进行编解码,比较网络的输出值与真实 时刻要从过去的C值丢弃多少信息。第2个门是 值,准确度如表1所示。 输入门i,决定在当前时刻将多少信息存入C值。 表1栈式自编码器的泛化结果 要加入的新信息用符号C,表示。根据忘记门和输 Table 1 Generalization results of the stacked autoencoder% 入门的控制系数,以及要加入细胞的新信息,更 样本 结果 新当前的细胞状态得到C,。第3个门是输出门o, 1 93.4 根据当前时刻的细胞状态C,和输出门控信息o,更 2 92.8 新当前的隐藏状态h。式(2)(7)为LSTM的完整 前向传播过程,其中W。W、W。、W都是需要进行 94.7 训练的权值参数。 4 91.6 2.2生成系统训练数据的采集与预处理 从表1可以看出,本小节训练的栈式自编码 本文采用与Char RNN模型类似的训练方式 器在这一风格的音乐数据中,编码后解码的准确 对音乐生成系统进行训练。其主要训练思想可以 率较高,可以理解为编码器提取到了较好的隐式 概括为 音乐特征。通过使用栈式自编码器的编码器部 a2,a3,a4,·,a1=f(x1,2,x3,…,X-1) (8) 分,对音乐数据的Piano Roll矩阵进行隐式特征提 式中:x为输入序列:a为预测的序列,但时间维度 取,即得到了本文所要使用的多声部音乐数据模型。 向后推一个时间步;f为生成模型的计算过程。 通过将目标序列,也就是推后一个时间步的输入 2基于隐式音乐特征和RNN的音乐 序列,与输出序列a进行按时间位比较得出差值, 生成模型 作为生成网络的训练优化目标。 2.1 RNN 基于上文对音乐生成网络训练思路的分析, RNN是全连接神经网络的扩展,在全连接神 得到训练数据结构如图5所示。 经网络的基础上,将隐藏层的节点进行连接,即 Batch, Batch, Batch; Batch 每一个隐藏层节点的输入不再只是前一层节点的 片段1 片段2 片段3 输出,同时还包括本节点在上个时刻的隐藏状态。 片段4 音乐1 RNN因其特殊的结构,在进行后向传播训练时与 日标1 目标2 目标3 目标4 全连接神经网络有所不同。在训练RNN的过程 片段1 片段2 片段3 片段4 中,通常采用一种特殊的学习方法,即BPTT(back 音乐2 目标] 目标2 旧标3 目标4 propagation through time)算法。RNN的输入和输 出可以被理解成一个序列。因此,在进行后向传 播训练的时候可以将节点按时间序列进行展开, 图5训练数据集结构 得到一个类似全连接神经网络的结构,在展开的 Fig.5 Structure of training data
练数据分批后的迭代次数,纵坐标为根据式 (1) 计算的损失值。 0.040 0.030 0.020 0.010 0 3 6 9 训练次数/104次 损失值 11 0.045 图 4 训练结果 Fig. 4 Training results 为测试该自编码器在训练数据集以外的音乐 数据中的特征提取效果,使用另外 4 首相同风格 的 MIDI 音乐对网络进行测试。将音乐的音符状 态数据进行编解码,比较网络的输出值与真实 值,准确度如表 1 所示。 表 1 栈式自编码器的泛化结果 Table 1 Generalization results of the stacked autoencoder % 样本 结果 1 93.4 2 92.8 3 94.7 4 91.6 从表 1 可以看出,本小节训练的栈式自编码 器在这一风格的音乐数据中,编码后解码的准确 率较高,可以理解为编码器提取到了较好的隐式 音乐特征。通过使用栈式自编码器的编码器部 分,对音乐数据的 Piano Roll 矩阵进行隐式特征提 取,即得到了本文所要使用的多声部音乐数据模型。 2 基于隐式音乐特征和 RNN 的音乐 生成模型 2.1 RNN h RNN 是全连接神经网络的扩展,在全连接神 经网络的基础上,将隐藏层的节点进行连接[10] ,即 每一个隐藏层节点的输入不再只是前一层节点的 输出,同时还包括本节点在上个时刻的隐藏状态 。 RNN 因其特殊的结构,在进行后向传播训练时与 全连接神经网络有所不同。在训练 RNN 的过程 中,通常采用一种特殊的学习方法,即 BPTT(back propagation through time) 算法。RNN 的输入和输 出可以被理解成一个序列。因此,在进行后向传 播训练的时候可以将节点按时间序列进行展开, 得到一个类似全连接神经网络的结构,在展开的 h C 结构上使用截断的序列进行后向传播训练。在经 典 RNN 的基础上,Hochreiter 等 [11]提出了长短期 记忆循环神经网络 (LSTM),在众多序列问题中得 到了广泛的应用。除了隐藏状态 值以外,LSTM 在节点的内部还储存细胞状态 (cell state) 值,用 来表示信息的长期依赖和更新,并且添加了 3 个 门结构来控制节点状态的更新大小。具体计算公 式如下: ft = σ ( Wf [xt ,ht−1] ) (2) it = σ(Wi[xt ,ht−1]) (3) C˜ t = tanh(Wc [xt ,ht−1]) (4) Ct = ft ·Ct−1 +it ·C˜ t (5) ot = tanh(Wo [xt ,ht−1]) (6) ht = ot ·tanh(Ct) (7) xt ht−1 f C i C C˜ t Ct o Ct ot ht 3 个门的结果都由输入 与前一时刻的隐藏 状态 得到。第 1 个门是忘记门 ,决定在当前 时刻要从过去的 值丢弃多少信息。第 2 个门是 输入门 ,决定在当前时刻将多少信息存入 值。 要加入的新信息用符号 表示。根据忘记门和输 入门的控制系数,以及要加入细胞的新信息,更 新当前的细胞状态得到 。第 3 个门是输出门 , 根据当前时刻的细胞状态 和输出门控信息 更 新当前的隐藏状态 。式 (2)~(7) 为 LSTM 的完整 前向传播过程,其中 Wf、Wi、Wo、Wc 都是需要进行 训练的权值参数。 2.2 生成系统训练数据的采集与预处理 本文采用与 Char RNN 模型类似的训练方式 对音乐生成系统进行训练。其主要训练思想可以 概括为 a2,a3,a4,··· ,at = f(x1, x2, x3,··· , xt−1) (8) x a f a 式中: 为输入序列; 为预测的序列,但时间维度 向后推一个时间步; 为生成模型的计算过程。 通过将目标序列,也就是推后一个时间步的输入 序列,与输出序列 进行按时间位比较得出差值, 作为生成网络的训练优化目标。 基于上文对音乐生成网络训练思路的分析, 得到训练数据结构如图 5 所示。 Batch1 Batch2 Batch3 Batch4 音乐1 音乐2 片段1 目标1 片段1 片段2 片段3 片段4 目标1 目标2 目标3 目标4 目标2 目标3 目标4 片段2 片段3 片段4 … … … … … 图 5 训练数据集结构 Fig. 5 Structure of training data 第 1 期 苗北辰,等:隐式特征和循环神经网络的多声部音乐生成系统 ·161·
·162· 智能系统学报 第14卷 根据BPTT的后向传播方式,每次都输入固 析,音乐生成网络的训练可以被认为是一个高维 定时间步的数据对网络进行训练,训练目标即向 度时序特征的回归预测问题。因此采用回归问题 后推一个时间步的输人数据。 常用的均方差代价函数为 本文使用从freemidi.org采集的50首经典风 格的MDI音乐作为原始训练数据。按照第1章 cost= a-y时 1 2m台 (9) 的建模方式,将MIDI数据转化成Piano Roll矩 阵,然后使用栈式自编码器的编码器部分,将P- 式中:m是每次训练时所用的样本数;a为输出的 ano Roll矩阵的音符状态数据转化成隐式特征数 隐式音乐特征序列;y是目标隐式音乐特征序列。 据。最后将数据使用图5的格式建立数据集,完 训练思想是减小根据前一时刻的音符状态生成的 成生成系统的训练数据预处理工作。 当前时刻的音符状态与真实的音符状态间的差 2.3训练生成系统 异。根据代价函数,Tensorflow根据模型自动生 根据式(9)和对音乐隐式特征数据的结构分 成的计算图如图6所示。 损失值 常量O>→山L0ss_1 取平方 梯度 相诚 输出层 目标数据 循环神经网络 转置 长短期记忆神经网络层 输入层 随机种子 输入数据 图6隐式特征的LSTM生成网络 Fig.6 Hidden feature-based LSTM generation network 通过调节网络中的超参数,得到训练损失 由图7可以看出,生成网络的损失值也有较 值结果如图7所示,其中横坐标为训练数据分批 好的收敛。 后的迭代次数;纵坐标为根据式(9)计算的损失值。 2.4完整音乐生成系统的搭建 0.22r 完整音乐生成过程如图8所示。根据训练好 0.20 0.16 的栈式自编码器的编码器部分,可以得到Piano Rol数据的隐式音乐特征矩阵。然后传入LSTM 0.08 音乐特征生成网络生成下一个时间步的音乐特 0.04 征,将新的特征序列和LSTM输出状态作为输入 进行下一次的迭代生成,最后再通过解码器部 0 0.51.01.52.02.53.03.5 训练次数/10次 分,得到最终的音符状态向量Piano Roll,完成整 图7训练结果 个音乐生成系统的生成过程。生成完成后,将P- Fig.7 Training results ano Rol矩阵转化成MDI音乐
根据 BPTT 的后向传播方式,每次都输入固 定时间步的数据对网络进行训练,训练目标即向 后推一个时间步的输入数据。 本文使用从 freemidi.org 采集的 50 首经典风 格的 MIDI 音乐作为原始训练数据。按照第 1 章 的建模方式,将 MIDI 数据转化成 Piano Roll 矩 阵,然后使用栈式自编码器的编码器部分,将 Piano Roll 矩阵的音符状态数据转化成隐式特征数 据。最后将数据使用图 5 的格式建立数据集,完 成生成系统的训练数据预处理工作。 2.3 训练生成系统 根据式 (9) 和对音乐隐式特征数据的结构分 析,音乐生成网络的训练可以被认为是一个高维 度时序特征的回归预测问题。因此采用回归问题 常用的均方差代价函数为 cost = 1 2m ∑m i=1 (ai −yi) 2 (9) m a y 式中: 是每次训练时所用的样本数; 为输出的 隐式音乐特征序列; 是目标隐式音乐特征序列。 训练思想是减小根据前一时刻的音符状态生成的 当前时刻的音符状态与真实的音符状态间的差 异。根据代价函数,Tensorflow 根据模型自动生 成的计算图如图 6 所示。 损失值 常量 Loss_1 y 取平方 梯度 相减 输出层 循环神经网络 输入层 随机种子 输入数据 目标数据 转置 长短期记忆神经网络层 ε 图 6 隐式特征的 LSTM 生成网络 Fig. 6 Hidden feature-based LSTM generation network 通过调节网络中的超参数,得到训练损失 值结果如图 7 所示,其中横坐标为训练数据分批 后的迭代次数;纵坐标为根据式 (9) 计算的损失值。 0.20 0.16 0.12 0.08 0.04 0 1.0 2.0 3.0 训练次数/103次 损失值 0.5 1.5 2.5 3.5 0.22 图 7 训练结果 Fig. 7 Training results 由图 7 可以看出,生成网络的损失值也有较 好的收敛。 2.4 完整音乐生成系统的搭建 完整音乐生成过程如图 8 所示。根据训练好 的栈式自编码器的编码器部分,可以得到 Piano Roll 数据的隐式音乐特征矩阵。然后传入 LSTM 音乐特征生成网络生成下一个时间步的音乐特 征,将新的特征序列和 LSTM 输出状态作为输入 进行下一次的迭代生成,最后再通过解码器部 分,得到最终的音符状态向量 Piano Roll,完成整 个音乐生成系统的生成过程。生成完成后,将 Piano Roll 矩阵转化成 MIDI 音乐。 ·162· 智 能 系 统 学 报 第 14 卷
第1期 苗北辰,等:隐式特征和循环神经网络的多声部音乐生成系统 ·163· 随机种子 编码器 隐式特征序列 隐式音乐特征 生成特征片段 解码器 Piano roll LSTM 初始状态 生成网络 输出状态 图8完整音乐生成过程 Fig.8 Process of music composition 2.5生成结果评价 [2]STURM B L,SANTOS J F,BENTAL O,et al.Music tran 为了更好地说明加人隐式特征后的音乐生成 scription modelling and composition using deep learning 效果,本文使用同样的音乐数据,在不转换成隐 [EB/OL].(2016-04-29)[2018-03-231.htps:/axiv.org abs/1604.08723 式特征的情况下,直接使用Piano Roll矩阵训练 [3]CHOI K,FAZEKAS G,SANDLER M.Text-based LSTM RNN,得到用于对比的音乐生成模型。评估模型 networks for Automatic Music Composition[EB/OL]. 则选择使用人工选取的被标注为好与不好的音乐 (2016-04-18)[2018-03-231.https:/arxiv.org/abs/1604.05358. 数据训练出的二分类模型作为评价。评价方法 [4]王程,周婉,何军.面向自动音乐生成的深度递归神经网 为:生成同样的随机种子,分别使用基于Piano 络方法[].小型微型计算机系统,2017,38(10): Rol的多声部音乐生成模型与基于音乐隐式特征 2412-2416. 的多声部音乐生成模型进行音乐片段的生成。得 WANG Cheng,ZHOU Wan,HE Jun.Recurrent neural net- 到生成样本各200首,最后使用训练好的音乐评 work method for automatic generation of music[J].Journal 价模型对音乐样本进行评价。将标签为好的样本 of Chinese computer systems,2017,38(10):2412-2416. 数的占比作为音乐生成系统的评价标准。最终得 [5]LACKNER K.Composing a melody with long-short term 到的评价结果如表2所示。 memory (LSTM)recurrent neural networks[D].Munich. Germany:Technische Universitat Munchen,2016. 表2评估结果 [6]CHU H,URTASUN R,FILDER S.Song from PI:a music- Table 2 Evaluation results ally plausible network for Pop music generation[EB/OL]. 样本类型 隐式特征模型Piano Roll模型 (2016-11-10)[2018-03-23].https://arxiv.org/abs/1611.03477. 评价质量为好的样本数 147 112 [7]MAKRIS D,KALIAKATSOS-PAPAKOSTAS M, KARYDIS I,et al.Combining LSTM and feed forward 评价质量为差的样本数 53 88 neural networks for conditional rhythm composition[C]// 18th International Conference on Engineering Applica- 3结束语 tions of Neural Networks.Athens,Greece,2017:570-582. [8]OORD A V D,DIELEMAN S,ZEN H,et al.WaveNet:a 本文基于隐式特征,通过训练一个循环神经 generative model for raw audio[EB/OL].(2016-09- 网络,搭建针对相同风格音乐的特征提取和音乐 19)2018-03-23l.https:/axiv.org/abs/1609.03499 创作模型。在一定程度上解决了传统作曲算法, [9]MOGREN O.C-RNN-GAN:continuous recurrent neural 难以提取音乐中旋律与和弦之间的隐式特征生成 networks with adversarial training[C]//Constructive Ma- 的声部音乐的问题。仿真结果表明,通过对音乐 chine Learning Workshop (NIPS 2016).Barcelona,Spain, 的Piano Roll数据进行压缩编码,得到各时间步音 2016:1-6. 符状态的隐式特征,然后以序列预测的方式进行 [10]SHEN Yan,XIE Meiping.Ship motion extreme short 多声部音乐的生成,在解决旋律与和弦的搭配问 time prediction of ship pitch based on diagonal recurrent neural network[J].Journal of marine science and applica- 题上有较好的效果。下一步工作将着重于使用深 tion,2005,4(2:56-60. 度学习算法,基于大数据建立音乐特征深度提取 [11]HOCHREITER S,SCHMIDHUBER J.Long short-term 模型,从而使得系统可以更好地提取并学习音乐 memory[J].Neural computation,1997,9(8):1735-1780. 样本特征,提升系统的创作能力。 作者简介: 参考文献: 苗北辰,男,1994年生,硕士研究 生,主要研究方向为音乐生成的自动化。 [1]ECK D,SCHMIDHUBER J.A first look at music compos- ition using LSTM recurrent neural networks.Technical Re- port No.IDSIA-07-02[R].Manno,Switzerland:Istituto Dalle Molle Di Studi Sull Intelligenza Artificiale,2002: 1-11
随机种子 编码器 隐式特征序列 初始状态 隐式音乐特征 LSTM 生成网络 生成特征片段 输出状态 解码器 Piano roll 图 8 完整音乐生成过程 Fig. 8 Process of music composition 2.5 生成结果评价 为了更好地说明加入隐式特征后的音乐生成 效果,本文使用同样的音乐数据,在不转换成隐 式特征的情况下,直接使用 Piano Roll 矩阵训练 RNN,得到用于对比的音乐生成模型。评估模型 则选择使用人工选取的被标注为好与不好的音乐 数据训练出的二分类模型作为评价。评价方法 为:生成同样的随机种子,分别使用基于 Piano Roll 的多声部音乐生成模型与基于音乐隐式特征 的多声部音乐生成模型进行音乐片段的生成。得 到生成样本各 200 首,最后使用训练好的音乐评 价模型对音乐样本进行评价。将标签为好的样本 数的占比作为音乐生成系统的评价标准。最终得 到的评价结果如表 2 所示。 表 2 评估结果 Table 2 Evaluation results 样本类型 隐式特征模型 Piano Roll 模型 评价质量为好的样本数 147 112 评价质量为差的样本数 53 88 3 结束语 本文基于隐式特征,通过训练一个循环神经 网络,搭建针对相同风格音乐的特征提取和音乐 创作模型。在一定程度上解决了传统作曲算法, 难以提取音乐中旋律与和弦之间的隐式特征生成 的声部音乐的问题。仿真结果表明,通过对音乐 的 Piano Roll 数据进行压缩编码,得到各时间步音 符状态的隐式特征,然后以序列预测的方式进行 多声部音乐的生成,在解决旋律与和弦的搭配问 题上有较好的效果。下一步工作将着重于使用深 度学习算法,基于大数据建立音乐特征深度提取 模型,从而使得系统可以更好地提取并学习音乐 样本特征,提升系统的创作能力。 参考文献: ECK D, SCHMIDHUBER J. A first look at music composition using LSTM recurrent neural networks. Technical Report No. IDSIA-07-02[R]. Manno, Switzerland: Istituto Dalle Molle Di Studi Sull Intelligenza Artificiale, 2002: 1–11. [1] STURM B L, SANTOS J F, BENTAL O, et al. Music transcription modelling and composition using deep learning [EB/OL]. (2016-04-29)[2018-03-23]. https://arxiv.org/ abs/1604.08723. [2] CHOI K, FAZEKAS G, SANDLER M. Text-based LSTM networks for Automatic Music Composition[EB/OL]. (2016-04-18)[2018-03-23].https://arxiv.org/abs/1604.05358. [3] 王程, 周婉, 何军. 面向自动音乐生成的深度递归神经网 络方法[J]. 小型微型计算机系统, 2017, 38(10): 2412–2416. WANG Cheng, ZHOU Wan, HE Jun. Recurrent neural network method for automatic generation of music[J]. Journal of Chinese computer systems, 2017, 38(10): 2412–2416. [4] LACKNER K. Composing a melody with long-short term memory (LSTM) recurrent neural networks[D]. Munich, Germany: Technische Universität München, 2016. [5] CHU H, URTASUN R, FILDER S. Song from PI: a musically plausible network for Pop music generation[EB/OL]. (2016-11-10)[2018-03-23].https://arxiv.org/abs/1611.03477. [6] MAKRIS D, KALIAKATSOS-PAPAKOSTAS M, KARYDIS I, et al. Combining LSTM and feed forward neural networks for conditional rhythm composition[C]// 18th International Conference on Engineering Applications of Neural Networks. Athens, Greece, 2017: 570–582. [7] OORD A V D, DIELEMAN S, ZEN H, et al. WaveNet:a generative model for raw audio[EB/OL].(2016-09- 19)[2018-03-23].https://arxiv.org/abs/1609.03499. [8] MOGREN O. C-RNN-GAN: continuous recurrent neural networks with adversarial training[C]//Constructive Machine Learning Workshop (NIPS 2016). Barcelona, Spain, 2016: 1–6. [9] SHEN Yan, XIE Meiping. Ship motion extreme short time prediction of ship pitch based on diagonal recurrent neural network[J]. Journal of marine science and application, 2005, 4(2): 56–60. [10] HOCHREITER S, SCHMIDHUBER J. Long short-term memory[J]. Neural computation, 1997, 9(8): 1735–1780. [11] 作者简介: 苗北辰,男,1994 年生,硕士研究 生,主要研究方向为音乐生成的自动化。 第 1 期 苗北辰,等:隐式特征和循环神经网络的多声部音乐生成系统 ·163·
·164· 智能系统学报 第14卷 郭为安,男,1985生,副教授,博 汪镭,男,1970年生,教授,博士 土,EEE会员,主要研究方向为人工 生导师,主要研究方向为群体智能、并 智能理论和应用。作为独立PI主持 行实现技术。发表学术论文90余篇 的项目包括国家自然科学基金青年基 出版专著4部。 金、面上基金、上海市科学技术委员会 等国家级和省部级项目。发表学术论 文20余篇,被SCI检索10篇。 2019年第五届IEEE控制、自动化和机器人技术大会 (ICCAR 2019) 2019 The 5th International Conference on Control, Automation and Robotics (ICCAR 2019) Over the past five years,we witnessed the world we live in entirely disrupted by improvements in artificial intelli- gence(AI),machine learning and control engineering.Algorithms and machine learning are trading millions of dollars in financial markets;they are predicting what people want to search for online;facial recognition helps police identify criminals.Soon,Al could be driving our cars and trains even airplanes,Intelligent Robotic and Control Engineering will have a fundamental impact on the society in the next few years. 2019 The 5th International Conference on Control,Automation and Robotics(ICCAR 2019)will take place at Beijing,China during April 19-22,2019.On the theoretical side,this conference features papers focusing on intelligent systems engineering,distributed intelligence systems,multi-level systems,intelli- gent control,multi-robot systems,cooperation and coordination of unmanned vehicle systems,etc.On the application side,it emphasizes autonomous systems,industrial robotic systems,multi-robot systems,aerial vehicles,underwater robots and sensor-based control. Under the background of China's National strategies,such as "Made in China 2025"and"A New Gen- eration of Artificial Intelligence Development Plan",we believe ICCAR 2019 would be the platform for aca- demic exchanges,thought collisions,inspiration,and results sharing,we do wish all the participants take this opportun- ity to have future international collaborations. 会议官网:htp:lwww.iccar.org 会议日期:2019年4月19一22日 会议地点:中国北京
郭为安,男,1985 生,副教授,博 士,IEEE 会员,主要研究方向为人工 智能理论和应用。作为独立 PI 主持 的项目包括国家自然科学基金青年基 金、面上基金、上海市科学技术委员会 等国家级和省部级项目。发表学术论 文 20 余篇,被 SCI 检索 10 篇。 汪镭,男,1970 年生,教授,博士 生导师,主要研究方向为群体智能、并 行实现技术。发表学术论文 90 余篇, 出版专著 4 部。 2019 年第五届 IEEE 控制、自动化和机器人技术大会 (ICCAR 2019) 2019 The 5th International Conference on Control, Automation and Robotics (ICCAR 2019) Over the past five years, we witnessed the world we live in entirely disrupted by improvements in artificial intelligence (AI), machine learning and control engineering. Algorithms and machine learning are trading millions of dollars in financial markets; they are predicting what people want to search for online; facial recognition helps police identify criminals. Soon, AI could be driving our cars and trains even airplanes, Intelligent Robotic and Control Engineering will have a fundamental impact on the society in the next few years. 2019 The 5th International Conference on Control, Automation and Robotics (ICCAR 2019) will take place at Beijing, China during April 19—22, 2019. On the theoretical side, this conference features papers focusing on intelligent systems engineering, distributed intelligence systems, multi-level systems, intelligent control, multi-robot systems, cooperation and coordination of unmanned vehicle systems, etc. On the application side, it emphasizes autonomous systems, industrial robotic systems, multi-robot systems, aerial vehicles, underwater robots and sensor-based control. Under the background of China’s National strategies, such as “Made in China 2025” and “A New Generation of Artificial Intelligence Development Plan”, we believe ICCAR 2019 would be the platform for academic exchanges, thought collisions, inspiration, and results sharing, we do wish all the participants take this opportunity to have future international collaborations. 会议官网:http://www.iccar.org/ 会议日期:2019 年 4 月 19—22 日 会议地点:中国北京 ·164· 智 能 系 统 学 报 第 14 卷