第15卷第1期 智能系统学报 Vol.15 No.1 2020年1月 CAAI Transactions on Intelligent Systems Jan.2020 D0L:10.11992tis.202001006 基于序列模型的音乐词曲匹配度智能评估算法 陈壮豪',张茂清,郭为安2,康琦,汪镭 (1.同济大学电子与信息工程学院,上海201804:2.同济大学中德工程学院,上海201804) 摘要:情感匹配模型是一种常用于评价词曲匹配程度的方法;然而,单纯地依靠情感匹配模型无法对评价词 曲匹配度进行准确的评价。为改善此问题,提出了基于序列模型的词曲匹配度智能评估算法,其综合考虑词曲 情感和词曲间节奏关系以给出一个更加准确的词曲评估方法。基于公开词曲同步数据集,构建了音乐情感和 节奏正反例模型,并基于此模型将音乐切分成片段:进一步,将歌词和旋律片段分别通过歌词编码器和旋律编 码器进行编码,并将编码后具有上下语境的歌词特征和旋律特征输人词曲匹配解码器,解析词曲间特征关系, 判断词曲片段匹配程度。仿真结果表明:基于序列模型的词曲匹配度智能评估算法,相对于单纯的情感匹配模 型,能够更精确地评价词曲匹配程度,验证了本文提出算法的有效性。 关键词:音乐词曲:情感:节奏:序列模型:歌词编码器:旋律解码器:词曲匹配解码器:词曲匹配度: 中图分类号:TP393.04文献标志码:A文章编号:1673-4785(2020)01-0067-07 中文引用格式:陈壮豪,张茂清,郭为安,等.基于序列模型的音乐词曲匹配度智能评估算法.智能系统学报,2020,15(1): 67-73. 英文引用格式:CHEN Zhuanghao,ZHANG Maoqing,GUO Weian,.etal.Music lyrics-melody intelligent evaluation algorithm based on sequence model Jl.CAAI transactions on intelligent systems,2020,15(1):67-73. Music lyrics-melody intelligent evaluation algorithm based on sequence model CHEN Zhuanghao',ZHANG Maoqing',GUO Weian',KANG Qi',WANG Lei (1.College of Electronics and Information Engineering,Tongji University,Shanghai 201804,China;2.Sino-German College of Ap- plied Sciences,Tongji University,Shanghai 201804,China) Abstract:Emotional matching model is a method often used to evaluate the degree of lyrics and melody matching. However,it cannot be accurately evaluated based on the emotion matching model.In order to improve it,this paper pro- poses an intelligent evaluation algorithm of lyrics-melody matching based on a sequence model,which comprehens- ively considers the emotion and the rhythm relationship between lyrics and melody to give an evaluation method for more accurate evaluation.Firstly,this paper researches and builds music positive and negative samples considering mu- sic emotion and phrase based on the public lyrics-melody paired dataset and divide songs to music pieces.Further,the lyrics and melody fragments are encoded by the lyrics-encoder and the melody-encoder,respectively.And take the en- coded lyrics feature and melody feature that are contextualized as the input of the lyrics-melody matching decoder to analyze the characteristic relationship between the lyrics and melody,and then determine the matching degree of the lyr- ics-melody segment.The experimental results show that the music lyrics-melody matching intelligent evaluation al- gorithm model based on sequence model can more accurately judge the matching degree of lyrics-melody matching than simple music emotion matching,which verifies the effectiveness of the proposed algorithm. Keywords:music lyrics-melody;emotion;rhythm;sequence model;lyrics encoder,melody encoder;matching decoder, lyrics-melody matching degree;music lyrics-melody matching 收稿日期:2020-01-06. 音乐词曲匹配度评估是针对音乐的词曲匹配 基金项目:国家自然科学基金面上项目(51775385,71371142): 国家自然科学基金项目(71771176.61503287). 程度给出的一个客观评估。随着智能音乐研究发 通信作者:汪镭.E-mail:wanglei@tongji.edu.cn. 展,越来越多智能音乐作品产生,随之而来的便
DOI: 10.11992/tis.202001006 基于序列模型的音乐词曲匹配度智能评估算法 陈壮豪1 ,张茂清1 ,郭为安2 ,康琦1 ,汪镭1 (1. 同济大学 电子与信息工程学院,上海 201804; 2. 同济大学 中德工程学院,上海 201804) 摘 要:情感匹配模型是一种常用于评价词曲匹配程度的方法;然而,单纯地依靠情感匹配模型无法对评价词 曲匹配度进行准确的评价。为改善此问题,提出了基于序列模型的词曲匹配度智能评估算法,其综合考虑词曲 情感和词曲间节奏关系以给出一个更加准确的词曲评估方法。基于公开词曲同步数据集,构建了音乐情感和 节奏正反例模型,并基于此模型将音乐切分成片段;进一步,将歌词和旋律片段分别通过歌词编码器和旋律编 码器进行编码,并将编码后具有上下语境的歌词特征和旋律特征输入词曲匹配解码器,解析词曲间特征关系, 判断词曲片段匹配程度。仿真结果表明:基于序列模型的词曲匹配度智能评估算法,相对于单纯的情感匹配模 型,能够更精确地评价词曲匹配程度,验证了本文提出算法的有效性。 关键词:音乐词曲;情感;节奏;序列模型;歌词编码器;旋律解码器;词曲匹配解码器;词曲匹配度; 中图分类号:TP393.04 文献标志码:A 文章编号:1673−4785(2020)01−0067−07 中文引用格式:陈壮豪, 张茂清, 郭为安, 等. 基于序列模型的音乐词曲匹配度智能评估算法 [J]. 智能系统学报, 2020, 15(1): 67–73. 英文引用格式:CHEN Zhuanghao, ZHANG Maoqing, GUO Weian, et al. Music lyrics-melody intelligent evaluation algorithm based on sequence model[J]. CAAI transactions on intelligent systems, 2020, 15(1): 67–73. Music lyrics-melody intelligent evaluation algorithm based on sequence model CHEN Zhuanghao1 ,ZHANG Maoqing1 ,GUO Weian2 ,KANG Qi1 ,WANG Lei1 (1. College of Electronics and Information Engineering, Tongji University, Shanghai 201804, China; 2. Sino-German College of Applied Sciences, Tongji University, Shanghai 201804, China) Abstract: Emotional matching model is a method often used to evaluate the degree of lyrics and melody matching. However, it cannot be accurately evaluated based on the emotion matching model. In order to improve it, this paper proposes an intelligent evaluation algorithm of lyrics-melody matching based on a sequence model, which comprehensively considers the emotion and the rhythm relationship between lyrics and melody to give an evaluation method for more accurate evaluation. Firstly, this paper researches and builds music positive and negative samples considering music emotion and phrase based on the public lyrics-melody paired dataset and divide songs to music pieces. Further, the lyrics and melody fragments are encoded by the lyrics-encoder and the melody-encoder, respectively. And take the encoded lyrics feature and melody feature that are contextualized as the input of the lyrics-melody matching decoder to analyze the characteristic relationship between the lyrics and melody, and then determine the matching degree of the lyrics-melody segment. The experimental results show that the music lyrics-melody matching intelligent evaluation algorithm model based on sequence model can more accurately judge the matching degree of lyrics-melody matching than simple music emotion matching, which verifies the effectiveness of the proposed algorithm. Keywords: music lyrics-melody; emotion; rhythm; sequence model; lyrics encoder; melody encoder; matching decoder; lyrics-melody matching degree; music lyrics-melody matching 音乐词曲匹配度评估是针对音乐的词曲匹配 程度给出的一个客观评估。随着智能音乐研究发 展,越来越多智能音乐作品产生,随之而来的便 收稿日期:2020−01−06. 基金项目:国家自然科学基金面上项目 (51775385,71371142); 国家自然科学基金项目 (71771176,61503287). 通信作者:汪镭. E-mail:wanglei@tongji.edu.cn. 第 15 卷第 1 期 智 能 系 统 学 报 Vol.15 No.1 2020 年 1 月 CAAI Transactions on Intelligent Systems Jan. 2020
·68* 智能系统学报 第15卷 是对生成的音乐作品评价问题。 是否可以通过正反例之间的差异挖掘到词曲之间 目前对音乐作品的评价方式主要包括以下几 匹配的特征关系。若反例无法充分将不匹配的关 种方式:1)基于互动的评价方式,这种评价方式 键因素表达出来,则难以通过词曲匹配算法区分 一般依赖于听者对一般音乐的反馈,通过收集听 当前音乐词曲是否匹配。 者对生成音乐作品的反应,如心跳、脉搏和皮肤 11音乐情感反例构建 电导,如评估分数、偏好或生理信号等;然后使用 由于本文是基于序列模型进行词曲匹配度评 收集到的信息来评估生成的音乐作品。由于音乐 估,是基于音乐序列的分析,所以在音乐情感模 作品的主观性,这种交互式评价方法被广泛使 型上,采用离散的音乐情感模型,提出了简化的 用。文献[]根据用户对音乐流派的选择,使用 Hevner!情感分类模型,并结合国人的审美标准, 马尔可夫链和歌词数据库创建歌词,而音乐则由 对关键词进行适当修改。如图1所示,建立了音 旋律和该流派的3个伴奏之一组成。而词曲的组 乐情感模型,从情感角度将音乐分成四大类。相 合则通过人工的方式由用户来决定。2)在基于交 邻类别具有一定的情感相似性,情感可以在相邻 互评价的基础之上,通过与音乐家合作获得专业 类别上转换。相对两个情感类别表达情感内涵 反馈。文献[2]通过选择专业人士和非专业人士 相反。 若干,综合评价为两方评价均分的加权求和。3)基 于规则的评价方法,使用显式的评价规则对生成 的音乐作品进行评价。评价规则是根据个人的创 作经验或音乐理论,综合考虑节奏、词组、音阶、 轰动的 和弦等音乐要素而制定的。如文献[3]中采用了 音乐理论中考虑跳跃和间隔的一些评价规则对音 乐作品进行评价。这种方式对于创作特定音乐流 (容的 派的音乐作品是有效果的。4)基于学习的评价方 崇高的 悲伤的 法,文献[4]利用神经网络构建了音乐情感分类 及评估模型。 本文采用的是基于学习的评价方式,随着自 汇有69 然语言处理技术的发展和应用,通过算法模型对 音乐词曲进行情感分析的准确性逐渐增加。然而 图1音乐情感模型 对旋律或歌词进行单独的情感分析是不准确的, Fig.1 Music emotion model 主要包含两点:1)缺少旋律衬托的歌词无法确定 基于提出的CZH音乐情感模型。对公开的 词曲同步音乐数据集根据情感进行划分。在情 作曲者要突出的内容,从而对情感的分析是不准 确的:2)在没有旋律背景下的歌词,容易忽略歌 感标定的过程中,尽可能使得每一类情感音乐都 词中的节奏感,而节奏感在音乐中,对情感表达 具有鲜明的情感表达,即当听欢快的音乐时,能 是非常重要的。而现有的评价方式却未充分考虑 很容易区分该音乐为欢快的音乐,而不会模棱两 上述问题。 可。该做法的目的旨在为后续构建音乐情感反 因此本文尝试综合考虑词曲的情感和词曲间 例打下基础。基于此基准,一共标定1275首乐 的节奏关系来给出一个尽量准确且客观的智能评 曲。如表1所示。 估。而要学习到词曲间的情感和节奏特征,则需 表1音乐情感分类数目统计 Table 1 Music emotion classification statistic 要研究设计合理的音乐表达形式,才能从中学习 到情感及节奏上的特征,因此本文将主要从音乐 类别 类别1 类别2 类别3 类别4 数据表达形式研究及算法模型设计两个方面进行 数目 299 306 345 325 阐述。 进一步,本文在歌词数相当的情况,将情感表 1音乐数据表达形式 达相反的两种情感音乐,进行词曲交换,作为音 乐情感反例。如图2为音乐情感反例。图中两个 要从音乐数据中能学习到词曲之间的情感关 片段分别来自音乐剧《悲惨世界》中的《Ony 系和节奏关系,则需要研究并构建情感、节奏正 own》以及欢快的音乐《Boogie Down》构建的 反例音乐样本,音乐反例构建的好坏决定了模型 反例
是对生成的音乐作品评价问题。 目前对音乐作品的评价方式主要包括以下几 种方式:1)基于互动的评价方式,这种评价方式 一般依赖于听者对一般音乐的反馈,通过收集听 者对生成音乐作品的反应,如心跳、脉搏和皮肤 电导,如评估分数、偏好或生理信号等;然后使用 收集到的信息来评估生成的音乐作品。由于音乐 作品的主观性,这种交互式评价方法被广泛使 用。文献 [1] 根据用户对音乐流派的选择,使用 马尔可夫链和歌词数据库创建歌词,而音乐则由 旋律和该流派的 3 个伴奏之一组成。而词曲的组 合则通过人工的方式由用户来决定。2)在基于交 互评价的基础之上,通过与音乐家合作获得专业 反馈。文献 [2] 通过选择专业人士和非专业人士 若干,综合评价为两方评价均分的加权求和。3)基 于规则的评价方法,使用显式的评价规则对生成 的音乐作品进行评价。评价规则是根据个人的创 作经验或音乐理论,综合考虑节奏、词组、音阶、 和弦等音乐要素而制定的。如文献 [3] 中采用了 音乐理论中考虑跳跃和间隔的一些评价规则对音 乐作品进行评价。这种方式对于创作特定音乐流 派的音乐作品是有效果的。4)基于学习的评价方 法,文献 [4] 利用神经网络构建了音乐情感分类 及评估模型。 本文采用的是基于学习的评价方式,随着自 然语言处理技术的发展和应用,通过算法模型对 音乐词曲进行情感分析的准确性逐渐增加。然而 对旋律或歌词进行单独的情感分析是不准确的, 主要包含两点:1)缺少旋律衬托的歌词无法确定 作曲者要突出的内容,从而对情感的分析是不准 确的;2)在没有旋律背景下的歌词,容易忽略歌 词中的节奏感,而节奏感在音乐中,对情感表达 是非常重要的。而现有的评价方式却未充分考虑 上述问题。 因此本文尝试综合考虑词曲的情感和词曲间 的节奏关系来给出一个尽量准确且客观的智能评 估。而要学习到词曲间的情感和节奏特征,则需 要研究设计合理的音乐表达形式,才能从中学习 到情感及节奏上的特征,因此本文将主要从音乐 数据表达形式研究及算法模型设计两个方面进行 阐述。 1 音乐数据表达形式 要从音乐数据中能学习到词曲之间的情感关 系和节奏关系,则需要研究并构建情感、节奏正 反例音乐样本,音乐反例构建的好坏决定了模型 是否可以通过正反例之间的差异挖掘到词曲之间 匹配的特征关系。若反例无法充分将不匹配的关 键因素表达出来,则难以通过词曲匹配算法区分 当前音乐词曲是否匹配。 1.1 音乐情感反例构建 由于本文是基于序列模型进行词曲匹配度评 估,是基于音乐序列的分析,所以在音乐情感模 型上,采用离散的音乐情感模型,提出了简化的 Hevner[5] 情感分类模型,并结合国人的审美标准, 对关键词进行适当修改。如图 1 所示,建立了音 乐情感模型,从情感角度将音乐分成四大类。相 邻类别具有一定的情感相似性,情感可以在相邻 类别上转换。相对两个情感类别表达情感内涵 相反。 神圣的 庄严的 严肃的 敬畏的 强劲的 崇高的 …… 1 2 悲伤的 黑暗的 压抑的 沉重的 孤独的 忧郁的 …… 3 幽默的 安静的 舒缓的 平静的 抒情的 从容的 …… 开心的 喜悦的 热烈的 欢快的 激动的 轰动的 …… 4 图 1 音乐情感模型 Fig. 1 Music emotion model 基于提出的 CZH 音乐情感模型。对公开的 词曲同步音乐数据集[6] 根据情感进行划分。在情 感标定的过程中,尽可能使得每一类情感音乐都 具有鲜明的情感表达,即当听欢快的音乐时,能 很容易区分该音乐为欢快的音乐,而不会模棱两 可。该做法的目的旨在为后续构建音乐情感反 例打下基础。基于此基准,一共标定 1 275 首乐 曲。如表 1 所示。 表 1 音乐情感分类数目统计 Table 1 Music emotion classification statistic 类别 类别1 类别2 类别3 类别4 数目 299 306 345 325 进一步,本文在歌词数相当的情况,将情感表 达相反的两种情感音乐,进行词曲交换,作为音 乐情感反例。如图 2 为音乐情感反例。图中两个 片段分别来自音乐剧《悲惨世界》中的《On my own》以及欢快的音乐《Boogie Down》构建的 反例。 ·68· 智 能 系 统 学 报 第 15 卷
第1期 陈壮豪,等:基于序列模型的音乐词曲匹配度智能评估算法 ·69· , 歌词序列是不合理的,因此不应通过该方式进行 own.pre-tend-ing he's be-side me. All a- 乱序操作。其次对于以单词为最小粒度的乱序, 这种方式相对词块方式更加合理,这种方式会破 me.what I want to and all I. need is 坏句子语意。同时表达了节奏上的不匹配和语意 图2情感反例展示 上不匹配。所以可以作为打乱的最小粒度。最后 Fig.2 Negative music example 对于以歌词片段为最小粒度的乱序,片段长度设 可以发现,其实在进行情感音乐词曲交换后, 定为尽可能包含一个句子的长度,因此该乱序方 反例音乐一方面是由于情感不一致,而导致不匹 式,最大程度地保留了语意上的特征。同时表达 配。但更具体的体现为歌词和旋律的整体节奏产 了节奏上的不匹配。其构建算法流程如下: 生了不一致。这种不一致,使得词曲原先相互呼 算法1音乐歌词乱序算法 应的情感关系被破坏,从而导致词曲不匹配。换 输入m首输入音乐的输入歌词L,ie(0,m),L0= 句话说,情感很大程度上还是通过节奏表现出来 {,L9,L9,…,L,乱序方式shu田e_level∈{WORD, 的。比如存在一些音乐,歌词在没有旋律的情况 SENTENCE) 下,仅理解歌词含义,可能表达的是悲伤的情感, 参数输入音乐歌词长度n=len(L),歌曲片 但是结合旋律以后,会发现其实这首音乐听起来 段长度I=len(L),随机种子seed。 是欢快的。仔细探究,便会发现其实歌词中,通 输出乱序后的音乐歌词。 过大量的有节奏性的重复操作,使得整首歌的节 流程对整体的迭代次数i=0,1,2,…,m: 奏感很强,因此不会透露出悲伤的情绪。 1)生成随机数seed,作为当前歌曲乱序的随 12音乐节奏反例构建 机种子。 对于一首音乐,节奏至关重要。其中歌词和 2)根据乱序标志符shuffle level决定对当前 旋律常在节奏上,如发音的音调上;或者是对于 音乐样本进行词级别还是片段级别乱序。 短且快的旋律片段常对应发音可以较短的歌词, 3)对于单首音乐片段个数,循环次数i=0.1. 而不是复杂的歌词;在相同的旋律片段下,对应 2,…,length: 的歌词也具有足够的相似性,即在节奏上与歌词 D if shuffle level=SENTENCE: 保持一致等。本文通过歌词乱序的方法将原有的 a要交换音乐歌词片段的索引: 节奏联系打破,从而实现节奏反例构建。 k=int(ramdom (seed)*(j+1)) 而要对歌词进行乱序操作,就必须确定乱序 b.交换两个音乐片段: 的粒度,即以歌词片段、以单词或者以词块为最 swap(9,L9) 小粒度进行乱序。以《on my own》歌曲为例,如 2 if shuffle level=WORD: 图3~5所示为3种乱序方式。 for y in range(): a.此片段要交换单词的索引: pre-tend-ing he's be-side me. k=int (ramdom (seed)*(v+1)) own. ingsidehe's tend beside me. b.交换此片段中的两个单词: 图3以词块为最小粒度的乱序 swap(L(v).L(k)) Fig.3 Shuffle in word-piece level 1.3音乐反例构建结果 基于已情感标定的1275首正例音乐,并利用 网preend he百e:nc之 上述两种音乐反例构建方法,随机选择其中一部 hes l preniend-ing me be.sde 分的音乐用于音乐反例构建。随机选择主要是为 图4以单词为最小粒度的乱序 了避免模型在特定样本中学到过多额外的特征, Fig.4 Shuffle in word-level 使得泛化性能降低。如表2所示,其中音乐情感 ,ec驿。 反例为1184首,音乐节奏反例为1175首,共计 own.pre-tend-ing he's be-side me. →a 2359首反例音乐。 表2音乐反例数目统计 图5以歌词片段为最小粒度的乱序 Table 2 Negative music statistics Fig.5 Shuffle in sentence 反例类别 音乐情感反例音乐节奏反例 反例总和 首先对于以词块为最小粒度的乱序会存在破 坏基本单词结构,比如连续唱出词块ig。这样的 数目/省 1184 1175 2359
he′s 图 2 情感反例展示 Fig. 2 Negative music example 可以发现,其实在进行情感音乐词曲交换后, 反例音乐一方面是由于情感不一致,而导致不匹 配。但更具体的体现为歌词和旋律的整体节奏产 生了不一致。这种不一致,使得词曲原先相互呼 应的情感关系被破坏,从而导致词曲不匹配。换 句话说,情感很大程度上还是通过节奏表现出来 的。比如存在一些音乐,歌词在没有旋律的情况 下,仅理解歌词含义,可能表达的是悲伤的情感, 但是结合旋律以后,会发现其实这首音乐听起来 是欢快的。仔细探究,便会发现其实歌词中,通 过大量的有节奏性的重复操作,使得整首歌的节 奏感很强,因此不会透露出悲伤的情绪。 1.2 音乐节奏反例构建 对于一首音乐,节奏至关重要。其中歌词和 旋律常在节奏上,如发音的音调上;或者是对于 短且快的旋律片段常对应发音可以较短的歌词, 而不是复杂的歌词;在相同的旋律片段下,对应 的歌词也具有足够的相似性,即在节奏上与歌词 保持一致等。本文通过歌词乱序的方法将原有的 节奏联系打破,从而实现节奏反例构建。 而要对歌词进行乱序操作,就必须确定乱序 的粒度,即以歌词片段、以单词或者以词块为最 小粒度进行乱序。以《on my own》歌曲为例,如 图 3~5 所示为 3 种乱序方式。 ing - side - he′s he′s 图 3 以词块为最小粒度的乱序 Fig. 3 Shuffle in word-piece level he′s. he′s be - side be - side 图 4 以单词为最小粒度的乱序 Fig. 4 Shuffle in word-level 进行片段 级别乱序 he′s he′s 图 5 以歌词片段为最小粒度的乱序 Fig. 5 Shuffle in sentence 首先对于以词块为最小粒度的乱序会存在破 坏基本单词结构,比如连续唱出词块 ing。这样的 歌词序列是不合理的,因此不应通过该方式进行 乱序操作。其次对于以单词为最小粒度的乱序, 这种方式相对词块方式更加合理,这种方式会破 坏句子语意。同时表达了节奏上的不匹配和语意 上不匹配。所以可以作为打乱的最小粒度。最后 对于以歌词片段为最小粒度的乱序,片段长度设 定为尽可能包含一个句子的长度,因此该乱序方 式,最大程度地保留了语意上的特征。同时表达 了节奏上的不匹配。其构建算法流程如下: 算法 1 音乐歌词乱序算法 L(i) ,i ∈ (0,m),L(i) = L(i) 0 ,L(i) 1 ,L(i) 2 ,··· ,L(i) n shuffle_level ∈ 输入 m首输入音乐的输入歌词 ,乱序方式 {WORD, SENTENCE}。 n = len(L) l = len L(i) n 参数 输入音乐歌词长度 ,歌曲片 段长度 ,随机种子 seed。 输出 乱序后的音乐歌词。 流程 对整体的迭代次数 i = 0,1,2,··· ,m: 1)生成随机数 seed,作为当前歌曲乱序的随 机种子。 2)根据乱序标志符 shuffle_level 决定对当前 音乐样本进行词级别还是片段级别乱序。 j = 0,1, 2,··· ,length 3)对于单首音乐片段个数,循环次数 : ① if shuffle_level=SENTENCE: a.要交换音乐歌词片段的索引: k = int(ramdom(seed)∗(j+1)) b. 交换两个音乐片段: swap L(i) j ,L(i) k ② if shuffle_level=WORD: for v in range (l) : a. 此片段要交换单词的索引: k = int(ramdom(seed)∗(v+1)) b. 交换此片段中的两个单词: swap L(i) j (v),L(i) j (k) 1.3 音乐反例构建结果 基于已情感标定的 1 275 首正例音乐,并利用 上述两种音乐反例构建方法,随机选择其中一部 分的音乐用于音乐反例构建。随机选择主要是为 了避免模型在特定样本中学到过多额外的特征, 使得泛化性能降低。如表 2 所示,其中音乐情感 反例为 1 184 首,音乐节奏反例为 1 175 首,共计 2 359 首反例音乐。 表 2 音乐反例数目统计 Table 2 Negative music statistics 反例类别 音乐情感反例 音乐节奏反例 反例总和 数目/首 1 184 1 175 2 359 第 1 期 陈壮豪,等:基于序列模型的音乐词曲匹配度智能评估算法 ·69·
·70· 智能系统学报 第15卷 1.4音乐歌词及旋律表达形式 Vlyrics-VwordllVpiece 由于本文使用的是英文的音乐数据集,而英 式中:Vod为词向量,”pe为词块向量。拼接得到 文是表音的,在音乐中,单词的后缀发音等对音 歌词向量。如对于单词womon,由词块wom,on 乐本身的节奏是有影响的。因此对于音乐中的歌 组成,则:2=om+oaa,其中2。表示音乐片 词,为了更好地捕捉歌词的含义及发音。采用分 段中第j个词块;对于音乐旋律,将音符转换为音高 布式形式表示门,同时将单词拆分为更小的词块 音长、休止时长来进行表征,则在第j个词块对应 (word piece),考虑单词编码和词块编码,充分提取 的音符编码向量表示为2ay=(pitch,.uration,res。 英文歌词中发音的特征,即: 如表3所示,为旋律编码结果。 表3旋律编码结果 Table 3 Melody encode result American womon stay away from me A mer i can wom on stay a way from me 音符 B4 A5 A5 A5 A5 G5 B4 B4 D5 E5 E5 音长 0.5 0.5 0.5 0.5 1.5 4.0 0.75 0.5 1.5 1.0 2.0 休止 0 0 0 0 0 0 1 0 0 0 1.5音乐切分方法 ③构造旋律片段样本: 本文将用于训练的单曲划分为多个片段,采 L;=L[start,end]: 用滑动窗口的方法对音乐进行切分,假设音乐长 3)重新构建M、L: 度N=10,每个窗口长短为I=4,窗口移动步长 M={Mo,M1,…,Mn}MeM s=2=2,则切分效果如图6。 L={Lo,L,…,Ln}LeL 2词曲匹配度评估算法 D7 通过数据处理,得到了用于训练词曲匹配算 法模型的样本数据。本节综合考虑音乐词曲情感 图6输入音乐切分效果示意 Fig.6 music segmentation diagram 及节奏特征,提出基于序列模型⑧的词曲匹配度 智能评估算法。 通过设置合理的窗口大小,能尽可能保证每 2.1算法原理及框图 个片段的语意完整,且每个音乐片段长度固定。 第一章中提到,对旋律或歌词进行单独的情 本文中将窗口大小1设定为20。算法流程如下: 感分析是不准确的,主要包含两点:1)缺少旋律 算法2音乐切分算法 衬托的歌词无法确定作曲者要突出的内容,从而 输入音乐S=MUL,且len(S)=N。 对情感的分析是不准确的:2)在没有旋律背景下 参数窗口大小1,移动步长s=2。 的歌词,容易忽略歌词中的节奏感,而节奏感在 输出切分后的词曲片段数组M,L。 音乐中,对情感表达是非常重要的,正如本文提 流程如下: 出的观点:情感很大程度上还是通过音乐节奏表 1)计算循环次数(乐曲片段数): 现出来的。因此本节设计的算法,将情感和节奏 N-l-1 (W-1-1)MODs=0 两者综合考虑,设计得到词曲匹配算法模型如图7。 结合模型框图,给出算法定义如下: (N-l-1)MODs,≠0 给定输入音乐S=MUL,其中输入旋律M= 式中:L表向下取整,MOD表取余。 (Mo,M,…,Mn)包含n个旋律片段,每个输入旋律 2)对于整体循环次数i=0,1,2,…,: 片段包含I个音符,即M=(M,M,…,M1,同理 ①计算单个片段范围: 对于输入歌词L={亿o,L1,…,Ln}包含n个歌词片 start=is,end=start+/; 段,每个歌词片段包含1个词块,即L={亿,L”,…, ②构造旋律片段样本: L}。音乐词曲匹配算法通过歌词编码器和旋律 M:M[start,end]; 编码器,对输入旋律片段M,、输入歌词片段L中
1.4 音乐歌词及旋律表达形式 由于本文使用的是英文的音乐数据集,而英 文是表音的,在音乐中,单词的后缀发音等对音 乐本身的节奏是有影响的。因此对于音乐中的歌 词,为了更好地捕捉歌词的含义及发音。采用分 布式形式表示[7] ,同时将单词拆分为更小的词块 (word piece),考虑单词编码和词块编码,充分提取 英文歌词中发音的特征,即: vlyrics = vword||vpiece wom,on v ⟨j⟩ lyrics = vwom +vwomon v ⟨j⟩ lyrics v ⟨j⟩ melody = { pitch,duration,rest} 式中:vword 为词向量,vpiece 为词块向量。拼接得到 歌词向量。如对于单词 womon,由词块 组成,则: ,其中 表示音乐片 段中第 j 个词块;对于音乐旋律,将音符转换为音高、 音长、休止时长来进行表征,则在第 j 个词块对应 的音符编码向量表示为 。 如表 3 所示,为旋律编码结果。 表 3 旋律编码结果 Table 3 Melody encode result American womon stay away from me A mer i can wom on stay a way from me 音符 B4 A5 A5 A5 A5 G5 B4 B4 D5 E5 E5 音长 0.5 0.5 0.5 0.5 1.5 4.0 0.75 0.5 1.5 1.0 2.0 休止 0 0 0 0 0 0 1 0 0 0 1 1.5 音乐切分方法 本文将用于训练的单曲划分为多个片段,采 用滑动窗口的方法对音乐进行切分,假设音乐长 度 N=10,每个窗口长短为 l=4,窗口移动步长 s=l/2=2,则切分效果如图 6。 C Well. she was an merA - -- cani Well. wasit kind - a cold that night. __ __ D7 图 6 输入音乐切分效果示意 Fig. 6 music segmentation diagram 通过设置合理的窗口大小,能尽可能保证每 个片段的语意完整,且每个音乐片段长度固定。 本文中将窗口大小 l 设定为 20。算法流程如下: 算法 2 音乐切分算法 输入 音乐 S = M ∪L ,且 len(S ) = N。 参数 窗口大小 l,移动步长 s=l/2。 输出 切分后的词曲片段数组 M,L。 流程如下: 1)计算循环次数 (乐曲片段数)n: n = ⌊ N −l−1 s ⌋ , (N −l−1)MODs = 0 ⌊ N −l−1 s +1 ⌋ , (N −l−1)MODs,, 0 式中: 表向下取整, ⌊ ⌋ MOD 表取余。 2)对于整体循环次数 i = 0,1,2,··· ,n: ①计算单个片段范围: start=i·s,end=start+l; ②构造旋律片段样本: Mi = M [start, end] ; ③构造旋律片段样本: Li = L[start, end] ; 3)重新构建 、 M L: M = {M0, M1,··· , Mn} MiϵM L = {L0,L1,··· ,Ln}LiϵL 2 词曲匹配度评估算法 通过数据处理,得到了用于训练词曲匹配算 法模型的样本数据。本节综合考虑音乐词曲情感 及节奏特征,提出基于序列模型[8] 的词曲匹配度 智能评估算法。 2.1 算法原理及框图 第一章中提到,对旋律或歌词进行单独的情 感分析是不准确的,主要包含两点:1)缺少旋律 衬托的歌词无法确定作曲者要突出的内容,从而 对情感的分析是不准确的;2)在没有旋律背景下 的歌词,容易忽略歌词中的节奏感,而节奏感在 音乐中,对情感表达是非常重要的,正如本文提 出的观点:情感很大程度上还是通过音乐节奏表 现出来的。因此本节设计的算法,将情感和节奏 两者综合考虑,设计得到词曲匹配算法模型如图 7。 结合模型框图,给出算法定义如下: M = {M0, M1, ···, Mn} {M ⟨0⟩ i , M ⟨1⟩ i ,··· , M ⟨l⟩ i } L = {L0,L1, ··· ,Ln} Li = { L ⟨0⟩ i ,L ⟨1⟩ i ,··· , L ⟨l⟩ i } 给定输入音乐 S=M∪L,其中输入旋律 包含 n 个旋律片段,每个输入旋律 片段包含 l 个音符,即 Mi= ,同理 对于输入歌词 包含 n 个歌词片 段,每个歌词片段包含 l 个词块,即 。音乐词曲匹配算法通过歌词编码器和旋律 编码器,对输入旋律片段 Mi、输入歌词片段 Li 中 ·70· 智 能 系 统 学 报 第 15 卷
第1期 陈壮豪,等:基于序列模型的音乐词曲匹配度智能评估算法 ·71· 对应的词块L少和音符M进行同步编码,并将 配关系的状态信息,实现音乐片段的词曲匹配判 编码结果通过词曲匹配解码器解析、判断当前词 断,综合输入音乐的n个词曲片段匹配程度,判断 曲匹配度,并在解过程中,保存更新词曲特征匹 当前输入音乐词曲匹配程度。 !词曲匹配解码器 词曲匹配度 1全连接层 -= 旋律编码器 歌词编码器 pitch norm 0.570.690.69 0.630.63 Lyrics vector pitch 71 81 81 1 76 <Scaling note B4 A5 E5 E5 Piece vector American womon stay away from me duration 0.5 0.5 0.5 1.0 2.0 Word vector American womon stay away from me rest 0 0 0 0 0 Lyrics American womon stay away from me 图7词曲匹配算法框架 Fig.7 Music lyrics-melody matching algorithm 基于词曲匹配算法框架,算法计算流程如下: rest};歌词L包含n个歌词片段,每个片段包含 算法3词曲匹配算法 1个词块,L表示第i个输入歌词片段中的第j个 输入旋律M包含n个旋律片段,每个片段 歌词的向量表示为:yic=ywod+ypee,其中Vword为歌 包含I个音符,M表示第i个输入旋律片段中的 词词向量,ypae为歌词词块向量; 第j个音符的向量表示,MW={norm(pitch),duration, 模型参数如表4所示。 表4模型参数 Table 4 Configuration of matching model 层 旋律编辑器 歌词编码器 词曲匹配度 Input 3(Pitch,Duration,Rest) 20(Vlyries) 128(code) Layerl 64,LSTM 64,LSTM 128.LSTM Layer2 64,LSTM 64,LSTM 128,LSTM,fully-connected,sigmoid Output 64(codenote) 64(codelyries) 2 (real or fake),sigmoid 输出输入词曲的匹配程度 code=a=T4otanh(c) (6) 流程如下: 式中“。”表示前后量之间对应元素相乘。 1)令XW=MP,通过循环神经网络,即通过 对于输入旋律片段M,的第j个时间步M以及 式(1)~(6),对输入旋律进行编码,同理,令 输入歌词片段L,的第j个时间步L9。可计算得 X”=L,对输入歌词进行编码。 到第了个时间步的旋律编码向量和歌词编码 T=G(W,a-1.x+b) (1) 向量。 T9=o(w.a,X9]+b) (2) code.=fsmu(M) (7 20=tanh(Wela-.x]+be) (3) code=f无smm(亿P) (8) Co=Toc-1)+Ton (4) 式中:code表示第j个音符的编码向量,为旋律 T。9=c(wa,X]+b) (5) 编码器输出;code0表示第j个歌词的编码向量
Lj i Mj 对应的词块 i 和音符 进行同步编码,并将 编码结果通过词曲匹配解码器解析、判断当前词 曲匹配度,并在解过程中,保存更新词曲特征匹 配关系的状态信息,实现音乐片段的词曲匹配判 断,综合输入音乐的 n 个词曲片段匹配程度,判断 当前输入音乐词曲匹配程度。 词曲匹配解码器 旋律编码器 歌词编码器 词曲匹配度 全连接层 图 7 词曲匹配算法框架 Fig. 7 Music lyrics-melody matching algorithm 基于词曲匹配算法框架,算法计算流程如下: 算法 3 词曲匹配算法 Mj i Mj i = norm pitch ,duration, 输入 旋律 M 包含 n 个旋律片段,每个片段 包含 l 个音符, 表示第 i 个输入旋律片段中的 第 j 个音符的向量表示, Lj i rest};歌词 L 包含 n 个歌词片段,每个片段包含 l 个词块, 表示第 i 个输入歌词片段中的第 j 个 歌词的向量表示为:vlyrics=vword+vpiece,其中 vword 为歌 词词向量,vpiece 为歌词词块向量; 模型参数如表 4 所示。 表 4 模型参数 Table 4 Configuration of matching model 层 旋律编辑器 歌词编码器 词曲匹配度 Input 3(Pitch, Duration, Rest) 20(vlyrics) 128(code) Layer1 64, LSTM 64, LSTM 128, LSTM Layer2 64, LSTM 64, LSTM 128, LSTM, fully-connected, sigmoid Output 64(codenote) 64(codelyrics) 2 (real or fake), sigmoid 输出 输入词曲的匹配程度 流程如下: Xj i = Mj i Xj i = Lj i 1)令 ,通过循环神经网络,即通过 式 (1)~(6) ,对输入旋律进行编码,同理,令 ,对输入歌词进行编码。 Ti f = σ Wf ai−1 ,Xj i +bf (1) Ti u = σ Wu ai−1 ,Xj i +bu (2) cˆ i = tanh WC ai−1 ,Xj i +bC (3) ci = Ti f ◦ ci−1 +Ti u ◦ cˆ i (4) Ti o = σ Wo ai−1 ,Xj i +bo (5) codej = ai = Ti o ◦ tanh ci (6) 式中“◦”表示前后量之间对应元素相乘。 Mj i Lj i 对于输入旋律片段 Mi 的第 j 个时间步 以及 输入歌词片段 Li 的第 j 个时间步 。可计算得 到 第 j 个时间步的旋律编码向量和歌词编码 向量。 codej note = fLSTM Mj i (7) codej lyrics = fLSTM Lj i (8) codej note codej lyrics 式中: 表示第 j 个音符的编码向量,为旋律 编码器输出; 表示第 j 个歌词的编码向量, 第 1 期 陈壮豪,等:基于序列模型的音乐词曲匹配度智能评估算法 ·71·
·72· 智能系统学报 第15卷 为歌词编码器输出。 图8中,每批次损失值为批量样本损失之和, 2)如式(7)~(8),将第j个时间步的旋律编 每个批次样本片段数64:迭代过程精确度变化如 码向量code和歌词编码向量code2进行 图9所示。 拼接: code 0.95 code」 codey 0.90 3)将当前输入歌词及旋律片段中1个同步音 0.85 符及词块编码完成后,作为词曲匹配解码器输 0.75 入,通过双向LSTM计算得到两个隐藏状态编 0.70 码,该状态保存了词曲间的情感关系和节奏关系 0.65 摘要: 0.60 0 10 2030 4050 迭代次数 Chead,caml=fBi-Lsnu(code(,code,…,code) 4)将正反向状态编码拼接,作为全连接层输入。 图9模型精度曲线 Fig.9 Model accuracy curve Chead (9) 可以发现,模型在迭代过程中是收敛的,在训 解码器通过全连接层对词曲情感特征和节奏 练集上的精度达到了94.0%,通过实验,在测试集 特征输入,判断词曲是否匹配,即求解: 上的精度达到85.9%。 p:=P(yalc)=sigmoid(Wc+b) 表5为词曲匹配结果,包含了当前词曲名称 因此给出目标函数: 最终匹配程度,以及当前音乐在算法模型中被切 1分 E=-二】 [y:log(pa)+(1-ya)log(1-pi)] 分为多少个片段和匹配了多少个片段。同时,展 m 示了每个片段的匹配结果。图中展示的音乐为歌 式中m表示音乐片段个数。 曲《I feel lonely》,在单看旋律时,旋律体现较为 5)重复步骤1)至步骤4),直至当前音乐m 欢快的情感;单看歌词时,歌词则体现悲伤的情 个词曲片段判断完成。 感,但是歌词结合旋律可以发现,该歌曲的节奏 2.2实验过程及结果 感很强,因此整体节奏是吻合的,是一首词曲匹 本节主要对算法模型实现及结果进行阐述, 配的音乐。若不将情感和节奏同时考虑,单纯通 模型参数同表4。其中两个编码器隐藏单元个数 过情感维度,会认为该乐曲的词曲不匹配。利用 均设置为64,因此解码器输入为128维向量,解 本文提出的词曲匹配模型对该首音乐进行词曲评 码器隐藏单元个数与输入保持一致,经过全连接 价,可以发现当前音乐18个词曲片段中,有效匹 层及sigmoid得到匹配概率值。算法模型使用零 配的片段数为16个,最终词曲匹配得分为0.89, 值初始化旋律编码器和歌词编码器的隐藏状态。 说明算法模型可以综合考虑情感和节奏两个因 训练过程使用学习率为0.01的Adam优化 素,给出一个合理的评价。 器计算并更新反向传播梯度,并基于式(9)损失 表5模型结果展示 函数完成迭代训练。迭代过程损失变化如图8 Table 5 Result of model 所示。 音乐 词曲 词曲总匹配 乐曲名 片段匹配结果 类别 匹配度片段数片段数 40 《I feel 35 正例 0.8889 18 [1,1,1,0,1,, 16 lonely》 1,1,0] 2 乱序 [0,0,0,0,0,…, 《Travis》0.0625 16 1 反例 0,1,0] 进一步的,随机选择一首音乐,当对音乐打乱 10 时,由于词曲间节奏不一致和歌词押韵被打破, 0 10 20。.30 40 50 迭代次数 因此词曲匹配度将降低。可以发现通过模型计算 图8模型损失曲线 后,在当前音乐16个片段中,有效匹配的片段数 Fig.8 Model loss curve 仅为1个,且最终匹配得分仅为0.0625
为歌词编码器输出。 code⟨j⟩ note code⟨j⟩ lyrics 2)如式 (7)~(8),将第 j 个时间步的旋律编 码向量 和歌词编码向量 进 行 拼接: code⟨j⟩ = [ code⟨j⟩ note code⟨j⟩ lyrics ] 3)将当前输入歌词及旋律片段中 l 个同步音 符及词块编码完成后,作为词曲匹配解码器输 入,通过双向 LSTM 计算得到两个隐藏状态编 码,该状态保存了词曲间的情感关系和节奏关系 摘要: chead, ctail = fBi−LSTM ( code⟨0⟩ , code⟨1⟩ ,··· , code⟨l⟩ ) 4)将正反向状态编码拼接,作为全连接层输入。 c = [ chead ctail ] (9) 解码器通过全连接层对词曲情感特征和节奏 特征输入,判断词曲是否匹配,即求解: pi = P(yi |c) = sigmoid(Wmc+bm) 因此给出目标函数: L = − 1 m ∑m i=1 [ yi log(pi)+(1−yi)log(1− pi) ] 式中 m 表示音乐片段个数。 5)重复步骤 1)至步骤 4),直至当前音乐 m 个词曲片段判断完成。 2.2 实验过程及结果 本节主要对算法模型实现及结果进行阐述, 模型参数同表 4。其中两个编码器隐藏单元个数 均设置为 64,因此解码器输入为 128 维向量,解 码器隐藏单元个数与输入保持一致,经过全连接 层及 sigmoid 得到匹配概率值。算法模型使用零 值初始化旋律编码器和歌词编码器的隐藏状态。 训练过程使用学习率为 0.01 的 Adam[10] 优化 器计算并更新反向传播梯度,并基于式 (9) 损失 函数完成迭代训练。迭代过程损失变化如图 8 所示。 35 40 30 25 每批次损失值 迭代次数 20 15 10 0 10 20 30 40 50 图 8 模型损失曲线 Fig. 8 Model loss curve 图 8 中,每批次损失值为批量样本损失之和, 每个批次样本片段数 64;迭代过程精确度变化如 图 9 所示。 0.95 0.90 0.85 0.80 0.75 模型精度值 0.70 0.65 0.60 0 10 20 迭代次数 30 40 50 图 9 模型精度曲线 Fig. 9 Model accuracy curve 可以发现,模型在迭代过程中是收敛的,在训 练集上的精度达到了 94.0%,通过实验,在测试集 上的精度达到 85.9%。 表 5 为词曲匹配结果,包含了当前词曲名称、 最终匹配程度,以及当前音乐在算法模型中被切 分为多少个片段和匹配了多少个片段。同时,展 示了每个片段的匹配结果。图中展示的音乐为歌 曲《I feel lonely》,在单看旋律时,旋律体现较为 欢快的情感;单看歌词时,歌词则体现悲伤的情 感,但是歌词结合旋律可以发现,该歌曲的节奏 感很强,因此整体节奏是吻合的,是一首词曲匹 配的音乐。若不将情感和节奏同时考虑,单纯通 过情感维度,会认为该乐曲的词曲不匹配。利用 本文提出的词曲匹配模型对该首音乐进行词曲评 价,可以发现当前音乐 18 个词曲片段中,有效匹 配的片段数为 16 个,最终词曲匹配得分为 0.89, 说明算法模型可以综合考虑情感和节奏两个因 素,给出一个合理的评价。 表 5 模型结果展示 Table 5 Result of model 音乐 类别 乐曲名 词曲 匹配度 词曲总 片段数 匹配 片段数 片段匹配结果 正例 《I feel lonely》 0.888 9 18 16 [1, 1, 1, 0, 1, ···, 1, 1, 0] 乱序 反例 《Travis》 0.062 5 16 1 [0, 0, 0, 0, 0, ···, 0, 1, 0] 进一步的,随机选择一首音乐,当对音乐打乱 时,由于词曲间节奏不一致和歌词押韵被打破, 因此词曲匹配度将降低。可以发现通过模型计算 后,在当前音乐 16 个片段中,有效匹配的片段数 仅为 1 个,且最终匹配得分仅为 0.062 5。 ·72· 智 能 系 统 学 报 第 15 卷
第1期 陈壮豪,等:基于序列模型的音乐词曲匹配度智能评估算法 ·73· 3结束语 [6]YU Yi,CANALES S.Conditional LSTM-GAN for melody generation from lyrics [J].arXiv:1908.05551, 针对情感匹配模型在评价词曲匹配度时存在 2019 评价准确度低的缺陷,本文提出综合考虑词曲情 [7]HARRIS Z S.Distributional structure[J].Word,1954, 感和词曲间节奏关系,进一步提出了基于序列模 10(2/3:146-162. 型的词曲匹配度智能评估算法。仿真结果表明, [8]SUTSKEVER I,VINYALS O,LE Q V.Sequence to se- 综合考虑音乐词曲间情感和节奏特征的音乐词曲 quence learning with neural networks[C]//Proceedings of 匹配算法模型,能给音乐作品做出更加准确的智 the 27th International Conference on Neural Information 能评估。 Processing Systems.Cambridge,USA,2014. [9]HOCHREITER S,SCHMIDHUBER J.Long short-term 参考文献: memory[J].Neural computation,1997,9(8):1735-1780. [10]KINGMA D P,BA J.Adam:a method for stochastic op- [1]BILES JA.GenJam:a genetic Algorithm for generating timization [J].arXiv:1412.6980,2014. jazz solos[C]//Proceedings of 1994 International Com- puter Music Conference.Aarhus,Denmark,1994: 作者简介: 131-137. 陈壮豪,硕士研究生,主要研究方 [2]PHON-AMNUAISUK S.TUSON A.WIGGINS G. 向为音乐评价的自动化。 Evolving musical harmonisation[Cl//Proceedings of Inter- national Conference on Artificial Neural Nets and Genetic Algorithms.Portoro2,Slovenia.1999:229-234. [3]曹西征,毛文涛,乔锟,等.基于音高旋律元的柔和乐曲 的自动作曲算法[J].自动化学报,2012,38(10): 1627-1638. 张茂清,博士研究生,主要研究方 向为进化计算及其应用研究。已发表 CAO Xizheng,MAO Wentao,QIAO Kun,e tc.Auto- 学术论文10余篇。 mated composition algorithm for gentle music based on pitch melody unit[J].Acta automatica sinica,2012,38(10): 1627-1638. [4]GIBSON P M.BYRNE J A.NEUROGEN,musical com- position using genetic algorithms and cooperating neural 汪镭,教授,博士生导师.主要研 networks[C]//Proceedings of the 1991 2nd International 究方向为群体智能、并行实现技术。 Conference on Artificial Neural Networks.Bournemouth, 出版专著4部.发表学术论文90余篇。 UK,1991:309-313. [5]HEVNER K.Experimental studies of the elements of ex- pression in music[J].American journal of psychology, 1936,48(2):246-268
3 结束语 针对情感匹配模型在评价词曲匹配度时存在 评价准确度低的缺陷,本文提出综合考虑词曲情 感和词曲间节奏关系,进一步提出了基于序列模 型的词曲匹配度智能评估算法。仿真结果表明, 综合考虑音乐词曲间情感和节奏特征的音乐词曲 匹配算法模型,能给音乐作品做出更加准确的智 能评估。 参考文献: BILES J A. GenJam: a genetic Algorithm for generating jazz solos[C]//Proceedings of 1994 International Computer Music Conference. Aarhus, Denmark, 1994: 131−137. [1] PHON-AMNUAISUK S, TUSON A, WIGGINS G. Evolving musical harmonisation[C]//Proceedings of International Conference on Artificial Neural Nets and Genetic Algorithms. Portorož, Slovenia, 1999: 229−234. [2] 曹西征, 毛文涛, 乔锟, 等. 基于音高旋律元的柔和乐曲 的自动作曲算法 [J]. 自动化学报, 2012, 38(10): 1627–1638. CAO Xizheng, MAO Wentao, QIAO Kun, e tc. Automated composition algorithm for gentle music based on pitch melody unit[J]. Acta automatica sinica, 2012, 38(10): 1627–1638. [3] GIBSON P M, BYRNE J A. NEUROGEN, musical composition using genetic algorithms and cooperating neural networks[C]//Proceedings of the 1991 2nd International Conference on Artificial Neural Networks. Bournemouth, UK, 1991: 309−313. [4] HEVNER K. Experimental studies of the elements of expression in music[J]. American journal of psychology, 1936, 48(2): 246–268. [5] YU Yi, CANALES S. Conditional LSTM-GAN for melody generation from lyrics [J]. arXiv: 1908.05551, 2019. [6] HARRIS Z S. Distributional structure[J]. Word, 1954, 10(2/3): 146–162. [7] SUTSKEVER I, VINYALS O, LE Q V. Sequence to sequence learning with neural networks[C]//Proceedings of the 27th International Conference on Neural Information Processing Systems. Cambridge, USA, 2014. [8] HOCHREITER S, SCHMIDHUBER J. Long short-term memory[J]. Neural computation, 1997, 9(8): 1735–1780. [9] KINGMA D P, BA J. Adam: a method for stochastic optimization [J]. arXiv: 1412.6980, 2014. [10] 作者简介: 陈壮豪,硕士研究生,主要研究方 向为音乐评价的自动化。 张茂清,博士研究生,主要研究方 向为进化计算及其应用研究。已发表 学术论文 10 余篇。 汪镭,教授,博士生导师,主要研 究方向为群体智能、并行实现技术。 出版专著 4 部,发表学术论文 90 余篇。 第 1 期 陈壮豪,等:基于序列模型的音乐词曲匹配度智能评估算法 ·73·