取无标注和有标注样本的公共信息，学习无标注的样本，充分利用数据库。 3

正在加载图片...

智能系统学报第15卷取无标注和有标注样本的公共信息，学习无标注识别效果最佳。的样本，充分利用数据库。混合特征融合两种及两种以上的特征。金琴等例为每个情感类构建一个情感词典，其中包含 3特征提取与降维特定情绪的词汇和分配的权重，用以表明这种情如何提取语音中的丰富情感信息并凝练，直感的倾向。然后，使用此情感词典为每个话语生接影响情感分类和回归算法的运算效率和准确成矢量特征表示即情感向量词汇特征。最后，融性。因此，提取有代表性的语音情感特征并进行合声学特征、情感向量和BoW,提升情感识别准降维，便显得十分必要。确率。Ashish等s以语境特征和声学特征为切入 3.1预处理点，系统分析了区分和忽略性别信息对情感识别为消除人体语音器官和声音采集设备的差率的影响。实验结果表明，区分性别的情感识别异、混叠、高次谐波失真等影响，在特征提取前需更准确。进行预处理。预处理包括：提取语音信号的起始 3)深度情感特征提取点和终止点的端点检测、将语音信号转化为短时因低级特征数量有限、提取耗资且不能完整平稳分析帧的加窗分帧、对高频部分进行加重，描述语音信号，所以研究者尝试从低级特征中进增强分辨率的预加重等.38 一步提取高级特征或直接批量处理原始音频，自 3.2特征提取动提取高级特征，例如深度特征。深度学习可深度特征是深度学习提取的高级特征，在语从每层网络和网络层次结构中提取复杂特征一深音情感识别应用中表现突出3，故将特征在原来度特征，常用方法有卷积神经网络(convolutional 4类0基础上拓展为声学、语言、语境、深度和混 neural network,CNN)、深度信念网络(deep belief 合共5类特征。 network,.DBN)、深度神经网络(deep neural net- 1)声学特征提取 work,DNN)等。声学特征分为3类：韵律学特征、基于谱的相王忠民等采用CNN从语谱图中提取图像关特征和声音质量特征，描述语音的音调、幅度、特征，改善MFCC丢失信息识别准确率不高的问音色等信息。如共振峰、梅尔频率倒谱系数14 题。但CNN无法准确捕捉语谱图中特征的空间 (Mel frequency cepstrum coefficient,.MFCC)和抖动信息，为此Wu等s采用两个循环连接的胶囊网和谐波噪声比(harmonic to noise ratio,HNR)。常络提取特征，增强时空敏感度。此外，Zhang等o 规提取方法，如自相关函数法和小波法，可参考以类似于RGB图像表示的3个对数梅尔光谱图文献[9]。作为DCNN的输人，然后通过ImageNet'ss预训练此外，为减少手工提取的复杂性和盲目性，学的AlexNet DCNN模型学习光谱图通道中的高级者们采用深度学习提取声学特征啊。如分层稀疏特征表示，最后将学习的特征由时间金字塔匹配编码以无人监督的方式，自动挖掘情绪语音数 (DTPM)策略聚合得到全局深度特征，进一步提据的非线性特征，语音情感区分特性更强；基于升对有限样本特征提取的有效性。为有效描述情双层神经网络的域自适应方法4]可共享源域和感连续性变化，Zhao等s6采用局部特征学习块目标域中相关类的公共先验知识，实现源域和目从log-mel谱图提取的局部特征，重构为时序形式标域的共享特征表示，可有效传递知识和提高分后输入至长短期记忆网络(long and short term 类性能。 memory network,LSTM),以进一步提取全局上下 2)语言、语境和混合特征提取文特征。语言特征通过对语义信息进行分析提取获张丽等5采用贪婪算法进行无监督学习，通得。研究者提出对语义按固定长度分段，比对码过BP神经网络反向微调，找到全局最优点，再将本将其转化为特征向量，如BoW(Bag of Words) DBN算法的输出参数作为深度特征，并在此过程 BoNG(Bag of N-grams)50 BoCNG(Bag of Character 中，采用随机隐退思想防止过拟合。 N-grams)网和小波特征B等。进一步，为解决基于多样本库的源域和目标语境特征主要描述不同说话者的性别和文化域中数据分布差异，Abdelwahab等s采用域对抗背景的差异0。区分性别能改善分类效果②。通神经网络创建源域(USC-IEMOCAP和MSP-IM- 过对比分析文化内、多元文化和跨文化情况下情 PROV数据库)和目标域(MSP-Podcast数据库)的感识别效果，其中，文化内、多元文化背景下情感共同特征表示一深度特征，然后通过梯度反转取无标注和有标注样本的公共信息，学习无标注的样本，充分利用数据库。 3 特征提取与降维如何提取语音中的丰富情感信息并凝练，直接影响情感分类和回归算法的运算效率和准确性。因此，提取有代表性的语音情感特征并进行降维，便显得十分必要。 3.1 预处理为消除人体语音器官和声音采集设备的差异、混叠、高次谐波失真等影响，在特征提取前需进行预处理。预处理包括：提取语音信号的起始点和终止点的端点检测、将语音信号转化为短时平稳分析帧的加窗分帧、对高频部分进行加重，增强分辨率的预加重等[37-38]。 3.2 特征提取深度特征是深度学习提取的高级特征，在语音情感识别应用中表现突出[39] ，故将特征在原来 4 类 [40] 基础上拓展为声学、语言、语境、深度和混合共 5 类特征。 1) 声学特征提取声学特征分为 3 类：韵律学特征、基于谱的相关特征和声音质量特征，描述语音的音调、幅度、音色等信息。如共振峰、梅尔频率倒谱系数[41-45] (Mel frequency cepstrum coefficient, MFCC) 和抖动和谐波噪声比 (harmonic to noise ratio, HNR)。常规提取方法，如自相关函数法和小波法，可参考文献 [9]。此外，为减少手工提取的复杂性和盲目性，学者们采用深度学习提取声学特征[46]。如分层稀疏编码[47] 以无人监督的方式，自动挖掘情绪语音数据的非线性特征，语音情感区分特性更强；基于双层神经网络的域自适应方法[48] 可共享源域和目标域中相关类的公共先验知识，实现源域和目标域的共享特征表示，可有效传递知识和提高分类性能。 2) 语言、语境和混合特征提取语言特征通过对语义信息进行分析提取获得。研究者提出对语义按固定长度分段，比对码本将其转化为特征向量，如 BoW(Bag of Words)[49] ， BoNG(Bag of N-grams)[50] 、BoCNG(Bag of Character N-grams)[50] 和小波特征[51] 等。语境特征主要描述不同说话者的性别和文化背景的差异[40]。区分性别能改善分类效果[52]。通过对比分析文化内、多元文化和跨文化情况下情感识别效果，其中，文化内、多元文化背景下情感识别效果最佳[53]。混合特征融合两种及两种以上的特征。金琴等 [49] 为每个情感类构建一个情感词典，其中包含特定情绪的词汇和分配的权重，用以表明这种情感的倾向。然后，使用此情感词典为每个话语生成矢量特征表示即情感向量词汇特征。最后，融合声学特征、情感向量和 BoW，提升情感识别准确率。Ashish 等 [52] 以语境特征和声学特征为切入点，系统分析了区分和忽略性别信息对情感识别率的影响。实验结果表明，区分性别的情感识别更准确。 3) 深度情感特征提取因低级特征数量有限、提取耗资且不能完整描述语音信号，所以研究者尝试从低级特征中进一步提取高级特征或直接批量处理原始音频，自动提取高级特征，例如深度特征[39]。深度学习可从每层网络和网络层次结构中提取复杂特征—深度特征，常用方法有卷积神经网络 (convolutional neural network, CNN)、深度信念网络 (deep belief network, DBN)、深度神经网络 (deep neural network, DNN) 等。王忠民等[43] 采用 CNN 从语谱图中提取图像特征，改善 MFCC 丢失信息识别准确率不高的问题。但 CNN 无法准确捕捉语谱图中特征的空间信息，为此 Wu 等 [54] 采用两个循环连接的胶囊网络提取特征，增强时空敏感度。此外，Zhang 等 [40] 以类似于 RGB 图像表示的 3 个对数梅尔光谱图作为 DCNN 的输入，然后通过 ImageNet[55] 预训练的 AlexNet DCNN 模型学习光谱图通道中的高级特征表示，最后将学习的特征由时间金字塔匹配 (DTPM) 策略聚合得到全局深度特征，进一步提升对有限样本特征提取的有效性。为有效描述情感连续性变化，Zhao 等 [56] 采用局部特征学习块从 log-mel 谱图提取的局部特征，重构为时序形式后输入至长短期记忆网络 (long and short term memory network, LSTM)，以进一步提取全局上下文特征。张丽等[57] 采用贪婪算法进行无监督学习，通过 BP 神经网络反向微调，找到全局最优点，再将 DBN 算法的输出参数作为深度特征，并在此过程中，采用随机隐退思想防止过拟合。进一步，为解决基于多样本库的源域和目标域中数据分布差异，Abdelwahab 等 [58] 采用域对抗神经网络创建源域 (USC-IEMOCAP 和 MSP-IMPROV 数据库) 和目标域 (MSP-Podcast 数据库) 的共同特征表示−深度特征，然后通过梯度反转 ·4· 智能系统学报第 15 卷

<<向上翻页向下翻页>>

点击下载：语音情感识别研究综述（中国民航大学：高庆吉、赵志华、徐达、邢志伟）