正在加载图片...
智能系统学报 第15卷 取无标注和有标注样本的公共信息,学习无标注 识别效果最佳。 的样本,充分利用数据库。 混合特征融合两种及两种以上的特征。金琴 等例为每个情感类构建一个情感词典,其中包含 3特征提取与降维 特定情绪的词汇和分配的权重,用以表明这种情 如何提取语音中的丰富情感信息并凝练,直 感的倾向。然后,使用此情感词典为每个话语生 接影响情感分类和回归算法的运算效率和准确 成矢量特征表示即情感向量词汇特征。最后,融 性。因此,提取有代表性的语音情感特征并进行 合声学特征、情感向量和BoW,提升情感识别准 降维,便显得十分必要。 确率。Ashish等s以语境特征和声学特征为切入 3.1预处理 点,系统分析了区分和忽略性别信息对情感识别 为消除人体语音器官和声音采集设备的差 率的影响。实验结果表明,区分性别的情感识别 异、混叠、高次谐波失真等影响,在特征提取前需 更准确。 进行预处理。预处理包括:提取语音信号的起始 3)深度情感特征提取 点和终止点的端点检测、将语音信号转化为短时 因低级特征数量有限、提取耗资且不能完整 平稳分析帧的加窗分帧、对高频部分进行加重, 描述语音信号,所以研究者尝试从低级特征中进 增强分辨率的预加重等.38 一步提取高级特征或直接批量处理原始音频,自 3.2特征提取 动提取高级特征,例如深度特征。深度学习可 深度特征是深度学习提取的高级特征,在语 从每层网络和网络层次结构中提取复杂特征一深 音情感识别应用中表现突出3,故将特征在原来 度特征,常用方法有卷积神经网络(convolutional 4类0基础上拓展为声学、语言、语境、深度和混 neural network,CNN)、深度信念网络(deep belief 合共5类特征。 network,.DBN)、深度神经网络(deep neural net- 1)声学特征提取 work,DNN)等。 声学特征分为3类:韵律学特征、基于谱的相 王忠民等采用CNN从语谱图中提取图像 关特征和声音质量特征,描述语音的音调、幅度、 特征,改善MFCC丢失信息识别准确率不高的问 音色等信息。如共振峰、梅尔频率倒谱系数14 题。但CNN无法准确捕捉语谱图中特征的空间 (Mel frequency cepstrum coefficient,.MFCC)和抖动 信息,为此Wu等s采用两个循环连接的胶囊网 和谐波噪声比(harmonic to noise ratio,HNR)。常 络提取特征,增强时空敏感度。此外,Zhang等o 规提取方法,如自相关函数法和小波法,可参考 以类似于RGB图像表示的3个对数梅尔光谱图 文献[9]。 作为DCNN的输人,然后通过ImageNet'ss预训练 此外,为减少手工提取的复杂性和盲目性,学 的AlexNet DCNN模型学习光谱图通道中的高级 者们采用深度学习提取声学特征啊。如分层稀疏 特征表示,最后将学习的特征由时间金字塔匹配 编码以无人监督的方式,自动挖掘情绪语音数 (DTPM)策略聚合得到全局深度特征,进一步提 据的非线性特征,语音情感区分特性更强;基于 升对有限样本特征提取的有效性。为有效描述情 双层神经网络的域自适应方法4]可共享源域和 感连续性变化,Zhao等s6采用局部特征学习块 目标域中相关类的公共先验知识,实现源域和目 从log-mel谱图提取的局部特征,重构为时序形式 标域的共享特征表示,可有效传递知识和提高分 后输入至长短期记忆网络(long and short term 类性能。 memory network,LSTM),以进一步提取全局上下 2)语言、语境和混合特征提取 文特征。 语言特征通过对语义信息进行分析提取获 张丽等5采用贪婪算法进行无监督学习,通 得。研究者提出对语义按固定长度分段,比对码 过BP神经网络反向微调,找到全局最优点,再将 本将其转化为特征向量,如BoW(Bag of Words) DBN算法的输出参数作为深度特征,并在此过程 BoNG(Bag of N-grams)50 BoCNG(Bag of Character 中,采用随机隐退思想防止过拟合。 N-grams)网和小波特征B等。 进一步,为解决基于多样本库的源域和目标 语境特征主要描述不同说话者的性别和文化 域中数据分布差异,Abdelwahab等s采用域对抗 背景的差异0。区分性别能改善分类效果②。通 神经网络创建源域(USC-IEMOCAP和MSP-IM- 过对比分析文化内、多元文化和跨文化情况下情 PROV数据库)和目标域(MSP-Podcast数据库)的 感识别效果,其中,文化内、多元文化背景下情感 共同特征表示一深度特征,然后通过梯度反转取无标注和有标注样本的公共信息,学习无标注 的样本,充分利用数据库。 3 特征提取与降维 如何提取语音中的丰富情感信息并凝练,直 接影响情感分类和回归算法的运算效率和准确 性。因此,提取有代表性的语音情感特征并进行 降维,便显得十分必要。 3.1 预处理 为消除人体语音器官和声音采集设备的差 异、混叠、高次谐波失真等影响,在特征提取前需 进行预处理。预处理包括:提取语音信号的起始 点和终止点的端点检测、将语音信号转化为短时 平稳分析帧的加窗分帧、对高频部分进行加重, 增强分辨率的预加重等[37-38]。 3.2 特征提取 深度特征是深度学习提取的高级特征,在语 音情感识别应用中表现突出[39] ,故将特征在原来 4 类 [40] 基础上拓展为声学、语言、语境、深度和混 合共 5 类特征。 1) 声学特征提取 声学特征分为 3 类:韵律学特征、基于谱的相 关特征和声音质量特征,描述语音的音调、幅度、 音色等信息。如共振峰、梅尔频率倒谱系数[41-45] (Mel frequency cepstrum coefficient, MFCC) 和抖动 和谐波噪声比 (harmonic to noise ratio, HNR)。常 规提取方法,如自相关函数法和小波法,可参考 文献 [9]。 此外,为减少手工提取的复杂性和盲目性,学 者们采用深度学习提取声学特征[46]。如分层稀疏 编码[47] 以无人监督的方式,自动挖掘情绪语音数 据的非线性特征,语音情感区分特性更强;基于 双层神经网络的域自适应方法[48] 可共享源域和 目标域中相关类的公共先验知识,实现源域和目 标域的共享特征表示,可有效传递知识和提高分 类性能。 2) 语言、语境和混合特征提取 语言特征通过对语义信息进行分析提取获 得。研究者提出对语义按固定长度分段,比对码 本将其转化为特征向量,如 BoW(Bag of Words)[49] , BoNG(Bag of N-grams)[50] 、BoCNG(Bag of Character N-grams)[50] 和小波特征[51] 等。 语境特征主要描述不同说话者的性别和文化 背景的差异[40]。区分性别能改善分类效果[52]。通 过对比分析文化内、多元文化和跨文化情况下情 感识别效果,其中,文化内、多元文化背景下情感 识别效果最佳[53]。 混合特征融合两种及两种以上的特征。金琴 等 [49] 为每个情感类构建一个情感词典,其中包含 特定情绪的词汇和分配的权重,用以表明这种情 感的倾向。然后,使用此情感词典为每个话语生 成矢量特征表示即情感向量词汇特征。最后,融 合声学特征、情感向量和 BoW,提升情感识别准 确率。Ashish 等 [52] 以语境特征和声学特征为切入 点,系统分析了区分和忽略性别信息对情感识别 率的影响。实验结果表明,区分性别的情感识别 更准确。 3) 深度情感特征提取 因低级特征数量有限、提取耗资且不能完整 描述语音信号,所以研究者尝试从低级特征中进 一步提取高级特征或直接批量处理原始音频,自 动提取高级特征,例如深度特征[39]。深度学习可 从每层网络和网络层次结构中提取复杂特征—深 度特征,常用方法有卷积神经网络 (convolutional neural network, CNN)、深度信念网络 (deep belief network, DBN)、深度神经网络 (deep neural net￾work, DNN) 等。 王忠民等[43] 采用 CNN 从语谱图中提取图像 特征,改善 MFCC 丢失信息识别准确率不高的问 题。但 CNN 无法准确捕捉语谱图中特征的空间 信息,为此 Wu 等 [54] 采用两个循环连接的胶囊网 络提取特征,增强时空敏感度。此外,Zhang 等 [40] 以类似于 RGB 图像表示的 3 个对数梅尔光谱图 作为 DCNN 的输入,然后通过 ImageNet[55] 预训练 的 AlexNet DCNN 模型学习光谱图通道中的高级 特征表示,最后将学习的特征由时间金字塔匹配 (DTPM) 策略聚合得到全局深度特征,进一步提 升对有限样本特征提取的有效性。为有效描述情 感连续性变化,Zhao 等 [56] 采用局部特征学习块 从 log-mel 谱图提取的局部特征,重构为时序形式 后输入至长短期记忆网络 (long and short term memory network, LSTM),以进一步提取全局上下 文特征。 张丽等[57] 采用贪婪算法进行无监督学习,通 过 BP 神经网络反向微调,找到全局最优点,再将 DBN 算法的输出参数作为深度特征,并在此过程 中,采用随机隐退思想防止过拟合。 进一步,为解决基于多样本库的源域和目标 域中数据分布差异,Abdelwahab 等 [58] 采用域对抗 神经网络创建源域 (USC-IEMOCAP 和 MSP-IM￾PROV 数据库) 和目标域 (MSP-Podcast 数据库) 的 共同特征表示−深度特征, 然后通过梯度反转 ·4· 智 能 系 统 学 报 第 15 卷
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有