的划分标准。为方便理解，学者们从情感描述角度，将语音数据库划分为离散情感

正在加载图片...

第1期高庆吉，等：语音情感识别研究综述的划分标准。为方便理解，学者们从情感描述角言、标注人数、离散情感种类数、样本量及激发方度，将语音数据库划分为离散情感数据库和维度式6个方面分别分析常用离散和维度情感语音数情感数据库两类。表1和表2从参与人数、语据库。表1常用离散情感语音数据库统计表 Table 1 Statistical table of the frequently used discrete emotion speech databases 数据库参与人数语言标注者数离散情感样本量激发方式 BAUM-1s1201 17男、14女土耳其语 5 8 1222个自然 SAVEERn 4男英语 10 > 480个表演 RMLP☒ 8 7种 2 6 720个表演 EMO-DBI231 5男、5女德语 20 > 535个表演 eNTERFACE'05R41 34男、8女英语 2 6 1166个表演 RAVDESSI2ST 12男、12女英语 247 1440个引导 FAU AIBO2阿 21男、30女德语 5 9 9.2h 自然 CASIA汉语数据库图 2男、2女汉语 9600个表演 ACCorpus_SRt8] 25男、25女汉语表演表2常用维度情感语音数据库统计表 Table 2 Statistical table of the frequently used dimensional emotion speech databases 数据库参与人数语言标注者数维度情感样本量激发方式 VAM2可 47 德语 6-34 V、A、D 1018个自然 FAU AIBOL61 30男、21女德语 P、A、D 9.2h 自然 IEMOCAPR8] 5男、5女英语 ≥2 V、A、D 1150个引导 RECOLAI291 46 法语 6 V、A 9.5h 引导 CreativelT 7男、9女英语 34 V、A、D 8h 引导 SEMAINEB 150 德语 2-8 V、A、D、E、I 80h 引导注：P为愉悦维；V为效价维；A为唤醒维；D为支配维；E为期望维；I为强度维.愉悦(Pleasure)维和效价(Valence)维同义表1和表2根据激发方式将数据库分为自然 CAP。而并且嘈杂环境最接近自然环境，在其中型、表演型和引导型数据库。自然型数据库采集采集样本，数据库建立的难度较大，也对识别算的语音样本最接近自然交流，但是其制作难度法鲁棒性提出严峻挑战。高，目前数量较少，常用FAU AIBO数据库2a和 2.2 数据标注 VAM数据库2m;表演型数据库要求专业演员在离散情感数据库主要采用标注者投票判别情安静环境中根据指定语料进行表演并采集语音感种类和准确性®2刘，使用专业工具辅助判别较样本：引导型数据库数量最多，常通过视频或对少。维度情感数据库借助SAM系统B41或MAAT 话诱导安静环境中的参与者表达相应情感以获工具B量化PAD模型维度取值；FEELTRACE0 取样本。进一步可看出，常见离散情感语音数据量化VA模型维度取值；AnneMo一次仅标记库多属于表演型，常见维度情感语音数据库多属一个维度，结果更精确。于引导型。同时，情感标注也要求标注者有一定的经验，此外，由表1和表2可知，多数数据库区分性同时标注过程中精神高度集中。多数数据库采用别和语言种类。研究者可利用此信息度量不同性对多标注者标注的数据进行插值、标准化等处别、跨文化等语境特征对情感识别的影响并建立理，以降低标注者自身因素对标注结果的干扰。智能推理模型，为实现个性化人机交互提供可能四。语音情感数据库不断丰富，情感描述能力不进一步，离散情感与维度情感联合建立数据断提升的同时，对数据标注的新需求也不断扩库，便于研究者理解和使用，如FAU AIBO;结合充，如何通过模块设计等方法集成各优秀的数据面部表情、语音和姿态等1建立多模态数据库，标注工具的性能集成，是一个研究方向。此外，拓展识别算法的信息维度，如SAVEE、IEMO- 研究者开始探索弱标注，即采用半监督的方法提的划分标准。为方便理解，学者们从情感描述角度，将语音数据库划分为离散情感数据库和维度情感数据库两类。表 1 和表 2 从参与人数、语言、标注人数、离散情感种类数、样本量及激发方式 6 个方面分别分析常用离散和维度情感语音数据库。表 1 常用离散情感语音数据库统计表 Table 1 Statistical table of the frequently used discrete emotion speech databases 数据库参与人数语言标注者数离散情感样本量激发方式 BAUM-1s[20] 17男、14女土耳其语 5 8 1 222个自然 SAVEE[21] 4男英语 10 7 480个表演 RML[22] 8 7种 2 6 720个表演 EMO-DB[23] 5男、5女德语 20 7 535个表演 eNTERFACE'05[24] 34男、8女英语 2 6 1 166个表演 RAVDESS[25] 12男、12女英语 247 8 1 440个引导 FAU AIBO[26] 21男、30女德语 5 9 9.2 h 自然 CASIA汉语数据库[8] 2男、2女汉语 — 5 9 600个表演 ACCorpus＿SR[8] 25男、25女汉语 — 5 — 表演表 2 常用维度情感语音数据库统计表 Table 2 Statistical table of the frequently used dimensional emotion speech databases 数据库参与人数语言标注者数维度情感样本量激发方式 VAM[27] 47 德语 6~34 V、A、D 1 018个自然 FAU AIBO[26] 30男、21女德语 5 P、A、D 9.2 h 自然 IEMOCAP[28] 5男、5女英语 ≥2 V、A、D 1 150个引导 RECOLA[29] 46 法语 6 V、A 9.5 h 引导 CreativeIT[30] 7男、9女英语 3~4 V、A、D 8 h 引导 SEMAINE[31] 150 德语 2~8 V、A、D、E、I 80 h 引导注：P为愉悦维; V为效价维; A为唤醒维; D为支配维; E为期望维; I为强度维. 愉悦(Pleasure)维和效价(Valence)维同义. 表 1 和表 2 根据激发方式将数据库分为自然型、表演型和引导型数据库。自然型数据库采集的语音样本最接近自然交流，但是其制作难度高，目前数量较少，常用 FAU AIBO 数据库[26] 和 VAM 数据库[27] ；表演型数据库要求专业演员在安静环境中根据指定语料进行表演并采集语音样本；引导型数据库数量最多，常通过视频或对话诱导安静环境中的参与者表达相应情感以获取样本。进一步可看出，常见离散情感语音数据库多属于表演型，常见维度情感语音数据库多属于引导型。此外，由表 1 和表 2 可知，多数数据库区分性别和语言种类。研究者可利用此信息度量不同性别、跨文化等语境特征对情感识别的影响并建立智能推理模型，为实现个性化人机交互提供可能[32]。进一步，离散情感与维度情感联合建立数据库，便于研究者理解和使用，如 FAU AIBO；结合面部表情、语音和姿态等[33] 建立多模态数据库，拓展识别算法的信息维度，如 SAVEE、IEMOCAP。而并且嘈杂环境最接近自然环境，在其中采集样本，数据库建立的难度较大，也对识别算法鲁棒性提出严峻挑战。 2.2 数据标注离散情感数据库主要采用标注者投票判别情感种类和准确性[20,24] ，使用专业工具辅助判别较少。维度情感数据库借助 SAM 系统[34] 或 MAAT 工具[35] 量化 PAD 模型维度取值；FEELTRACE[30] 量化 VA 模型维度取值；ANNEMO[36] 一次仅标记一个维度，结果更精确[15]。同时，情感标注也要求标注者有一定的经验，同时标注过程中精神高度集中。多数数据库采用对多标注者标注的数据进行插值、标准化等处理，以降低标注者自身因素对标注结果的干扰。语音情感数据库不断丰富，情感描述能力不断提升的同时，对数据标注的新需求也不断扩充，如何通过模块设计等方法集成各优秀的数据标注工具的性能集成，是一个研究方向。此外，研究者开始探索弱标注，即采用半监督的方法提第 1 期高庆吉，等：语音情感识别研究综述 ·3·

<<向上翻页向下翻页>>

点击下载：语音情感识别研究综述（中国民航大学：高庆吉、赵志华、徐达、邢志伟）