语音(音)编码简介 西安电子科技大学多媒体研究所 http://www.mti.xidian.edu.cn
XIDIAN 西安电子科技大学多媒体研究所 http://www.mti.xidian.edu.cn 语音(声音)编码简介
诺术所研第热点 ☆话音压缩编码( Speech Coding) 基于内容的音频检索技术 Content based Audio Retrieval ☆话音识别( Speech Recognition) ☆文本话音转换( Text To Speech)
话音技术的研究热点 ❖话音压缩编码(Speech Coding) ❖基于内容的音频检索技术(Contentbased Audio Retrieval ) ❖话音识别(Speech Recognition) ❖文本话音转换(Text To Speech)
衡量话音编码器的因素 ◇音频质量 令数据率 令编/解码延时 算法复杂度 价格因素
衡量话音编码器的因素 ❖音频质量 ❖数据率 ❖编/解码延时 ❖算法复杂度 ❖价格因素
话音编择码器的分类(1) 波形编译码器( waveform coder):不利用 生成话音的信号的任何知识,将话音视为一种普 通的声音,直接对波形信号进行采样和量化。例 如PCM、DPCM、 ADPCM等 令音源编译码器( Source coder):也叫参数编 译码器、声码器( vocoder)。它从话音波形信 号中提取生成话音的参数,使用这些参数通过话 音生成模型重构出话音。 令混合编译码器( Hybrid code):综合使用上 述两种技术。使用的激励信号波形尽可能接近于 原始话音信号的浪形。例如cELP
话音编译码器的分类(1) ❖ 波形编译码器(waveform coder):不利用 生成话音的信号的任何知识,将话音视为一种普 通的声音,直接对波形信号进行采样和量化。例 如PCM、DPCM、ADPCM等。 ❖ 音源编译码器(Source coder):也叫参数编 译码器、声码器(vocoder)。它从话音波形信 号中提取生成话音的参数,使用这些参数通过话 音生成模型重构出话音。 ❖ 混合编译码器(Hybrid coder):综合使用上 述两种技术。使用的激励信号波形尽可能接近于 原始话音信号的波形。例如CELP
话音编译码器的分类(2) 令基于音频数据的统计特性(波形编码) 令基于音频声学参数的编码(线性预测编码) 令基于人的听觉特性编码(掩蔽效应) ◆MPEG中高频编码 ◆ Dolby ac3
❖基于音频数据的统计特性(波形编码) ❖基于音频声学参数的编码(线性预测编码) ❖基于人的听觉特性编码(掩蔽效应) ◆MPEG中高频编码 ◆Dolby AC3 话音编译码器的分类(2)
音频编码比较 质量 研究目标 质与数据率 泥合编码 形编码CN LPC 248163264kbts/S
音 质 与 数 据 率 2 4 8 16 32 64 kbits/S 5 4 3 2 1 波形编码 PCM LPC 混合编码 研究目标 质量 音频编码比较
波形编码技术 脉冲编码调制(PCM 模拟声音「防失真 波形 PCM样本 信号输入滤波器 编码器 Anti-alias Waveform Filter C order 量化器 Step-Size
脉冲编码调制(PCM) 波形编码技术
PCM的量化方式 均匀量化与非均匀量化 量化输出数据 量化输出数据 非均匀 均匀量化间隔 量化间隔 X1x243 X 采样输入样本值 采样输入样本值
PCM的量化方式 均匀量化与非均匀量化
步均匀量化方式 ◇话音信号的概率密度可以近似的用拉普拉斯 (高斯)函数来表示 Plx G√2 令均匀量化的优点是简单,但其信号量化噪声比 随信号电平减小而明显下降。通常,希望误差 保持恒定,为了达到此目的,量化电平必须以 对数形式分布,即希望量化器是对输入信号的 对数进行量化
非均匀量化方式 ❖ 话音信号的概率密度可以近似的用拉普拉斯 (高斯)函数来表示 ( ) 2 1 2 e x e P x e − = ❖均匀量化的优点是简单,但其信号量化噪声比 随信号电平减小而明显下降。通常,希望误差 保持恒定,为了达到此目的,量化电平必须以 对数形式分布,即希望量化器是对输入信号的 对数进行量化
非均匀量化中两种压扩算法 数字电话通信G711 μ律(μLaw)压扩4(x)=()如(1+1xD In(1+Ar ◆A律(ALaw)压扩 x) 0<=|x<=1/A 1+1nA F2()=9( 1+h(Ax) 1/A 1+In a
非均匀量化中两种压扩算法 数字电话通信G.711 ◆ m律(m-Law)压扩 ◆A律(A-Law)压扩 0 <= |x| <= 1/A 1/A <= |x| <= 1