
多媒体技术基础第3章数字声音编码
多媒体技术基础 第3章 数字声音编码

第3章数字声音编码目录3.1声音简介3.6增量调制与自适应增量调制3.1.1声音是什么3.6.1增量调制(DM)3.1.2声音的频率范围3.6.2自适应增量调制(ADM)3.2声音信号数字化3.7自适应差分脉冲编码调制3.2.1从模拟过渡到数字3.7.1自适应脉冲编码调制(APCM)的概念3.2.2模拟信号与数字信号3.7.2差分脉冲编码调制(DPCM的3.2.3声音信号数字化概念3.2.4声音质量与数据率3.7.3自适应差分脉冲编码调制3.3声音质量的MOS评分标准(ADPCM)3.4脉冲编码调制(PCM)3.7.4G.726ADPCM编译码器3.4.1PCM的概念3.8G.722SB-ADPCM编译码器3.4.2均匀量化3.8.1子带编码(SBC3.4.3非均匀量化3.8.2子带-自适应差分脉冲编码调制3.5PCM在通信中的应用(SB-ADPCM)3.9线性预测编码(LPC)的概念3.5.1频分多路复用3.5.2时分多路复用3.10GSM声音简介3.5.3数字通信线路的数据传输率3.11话音编码标准摘要3.11.1编码算法的性能3.11.2话音编码标准参考文献和站点2025年10月26日2 of 46第3章数字声音编码
2025年10月26日 第3章 数字声音编码 2 of 46 第3章 数字声音编码目录 3.1 声音简介 3.1.1 声音是什么 3.1.2 声音的频率范围 3.2 声音信号数字化 3.2.1 从模拟过渡到数字 3.2.2 模拟信号与数字信号 3.2.3 声音信号数字化 3.2.4 声音质量与数据率 3.3声音质量的MOS评分标准 3.4 脉冲编码调制(PCM) 3.4.1 PCM的概念 3.4.2 均匀量化 3.4.3 非均匀量化 3.5 PCM在通信中的应用 3.5.1 频分多路复用 3.5.2 时分多路复用 3.5.3 数字通信线路的数据传输率 3.6 增量调制与自适应增量调制 3.6.1 增量调制(DM) 3.6.2 自适应增量调制(ADM) 3.7 自适应差分脉冲编码调制 3.7.1 自适应脉冲编码调制(APCM) 的概念 3.7.2 差分脉冲编码调制(DPCM)的 概念 3.7.3 自适应差分脉冲编码调制 (ADPCM) 3.7.4 G.726 ADPCM编译码器 3.8 G.722 SB-ADPCM编译码器 3.8.1 子带编码(SBC) 3.8.2 子带-自适应差分脉冲编码调制 (SB-ADPCM) 3.9 线性预测编码(LPC)的概念 3.10 GSM声音简介 3.11 话音编码标准摘要 3.11.1 编码算法的性能 3.11.2 话音编码标准 参考文献和站点

3.1声音简介■声音是什么声音是听觉器官对声波的感知,而声波是通过空气或其他媒体传播的连续振动声音的强弱体现在声波压力的大小上,音调的高低体现在声音的频率上声音用电表示时,声音信号在时间和幅度上都是连续的模拟信号,如图3-1所示声波具有普通波所具有的特性,例如反射(reflection)、折射(refraction)和衍射(diffraction)等图3-1声音是数=种连续的波2025年10月26日3 of 46
2025年10月26日 第3章 数字声音编码 3 of 46 3.1 声音简介 ◼ 声音是什么 ➢ 声音是听觉器官对声波的感知,而声波是通过空气 或其他媒体传播的连续振动 ➢ 声音的强弱体现在声波压力的大小上,音调的高低 体现在声音的频率上 ➢ 声音用电表示时,声音信号在时间和幅度上都是连 续的模拟信号,如图3-1所示 ➢ 声波具有普通波所具有的特性,例如反射 (reflection)、折射 (refraction)和衍射(diffraction)等 图3-1 声音是一种连续的波

3.1声音简介(续1)Audio是什么声音Audio作名词通常指频率在10Hz和20000Hz范围里的声音 The part of television or motion-picture equipment that has to do withsound The broadcasting, reception, or reproduction of soundAudible sound-A sound signal—音频Audio作修词修饰或说明人的听觉系统可感知的频率(10 ~ 20 000 Hz)Relatingtofrequencies withintherange of perceptionbythehuman-fromabout15through20,000hertz (cyclespersecond)ear-OforrelatingtohumanlyaudiblesoundOf orrelatingtothebroadcastingorreceptionof soundOf or relating to high-fidelity sound reproduction4 of 462025年10月26日第3章数字声音编码
2025年10月26日 第3章 数字声音编码 4 of 46 3.1 声音简介(续1) ◼ Audio是什么 Audio作名词——声音 通常指频率在10 Hz和20 000 Hz范围里的声音 ◼ The part of television or motion-picture equipment that has to do with sound ◼ The broadcasting, reception, or reproduction of sound ◼ Audible sound ◼ A sound signal Audio作修词——音频 修饰或说明人的听觉系统可感知的频率 (10~20 000 Hz) ◼ Relating to frequencies within the range of perception by the human ear — from about 15 through 20,000 hertz (cycles per second). ◼ Of or relating to humanly audible sound. ◼ Of or relating to the broadcasting or reception of sound. ◼ Of or relating to high-fidelity sound reproduction

3.1 声音简介(续2)练习:如何翻译下面的术语音乐点播/声音点播audio on demanddigital audio——数字声音7DVD-audio--? streaming audio?audio streaming--?MPEGaudio-?audio compression声音的频率高保真声音(high-fidelityaudio):10~20000Hz声音(audio):20~20000Hz话音(speech):300~3000/3400Hz亚音/次音(subsonic):20 000Hz5 of 462025年10月26日第3章数字声音编码
2025年10月26日 第3章 数字声音编码 5 of 46 3.1 声音简介(续2) ◼ 练习: 如何翻译下面的术语 ➢ audio on demand——音乐点播/声音点播 ➢ digital audio——数字声音 ➢ DVD-audio——? ➢ streaming audio ——? ➢ audio streaming ——? ➢ MPEG audio ——? ➢ audio compression ——? ◼ 声音的频率 ➢ 高保真声音(high-fidelity audio): 10 ~ 20 000 Hz ➢ 声音(audio): 20~ 20 000Hz ➢ 话音(speech): 300~3000/3400 Hz ➢ 亚音/次音(subsonic): 20 000 Hz

3.2声音信号数字化数字化的概念采样和量化连续时间的离散化通过采样来实现,就是每隔相等的一段时简菜样一茨,这种菜样称为筠匀来释(uniform sampling)连续幅度的离散化通过量化(quantization)来实现,就是把信弯的瑾霞划穷成一尔霞一小殿,如巢檔度的等简隔的,就称为线性量化,否则就称为非线性量化。图3-2表宗了声音数学花的概念01010100001100100001000010011010101111001101图3-2声音的采样和量化2025年10月26日6 of 46第3章数字声音编码
2025年10月26日 第3章 数字声音编码 6 of 46 3.2 声音信号数字化 ◼ 数字化的概念 ➢ 采样和量化 ◼ 连续时间的离散化通过采样来实现,就是每隔相等的一段 时间采样一次,这种采样称为均匀采样(uniform sampling) ◼ 连续幅度的离散化通过量化(quantization)来实现,就是把 信号的强度划分成一小段一小段,如果幅度的划分是等间 隔的,就称为线性量化,否则就称为非线性量化。图3-2表 示了声音数字化的概念 图3-2 声音的采样和量化

3.2声音信号数字化(续1)■采样频率采样频率由根据奈奎斯特理论(Nyquist theory)确定奈奎斯特理论指出,采样频率不应低于声音信号最高频率的两倍,这样就能把以数字表达的声音还原成原来的声音,这叫做无损数字化(losslessdigitization)假设被采样信号的最高频率为fmax/则采样定律可用公式表示为f, ≥2fmax读者可这样来理解奈奎斯特理论,声音信号可看成是由许多正弦波组成的,一个振幅为A、频率为的正弦波至少需要两个采样样本表示,因此,如果一个信号中的最高频率为fmax,采样频率最低要选择2fmax。例如话音信号的最高频率约为3.4kHz,采样频率就选为8kHz7 of 462025年10月26日第3章数字声音编码
2025年10月26日 第3章 数字声音编码 7 of 46 3.2 声音信号数字化(续1) ◼ 采样频率 ➢ 采样频率由根据奈奎斯特理论(Nyquist theory)确定 ◼ 奈奎斯特理论指出,采样频率不应低于声音信号最高频率 的两倍,这样就能把以数字表达的声音还原成原来的声音, 这叫做无损数字化(lossless digitization) ➢ 假设被采样信号的最高频率为fmax,则采样定律可用 公式表示为 max 2 s f f ➢ 读者可这样来理解奈奎斯特理论 ◼ 声音信号可看成是由许多正弦波组成的,一个振幅为A、频率 为f的正弦波至少需要两个采样样本表示,因此,如果一个信 号中的最高频率为fmax ,采样频率最低要选择2 fmax 。例如, 话音信号的最高频率约为3.4 kHz,采样频率就选为8 kHz

3.2声音信号数字化(续2)■采样精度度量声音波形幅度的精确程度,用每个声音样本的位数(即bps)表示■例如每个声音样本用16位表示,测得的声音样本值是在[0~65535]范围里的数,它的精度是1/65536精度是在模拟信号数字化过程中度量模拟信号的最小单位,因此也称量化阶(quantizationstepsize)■0~1V的电压用256个数表示时,量化阶等于1/256V样本位数的大小影响到声音的质量,位数越多,声音质量越高,所需存储空间也越多;位数越少,声音质量就越低,所需存储空间也越少2025年10月26日8 of 46第3章数字声音编码
2025年10月26日 第3章 数字声音编码 8 of 46 3.2 声音信号数字化(续2) ◼ 采样精度 ➢ 度量声音波形幅度的精确程度,用每个声音样本的 位数(即bps)表示 ◼ 例如每个声音样本用16位表示,测得的声音样本值是在 [0~65535]范围里的数,它的精度是1/65536 ◼ 精度是在模拟信号数字化过程中度量模拟信号的最小单位, 因此也称量化阶(quantization step size) ◼ 0~1 V的电压用256个数表示时,量化阶等于1/256 V ➢ 样本位数的大小影响到声音的质量,位数越多,声 音质量越高,所需存储空间也越多;位数越少,声 音质量就越低,所需存储空间也越少

3.2声音信号数字化(续3采样精度的另一种表示方法是信号噪声比,简称为信噪比(signal-to-noise ratio,SNR),并用下式计算iamalsignalSNR = 10 log1020log10noise其中,Vsienal表示信号电压,Vnoise表示量化噪声电压(模拟信号的采样值和与它最接近的数字数值之间的差值),SNR的单位为分贝(db)2025年10月26日9 of 46第3章数字声音编码
2025年10月26日 第3章 数字声音编码 9 of 46 3.2 声音信号数字化(续3) ➢ 采样精度的另一种表示方法是信号噪声比, 简称为信噪比(signal-to-noise ratio,SNR), 并用下式计算 2 10 10 2 ( ) 10 log 20 log ( ) signal signal noise noise V V SNR V V = = 其中,Vsignal表示信号电压,Vnoise表示量化噪 声电压(模拟信号的采样值和与它最接近的数 字数值之间的差值),SNR的单位为分贝(db)

3.2声音信号数字化(续4)■声音质量和数据率质量度量采样频率样本精度单道声/立(未压缩的)频率范围质量体声(kHz)(bit/s)(Hz)数据率(kb/s)8864.0电话*单道声200~34008AM11.02588.2单道声20 ~ 1500016FM22.050立体声705.650 ~ 7000CD44.116立体声1411.220~200004816DAT立体声1536.020~20000*电话使用m律编码,动态范围为13位,压缩后的样本精度为8位2025年10月26日10 of 46第3章数字声音编码
2025年10月26日 第3章 数字声音编码 10 of 46 3.2 声音信号数字化(续4) ◼ 声音质量和数据率—— 质量度量 质量 采样频率 (kHz) 样本精度 (bit/s) 单道声/立 体声 (未压缩的) 数据率(kb/s) 频率范围 (Hz) 电话* 8 8 单道声 64.0 200~3 400 AM 11.025 8 单道声 88.2 20~15000 FM 22.050 16 立体声 705.6 50~7000 CD 44.1 16 立体声 1411.2 20~20000 DAT 48 16 立体声 1536.0 20~20000 *电话使用m律编码,动态范围为13位,压缩后的样本精度为8位