第2章数字声音及MID简介 水水水水*水水水水冰水水水水水水水水水水水客水水水水水水冰水水水水冰水水水水水水水水水水水水水冰水水水冰水水水水水水水水*水水冰水水水冰水 2.1.声音与听觉器官 2.2声音信号数字化 2.2.1从模拟过渡到数字 2.2.2模拟信号与数字信号 2.2.3声音信号数字化 2.2.4采样频率 2.2.5采样精度 2.2.6声音质量与数据率 2.3声音文件的存储格式 2.4声音工具 2.5声音质量的度量 2.6电子乐器数字接口QMD系统 2.6.1MIDI简介 2.6.2FM合成声音 2.6.3乐音样本合成声音 2.6.4MIDI系统 2.6.5MIDI消息 2.6.6MIDI音序器和标准MIDI文件 2.6.7合成器的多音调和多音色 2.6.8通用MIDI(GM) 练习与思考题 参考文献和站点 冰冰冰*冰水*冰水本冰水*冰水冰*水水水冰水冰水冰冰水冰*水*水水冰水水水*冰水*冰 声音是携带信息的极其重要的媒体,是多媒体技术研究中的一个重要内容。声音的种类 繁多,如人的话音、乐器声、动物发出的声音、机器产生的声音以及自然界的雷声、风声 雨声、闪电声等。这些声音有许多共同的特性,也有它们各自的特性。在用计算机处理这些 声音时,既要考虑它们的共性,又要利用它们的各自的特性。本章将介绍声音的基础知识, 重点掌握声音数字化的两个最基本的概念。此外,还介绍在上网浏览或者脱机工作时你会经 常遇到的声音文件存储格式和声音工具 2.1声音与听觉器官 声音是通过空气传播的一种连续的波,叫声波。声音的强弱体现在声波压力的大小上, 音调的高低体现在声音的频率上。声音用电表示时,声音信号在时间和幅度上都是连续的模 拟信号,如图2-01所示。声波具有普通波所具有的特性,例如反射( reflection)、折射 ( refraction)和衍射( diffraction)等
第2章 数字声音及MIDI简介 *************************************************************************** 2.1. 声音与听觉器官 2.2 声音信号数字化 2.2.1 从模拟过渡到数字 2.2.2 模拟信号与数字信号 2.2.3 声音信号数字化 2.2.4 采样频率 2.2.5 采样精度 2.2.6 声音质量与数据率 2.3 声音文件的存储格式 2.4 声音工具 2.5 声音质量的度量 2.6 电子乐器数字接口(MIDI)系统 2.6.1 MIDI简介 2.6.2 FM合成声音 2.6.3 乐音样本合成声音 2.6.4 MIDI 系统 2.6.5 MIDI消息 2.6.6 MIDI音序器和标准MIDI文件 2.6.7 合成器的多音调和多音色 2.6.8 通用MIDI(GM) 练习与思考题 参考文献和站点 *************************************************************************** 声音是携带信息的极其重要的媒体,是多媒体技术研究中的一个重要内容。声音的种类 繁多,如人的话音、乐器声、动物发出的声音、机器产生的声音以及自然界的雷声、风声、 雨声、闪电声等。这些声音有许多共同的特性,也有它们各自的特性。在用计算机处理这些 声音时,既要考虑它们的共性,又要利用它们的各自的特性。本章将介绍声音的基础知识, 重点掌握声音数字化的两个最基本的概念。此外,还介绍在上网浏览或者脱机工作时你会经 常遇到的声音文件存储格式和声音工具。 2.1 声音与听觉器官 声音是通过空气传播的一种连续的波,叫声波。声音的强弱体现在声波压力的大小上, 音调的高低体现在声音的频率上。声音用电表示时,声音信号在时间和幅度上都是连续的模 拟信号,如图2-01所示。声波具有普通波所具有的特性,例如反射 (reflection)、折射 (refraction)和衍射 (diffraction)等
第2章数字声音简介 图2-01声音是一种连续的波 对声音信号的分析表明,声音信号由许多频率不同的信号组成,这类信号称为复合信号, 而单一频率的信号称为分量信号。声音信号的一个重要参数就是带宽,它用来描述组成复合 信号的频率范围。如高保声音信号(high- fidelity audio)的频率范围为10Hz~20000Hz, 它的带宽约为20kHz,而视频信号的带宽是6MHz 声音信号的两个基本参数是频率和幅度。信号的频率是指信号每秒钟变化的次数,用Hz 表示。例如,大气压的变化周期很长,以小时或天数计算,一般人不容易感到这种气压信号 的变化,更听不到这种变化。对于频率为几Hz到20H的空气压力信号,人们也听不到,如 果它的强度足够大,也许可以感觉到。人们把频率小于20Hz的信号称为亚音信号,或称为 次音信号( subsonic):频率范围为20Hz~20kHz的信号称为音频( Audio)信号:虽然人的发 音器官发出的声音频率大约是80~3400Hz,但人说话的信号频率通常为300~3000Hz,人 们把在这种频率范围的信号称为话音( speech)信号:高于20kHz的信号称为超音频信号,或 称超声波( ultrasonic)信号。超音频信号具有很强的方向性,而且可以形成波束,在工业 上得到广泛的应用,如超声波探测仪,超声波焊接设备等就是利用这种信号。在多媒体技术 中,处理的信号主要是音频信号,它包括音乐、话音、风声、雨声、鸟叫声、机器声等 人们是否都能听到音频信号,这主要取决于各个人的年龄和耳朵的特性。一般来说,人 的听觉器官能感知的声音频率大约在20~20000H之间,在这种频率范围里感知的声音幅度 大约在0~120dB之间。除此之外,人的听觉器官对声音的感知还有一些重要特性,这些特 性将在第9章中介绍,它们在声音数据压缩中已经得到广泛的应用 2.2声音信号数字化 2.2.1从模拟过渡到数字 回顾历史,大多数电信号的处理一直是用模拟元部件(如晶体管、变压器、电阻、电容 等)对模拟信号进行处理。但是,开发一个具有相当精度、且几乎不受环境变化影响的模拟 信号处理元部件是相当困难的,而且成本也很高。 如果把模拟信号转变成数字信号,用数字来表示模拟量,对数字信号做计算,那末难点 就发生了转移,把开发模拟运算部件的问题转变成开发数字运算部件的问题,这就出现了数 字信号处理器( digital signal processor,DsP)。DSP与通用微处理器相比,除了它们的结 构不同外,其基本差别是,DSP有能力响应和处理采样模拟信号得到的数据流,如做乘法和 累加求和运算。 在数字域而不在模拟域中做信号处理的主要优点是:首先,数字信号计算是一种精确的 运算方法,它不受时间和环境变化的影响:其次,表示部件功能的数学运算不是物理上实现 的功能部件,而是仅用数学运算去模拟,其中的数学运算也相对容易实现:此外,可以对数 字运算部件进行编程,如欲改变算法或改变某些功能,还可对数字部件进行再编程 2.2.2模拟信号与数字信号 话音信号是典型的连续信号,不仅在时间上是连续的,而且在幅度上也是连续的。在时 间上“连续”是指在一个指定的时间范围里声音信号的幅值有无穷多个,在幅度上“连续 是指幅度的数值有无穷多个。我们把在时间和幅度上都是连续的信号称为模拟信号。 在某些特定的时刻对这种模拟信号进行测量叫做采样( sampling),由这些特定时刻采样 得到的信号称为离散时间信号。采样得到的幅值是无穷多个实数值中的一个,因此幅度还是 连续的。如果把信号幅度取值的数目加以限定,这种由有限个数值组成的信号就称为离散幅 度信号。例如,假设输入电压的范围是0.0V~0.7V,并假设它的取值只限定在0、0.1、0.2,…, 0.7共8个值。如果采样得到的幅度值是0.123V,它的取值就应算作0.1V,如果采样得到的幅
第2章 数字声音简介 2 图2-01 声音是一种连续的波 对声音信号的分析表明,声音信号由许多频率不同的信号组成,这类信号称为复合信号, 而单一频率的信号称为分量信号。声音信号的一个重要参数就是带宽,它用来描述组成复合 信号的频率范围。如高保声音信号(high-fidelity audio)的频率范围为10 Hz~20 000 Hz, 它的带宽约为20 kHz,而视频信号的带宽是6 MHz。 声音信号的两个基本参数是频率和幅度。信号的频率是指信号每秒钟变化的次数,用Hz 表示。例如,大气压的变化周期很长,以小时或天数计算,一般人不容易感到这种气压信号 的变化,更听不到这种变化。对于频率为几Hz到20 Hz的空气压力信号,人们也听不到,如 果它的强度足够大,也许可以感觉到。人们把频率小于20 Hz的信号称为亚音信号,或称为 次音信号(subsonic);频率范围为20 Hz~20 kHz的信号称为音频(Audio)信号;虽然人的发 音器官发出的声音频率大约是80~3400 Hz,但人说话的信号频率通常为300~3000 Hz,人 们把在这种频率范围的信号称为话音(speech)信号;高于20 kHz的信号称为超音频信号,或 称超声波 (ultrasonic) 信号。超音频信号具有很强的方向性,而且可以形成波束,在工业 上得到广泛的应用,如超声波探测仪,超声波焊接设备等就是利用这种信号。在多媒体技术 中,处理的信号主要是音频信号,它包括音乐、话音、风声、雨声、鸟叫声、机器声等。 人们是否都能听到音频信号,这主要取决于各个人的年龄和耳朵的特性。一般来说,人 的听觉器官能感知的声音频率大约在20~20000 Hz之间,在这种频率范围里感知的声音幅度 大约在0~120 dB之间。除此之外,人的听觉器官对声音的感知还有一些重要特性,这些特 性将在第9章中介绍,它们在声音数据压缩中已经得到广泛的应用。 2.2 声音信号数字化 2.2.1 从模拟过渡到数字 回顾历史,大多数电信号的处理一直是用模拟元部件(如晶体管、变压器、电阻、电容 等)对模拟信号进行处理。但是,开发一个具有相当精度、且几乎不受环境变化影响的模拟 信号处理元部件是相当困难的,而且成本也很高。 如果把模拟信号转变成数字信号,用数字来表示模拟量,对数字信号做计算,那末难点 就发生了转移,把开发模拟运算部件的问题转变成开发数字运算部件的问题,这就出现了数 字信号处理器(digital signal processor,DSP)。DSP与通用微处理器相比,除了它们的结 构不同外,其基本差别是,DSP有能力响应和处理采样模拟信号得到的数据流,如做乘法和 累加求和运算。 在数字域而不在模拟域中做信号处理的主要优点是:首先,数字信号计算是一种精确的 运算方法,它不受时间和环境变化的影响;其次,表示部件功能的数学运算不是物理上实现 的功能部件,而是仅用数学运算去模拟,其中的数学运算也相对容易实现;此外,可以对数 字运算部件进行编程,如欲改变算法或改变某些功能,还可对数字部件进行再编程。 2.2.2 模拟信号与数字信号 话音信号是典型的连续信号,不仅在时间上是连续的,而且在幅度上也是连续的。在时 间上“连续”是指在一个指定的时间范围里声音信号的幅值有无穷多个,在幅度上“连续” 是指幅度的数值有无穷多个。我们把在时间和幅度上都是连续的信号称为模拟信号。 在某些特定的时刻对这种模拟信号进行测量叫做采样(sampling),由这些特定时刻采样 得到的信号称为离散时间信号。采样得到的幅值是无穷多个实数值中的一个,因此幅度还是 连续的。如果把信号幅度取值的数目加以限定,这种由有限个数值组成的信号就称为离散幅 度信号。例如,假设输入电压的范围是0.0V~0.7V,并假设它的取值只限定在0、0.1、0.2,…, 0.7共8个值。如果采样得到的幅度值是0.123V,它的取值就应算作0.1V,如果采样得到的幅
第2章数字声音简介 度值是0.26V,它的取值就算作0.3,这种数值就称为离散数值。我们把时间和幅度都用离散 的数字表示的信号就称为数字信号 2.2.3声音信号数字化 声音进入计算机的第一步就是数字化,数字化实际上就是采样和量化。如前所述,连续 时间的离散化通过采样来实现,就是每隔相等的一小段时间采样一次,这种采样称为均匀采 样( uniform sampling):连续幅度的离散化通过量化( quantization)来实现,就是把信号的 强度划分成一小段一小段,如果幅度的划分是等间隔的,就称为线性量化,否则就称为非线 性量化。图2-02表示了声音数字化的概念。 0100 0010 0000 100l l010 1011 1100 图2-02声音的采样和量化 声音数字化需要回答两个问题:①每秒钟需要采集多少个声音样本,也就是采样频率(f) 是多少,②每个声音样本的位数( bit per sample,bps)应该是多少,也就是量化精度 2.2.4采样频率 采样频率的高低是根据奈奎斯特理论( Nyquist theory)和声音信号本身的最高频率决 定的。奈奎斯特理论指出,采样频率不应低于声音信号最高频率的两倍,这样就能把以数字 表达的声音还原成原来的声音,这叫做无损数字化( lossless digitization)。采样定律用 公式表示为 f≥2f或者T≤m/2 其中f为被采样信号的最高频率 你可以这样来理解奈奎斯特理论:声音信号可以看成由许许多多正弦波组成的,一个振 幅为A、频率为f正弦波至少需要两个采样样本表示,因此,如果一个信号中的最高频率为 ∫m,采样频率最低要选择2Jm。例如,电话话音的信号频率约为34kz,采样频率就 选为8kHz 2.2.5采样精度 样本大小是用每个声音样本的位数bit/s(即bps)表示的,它反映度量声音波形幅度的精 度。例如,每个声音样本用16位(2字节)表示,测得的声音样本值是在0 的范围里 它的精度就是输入信号的1/65536。样本位数的大小影响到声音的质量,位数越多,声音的 质量越高,而需要的存储空间也越多;位数越少,声音的质量越低,需要的存储空间越少 采样精度的另一种表示方法是信号噪声比,简称为信噪比( signal-to- noise ratio, SNR),并用下式计算: sNr= 10 lg [(sigmal)/(Voise)]=20 1g (Signal /Vnoise 其中,Vima表示信号电压,表示噪声电压:SNR的单位为分贝(db)
第2章 数字声音简介 3 度值是0.26V,它的取值就算作0.3,这种数值就称为离散数值。我们把时间和幅度都用离散 的数字表示的信号就称为数字信号。 2.2.3 声音信号数字化 声音进入计算机的第一步就是数字化,数字化实际上就是采样和量化。如前所述,连续 时间的离散化通过采样来实现,就是每隔相等的一小段时间采样一次,这种采样称为均匀采 样(uniform sampling);连续幅度的离散化通过量化(quantization)来实现,就是把信号的 强度划分成一小段一小段,如果幅度的划分是等间隔的,就称为线性量化,否则就称为非线 性量化。图2–02表示了声音数字化的概念。 图2-02 声音的采样和量化 声音数字化需要回答两个问题:①每秒钟需要采集多少个声音样本,也就是采样频率(fs) 是多少,②每个声音样本的位数(bit per sample,bps)应该是多少,也就是量化精度。 2.2.4 采样频率 采样频率的高低是根据奈奎斯特理论(Nyquist theory)和声音信号本身的最高频率决 定的。奈奎斯特理论指出,采样频率不应低于声音信号最高频率的两倍,这样就能把以数字 表达的声音还原成原来的声音,这叫做无损数字化(lossless digitization)。采样定律用 公式表示为 fs 2f 或者 Ts T/2 其中f为被采样信号的最高频率。 你可以这样来理解奈奎斯特理论:声音信号可以看成由许许多多正弦波组成的,一个振 幅为A、频率为f的正弦波至少需要两个采样样本表示,因此,如果一个信号中的最高频率为 max f ,采样频率最低要选择2 max f 。例如,电话话音的信号频率约为3.4 kHz,采样频率就 选为8 kHz。 2.2.5 采样精度 样本大小是用每个声音样本的位数bit/s(即bps)表示的,它反映度量声音波形幅度的精 度。例如,每个声音样本用16位(2字节)表示,测得的声音样本值是在0~65536的范围里, 它的精度就是输入信号的1/65536。样本位数的大小影响到声音的质量,位数越多,声音的 质量越高,而需要的存储空间也越多;位数越少,声音的质量越低,需要的存储空间越少。 采样精度的另一种表示方法是信号噪声比,简称为信噪比(signal-to-noise ratio, SNR),并用下式计算: SNR= 10 lg [(Vsignal) 2 / (Vnoise) 2 ]=20 lg (Vsignal / Vnoise) 其中,Vsignal表示信号电压,Vnoise表示噪声电压;SNR的单位为分贝(db)
第2章数字声音简介 例1:假设Vm=1,每个声音样本位数用1位表示时,Vm=2,它的信噪比SNR=6分 例2:假设mx=1,每个声音样本位数用16位表示时,Vm1=26,它的信噪比SNR=96 分贝 2.2.6声音质量与数据率 根据声音的频带,通常把声音的质量分成5个等级,由低到高分别是电话( telephone 调幅( amplitude modulation,AM)广播、调频( frequency modulation,FM广播、激光唱盘 ( CD-Audio)和数字录音带( digital audio tape,DAT)的声音。在这5个等级中,使用的采样 频率、样本精度、通道数和数据率列于表2-01。 表2-01声音质量和数据率 质量采样频率样本精度单道声/数据率(kB/s)频率范围 kHz)(bit/s)立体声(未压缩) 电话*8 单道声 64.0 200~3400Hz AM11.025 886 单道声 88.2 20~15000H FM22.050 立体声 705.6 50~7000H CD4.1 6立体声141.220~20000Hz 1536.0 0~20000H *电话使用μ律编码,动态范围为13位,而不是8位(详见第3章) 2.3声音文件的存储格式 如同存储文本文件一样,存储声音数据也需要有存储格式。在因特网上和各种机器上运 行的声音文件格式很多,但目前比较流行的有以wav( waveform),au( audio),aiff( Audio Interchangeable File format)和.snd( sound)为扩展名的文件格式。,wav格式主要用在PC 上,,au主要用在Unix工作站上,,aif和snd主要用在苹果机和美国视算科技有限公司 ( Silicon graphics,Inc.,SGI)的工作站上 用.wav为扩展名的文件格式称为波形文件格式( WAVE File format),它在多媒体编程接 口和数据规范1.0( Multimedia Programming Interface and Data Specifications1.0)文 档中有详细的描述。该文档是由IBM和微软公司于1991年8月联合开发的,它是一种为交换多 媒体资源而开发的资源交换文件格式( Resource Interchange File Format,RIFF) 波形文件格式支持存储各种采样频率和样本精度的声音数据,并支持声音数据的压缩。 波形文件有许多不同类型的文件构造块组成,其中最主要的两个文件构造块是 Format Chunk(格式块)和 Sound data chunk(声音数据块)。格式块包含有描述波形的重要参数,例 如采样频率和样本精度等,声音数据块则包含有实际的波形声音数据。RIFF中的其他文件块 是可选择的。它的简化结构如图2-03所示
第2章 数字声音简介 4 例1:假设Vnoise=1,每个声音样本位数用1位表示时,Vsignal=2 1,它的信噪比SNR=6分 贝。 例2:假设Vnoise=1,每个声音样本位数用16位表示时,Vsignal=2 16,它的信噪比SNR=96 分贝。 2.2.6 声音质量与数据率 根据声音的频带,通常把声音的质量分成5个等级,由低到高分别是电话(telephone)、 调幅(amplitude modulation,AM)广播、调频(frequency modulation,FM)广播、激光唱盘 (CD-Audio)和数字录音带(digital audio tape,DAT)的声音。在这5个等级中,使用的采样 频率、样本精度、通道数和数据率列于表2–01。 表2–01 声音质量和数据率 质量 采样频率 (kHz) 样本精度 (bit/s) 单道声/ 立体声 数据率(kB/s) (未压缩) 频率范围 电话* 8 8 单道声 64.0 200~3 400 Hz AM 11.025 8 单道声 88.2 20~15 000Hz FM 22.050 16 立体声 705.6 50~7 000Hz CD 44.1 16 立体声 1411.2 20~20 000 Hz DAT 48 16 立体声 1536.0 20~20 000 Hz * 电话使用律编码,动态范围为13位,而不是8位(详见第3章) 2.3 声音文件的存储格式 如同存储文本文件一样,存储声音数据也需要有存储格式。在因特网上和各种机器上运 行的声音文件格式很多,但目前比较流行的有以.wav (waveform),.au(audio),.aiff(Audio Interchangeable File Format)和.snd(sound)为扩展名的文件格式。.wav格式主要用在PC 上,.au主要用在Unix工作站上,.aiff和snd主要用在苹果机和美国视算科技有限公司 (Silicon Graphics,Inc.,SGI)的工作站上。 用.wav为扩展名的文件格式称为波形文件格式(WAVE File Format),它在多媒体编程接 口和数据规范1.0(Multimedia Programming Interface and Data Specifications 1.0)文 档中有详细的描述。该文档是由IBM和微软公司于1991年8月联合开发的,它是一种为交换多 媒体资源而开发的资源交换文件格式(Resource Interchange File Format,RIFF)。 波形文件格式支持存储各种采样频率和样本精度的声音数据,并支持声音数据的压缩。 波形文件有许多不同类型的文件构造块组成,其中最主要的两个文件构造块是Format Chunk(格式块)和Sound Data Chunk(声音数据块)。格式块包含有描述波形的重要参数,例 如采样频率和样本精度等,声音数据块则包含有实际的波形声音数据。RIFF中的其他文件块 是可选择的。它的简化结构如图2–03所示
第2章数字声音简介 goupID = RIFF riffType= WAVE Format chunk ckID=fmt Sound data Chunk ckID='dat 图2-03WAVE文件结构 如果读者需要非常深入和详细的文件格式的资料,请参看[2]。此外,为便于读者辨认 文件的属性,表2-02列出了部分声音文件的后缀 表2-02常见的声音文件扩展名 文件的扩展名 兑明 Sun和NeXT公司的声音文件存储格式(8位μ律编码或者16位线 性编码) aif( Audio interchange) Apple计算机上的声音文件存储格式 cmf(Creative Music声霸(SB)卡带的MID文件存储格式 Format MIDI文件存储格式 mff (MIDI Files Format)MID文件存储格式% 「nid(MLD)kno0s的MID文件存储格式 I, II MPEG Layer II mod (Module) MIDI文件存储格式 rm(RealMedia) Realnetworks公司的流放式声音文件格式 ra(RealAudio RealNetworks公司的流放式声音文件格式 Adlib声音卡文件存储格式 snd(sound) Aple计算机上的声音文件存储格式 MIDI文件存储格式 MDI文件存储格式 voc (Creative Voice) 声霸卡存储的声音文件存储格式 「wav( avefor*1nds.)的波形声音文件存储格式 wrk Cakewalk pro软件采用的MIDI文件存储格式 *支持PCM, ADPCM,u率和A率波形(详见第3章) 2.4声音工具 声音工具( audio tools)用来录放、编辑和分析声音文件。声音工具使用得相等普遍 但它们的功能相差很大。下面列出了比较常见的几种工具
第2章 数字声音简介 5 groupID = 'RIFF' riffType = 'WAVE' Format Chunk ckID = 'fmt ' Sound Data Chunk ckID = 'data' 图2–03 WAVE文件结构 如果读者需要非常深入和详细的文件格式的资料,请参看[2]。此外,为便于读者辨认 文件的属性,表2–02列出了部分声音文件的后缀。 表2-02 常见的声音文件扩展名 文件的扩展名 说明 au Sun和NeXT公司的声音文件存储格式(8位律编码或者16位线 性编码) aif(Audio Interchange) Apple计算机上的声音文件存储格式 cmf(Creative Music Format) 声霸(SB)卡带的MIDI文件存储格式 mct MIDI文件存储格式 mff(MIDI Files Format) MIDI文件存储格式½ mid(MIDI) Windows的MIDI文件存储格式 mp2 MPEG Layer I , II mp3 MPEG Layer III mod(Module) MIDI文件存储格式 rm(RealMedia) RealNetworks公司的流放式声音文件格式 ra(RealAudio) RealNetworks公司的流放式声音文件格式 rol Adlib声音卡文件存储格式 snd(sound) Apple计算机上的声音文件存储格式 seq MIDI文件存储格式 sng MIDI文件存储格式 voc(Creative Voice) 声霸卡存储的声音文件存储格式 wav(Waveform)* Windows采用的波形声音文件存储格式 wrk Cakewalk Pro软件采用的MIDI文件存储格式 *支持PCM,ADPCM,率和A率波形(详见第3章) 2.4 声音工具 声音工具(audio tools)用来录放、编辑和分析声音文件。声音工具使用得相等普遍, 但它们的功能相差很大。下面列出了比较常见的几种工具
第2章数字声音简介 1. Windows95/98本身带的“ Sound recorder 当你在英文版 Windows95/98的界面上单击 Start→ Programs→ Accessories→ Multimedia/ Entertainment→单击 Sound Recorder 之后就调出如图2-04所示的窗口。使用它可录音,作简单的声音编辑(如插入、删除等) Adios. way- Sound Recorder 回区 Position Length: 063s 0.63 sec. 图2-04 Windows的录音器 2.买声音卡时带的工具 如果你的计算机安装有声音卡,一般来说都附带有声音工具。例如,声霸( Sound blaster) 卡带有几种声音工具,通常要由用户自己安装。其中,功能比较强的是 WaveStudio4.00的 用户界面如图2-05所示 FA Eile Edt yew Special Audo Optons Window Help 口囝可回叫s 一小 11. Hz, 8 Bi, Mono 7.923 KBytes 图2-05 Creative Wave Studio version4.00的用户界面 3.网络上下载的工具 因特网上有许多站点提供试用的或者是免费的声音工具。图2-06所示的就是从[3]上下 载供试用的 Cool edit工具,它很受声音研究工作者的欢迎。类似的工具还有 goldwave公 的声音工具,参见[5]
第2章 数字声音简介 6 1. Windows 95/98本身带的“Sound Recorder” 当你在英文版Windows 95/98的界面上单击: Start → Programs → Accessories → Multimedia/Entertainment →单击 Sound Recorder 之后就调出如图2–04所示的窗口。使用它可录音,作简单的声音编辑(如插入、删除等)。 图2–04 Windows的录音器 2. 买声音卡时带的工具 如果你的计算机安装有声音卡,一般来说都附带有声音工具。例如,声霸(Sound Blaster) 卡带有几种声音工具,通常要由用户自己安装。其中,功能比较强的是WaveStudio 4.00的 用户界面如图2–05所示。 图2–05 Creative Wave Studio Version 4.00的用户界面 3. 网络上下载的工具 因特网上有许多站点提供试用的或者是免费的声音工具。图2–06所示的就是从[3]上下 载供试用的Cool Edit工具,它很受声音研究工作者的欢迎。类似的工具还有goldwave公司 的声音工具,参见[5]
第2章数字声音简介 回回回国团●置回■ ^八 I Zoom I cu■Fu205016 bit/Stereo BC003316 End 图2-06 Cool edit96的用户界面 2.5声音质量的度量 声音质量的评价是一个很困难的问题,目前还在继续研究的课题。前面介绍了用声音信 号的带宽来衡量声音的质量,等级由高到低依次是DAT,CD,FM,AM和数字电话。此外,声 音质量的度量还有两种基本的方法:一种是客观质量度量,另一种是主观质量度量。评价语 音质量时,有时同时采取两种方法评估,有时以主观质量度量为主 声音客观质量的度量主要用信噪比( signal to niose ratio,SNR),详细计算可参看 [1]~[2]。 与用SNR客观质量度量相比较,应该可以说人的感觉(如听觉、视觉等)更具有决定意义, 感觉上的、主观上的测试应该成为评价声音质量和图像质量不可缺少的部分。而有的学者则 认为,在语音和图像信号编码中使用主观质量度量比使用客观质量度量更加恰当,更有意义 可是一般来说,可靠的主观度量值也是比较难获得的,所获得的值也是一个相对值。 主观度量声音质量的方法类似于电视节目中的歌手比赛,由评委对每个歌手的表现进行 评分,然后求出平均值。对声音质量的度量也可以使用类似的方法,召集若干实验者,由他 们对声音质量的好坏进行评分,求出平均值作为对声音质量的评价。这种方法称为主观平均 判分法,所得的分数称为主观平均( mean opinion score,MOS)分 现在,对声音主观质量度量比较通用的标准是5分制,各档次的评分标准见表2-03 表2-03声音质量评分标准 质量级别 失真级别 优( Excellent) 无察觉 良(Goo) (刚)察觉但不讨厌 中(Fair) (察觉)有点讨厌 oor 讨厌但不反感 劣(Bad)·极讨厌(令人反感)」 2.6电子乐器数字接口MIDI)系统 2.6.MIDI简介 MIDI是 Musical Instrument Digital Interface的首写字母组合词,可译成“电子乐 器数字接口”。用于在音乐合成器( music synthesizers)、乐器( musical instruments)和
第2章 数字声音简介 7 图2–06 Cool Edit 96的用户界面 2.5 声音质量的度量 声音质量的评价是一个很困难的问题,目前还在继续研究的课题。前面介绍了用声音信 号的带宽来衡量声音的质量,等级由高到低依次是DAT,CD,FM,AM和数字电话。此外,声 音质量的度量还有两种基本的方法:一种是客观质量度量,另一种是主观质量度量。评价语 音质量时,有时同时采取两种方法评估,有时以主观质量度量为主。 声音客观质量的度量主要用信噪比(signal to niose ratio,SNR),详细计算可参看 [1]~[2]。 与用SNR客观质量度量相比较,应该可以说人的感觉(如听觉、视觉等)更具有决定意义, 感觉上的、主观上的测试应该成为评价声音质量和图像质量不可缺少的部分。而有的学者则 认为,在语音和图像信号编码中使用主观质量度量比使用客观质量度量更加恰当,更有意义。 可是一般来说,可靠的主观度量值也是比较难获得的,所获得的值也是一个相对值。 主观度量声音质量的方法类似于电视节目中的歌手比赛,由评委对每个歌手的表现进行 评分,然后求出平均值。对声音质量的度量也可以使用类似的方法,召集若干实验者,由他 们对声音质量的好坏进行评分,求出平均值作为对声音质量的评价。这种方法称为主观平均 判分法,所得的分数称为主观平均(mean opinion score,MOS)分。 现在,对声音主观质量度量比较通用的标准是5分制,各档次的评分标准见表2-03。 表2-03 声音质量评分标准 分数 质量级别 失真级别 5 优(Excellent) 无察觉 4 良(Good) (刚)察觉但不讨厌 3 中(Fair) (察觉)有点讨厌 2 差(Poor) 讨厌但不反感 1 劣(Bad) 极讨厌(令人反感) 2.6 电子乐器数字接口(MIDI)系统 2.6.1 MIDI简介 MIDI是Musical Instrument Digital Interface的首写字母组合词,可译成“电子乐 器数字接口”。用于在音乐合成器(music synthesizers)、乐器(musical instruments)和
第2章数字声音简介 计算机之间交换音乐信息的一种标准协议。从20世纪80年代初期开始,MIDI已经逐步被音乐 家和作曲家广泛接受和使用。MIDI是乐器和计算机使用的标准语言,是一套指令(即命令的 约定),它指示乐器即MID设备要做什么,怎么做,如演奏音符、加大音量、生成音响效果 等。MIDI不是声音信号,在MIDI电缆上传送的不是声音,而是发给MIDI设备或其它装置让它 产生声音或执行某个动作的指令 MIDI标准之所以受到欢迎,主要是它有下列几个优点:生成的文件比较小,因为MID 文件存储的是命令,而不是声音波形;容易编辑,因为编辑命令比编辑声音波形要容易得多 可以作背景音乐,因为MIDI音乐可以和其它的媒体,如数字电视、图形、动画、话音等一起 播放,这样可以加强演示效果 产生MIDI乐音的方法很多,现在用得较多的方法有两种:一种是( frequency modulation,FM)合成法,另一种是乐音样本合成法,也称为波形表( Wavetable)合成法。这 两种方法目前主要用来生成音乐。在介绍MDI之前先简单介绍FM合成法,然后介绍乐音样本 合成法,再介绍MIDI系统 2.6.2FM合成声音 音乐合成器的先驱 Robert moog采用了模拟电子器件生成了复杂的乐音。20世纪80年代 初,美国斯坦福大学( Stanford University)的一名叫 John Chowning的研究生发明了一种产 生乐音的新方法,这种方法称为数字式频率调制合成法( digital frequency modulation synthesis),简称为FM合成器。他把几种乐音的波形用数字来表达,并且用数字计算机而不 是用模拟电子器件把它们组合起来,通过数模转换器( digital to analog convertor,DAC) 来生成乐音。斯坦福大学得到了发明专利,并且把专利权授给 Yamaha公司,该公司把这种技 术做在集成电路芯片里,成了世界市场上的热门产品。FM合成法的发明使合成音乐工业发生 了一次革命。 FM合成器生成乐音的基本原理如图2-07所示。它由5个基本模块组成:数字载波器、调 制器、声音包络发生器、数字运算器和模数转换器。数字载波器用了3个参数:音调( pitch) 音量( volume)和各种波形(wave):调制器用了6个参数:频率( frequency)、调制深度( depth) 波形的类型(type)、反馈量( feedback)、颤音( vibrato)和音效( effect):乐器声音除了有 它自己的波形参数外,还有它自己的比较典型的声音包络线,声音包络发生器用来调制声音 的电平,这个过程也称为幅度调制( amplitude modulation),并且作为数字式音量控制旋钮 它的4个参数写成ADSR,这条包络线也称为音量升降维持静音包络线( Attack, decay, sustain, release,ADSR)包络线。 数字 楣制 频率 載波 深度 波形 类型 音猸 反馓 音量 颤音 波形 音效 组合数字载波和制落F模拟声音 波形参数进行数字运算 信号输出 S Attack:音量提升速度 Decay.·音量下降速度 Sustain乐音维持强度 声音包络发生器|3ae:声音回零速度 图2-07FM声音合成器的工作原理 在乐音合成器中,数字载波波形和调制波形有很多种,不同型号的FM合成器所选用的 波形也不同。图2-08是 Yamaha OPL-II数字式FM合成器采用的波形
第2章 数字声音简介 8 计算机之间交换音乐信息的一种标准协议。从20世纪80年代初期开始,MIDI已经逐步被音乐 家和作曲家广泛接受和使用。MIDI是乐器和计算机使用的标准语言,是一套指令(即命令的 约定),它指示乐器即MIDI设备要做什么,怎么做,如演奏音符、加大音量、生成音响效果 等。MIDI不是声音信号,在MIDI电缆上传送的不是声音,而是发给MIDI设备或其它装置让它 产生声音或执行某个动作的指令。 MIDI标准之所以受到欢迎,主要是它有下列几个优点:生成的文件比较小,因为MIDI 文件存储的是命令,而不是声音波形;容易编辑,因为编辑命令比编辑声音波形要容易得多; 可以作背景音乐,因为MIDI音乐可以和其它的媒体,如数字电视、图形、动画、话音等一起 播放,这样可以加强演示效果。 产生MIDI乐 音的方法 很多, 现在用 得较多的 方法有 两种: 一种是(frequency modulation,FM)合成法,另一种是乐音样本合成法,也称为波形表(Wavetable)合成法。这 两种方法目前主要用来生成音乐。在介绍MIDI之前先简单介绍FM合成法,然后介绍乐音样本 合成法,再介绍MIDI系统。 2.6.2 FM合成声音 音乐合成器的先驱Robert Moog采用了模拟电子器件生成了复杂的乐音。20世纪80年代 初,美国斯坦福大学(Stanford University)的一名叫John Chowning的研究生发明了一种产 生乐音的新方法,这种方法称为数字式频率调制合成法(digital frequency modulation synthesis),简称为FM合成器。他把几种乐音的波形用数字来表达,并且用数字计算机而不 是用模拟电子器件把它们组合起来,通过数模转换器(digital to analog convertor,DAC) 来生成乐音。斯坦福大学得到了发明专利,并且把专利权授给Yamaha公司,该公司把这种技 术做在集成电路芯片里,成了世界市场上的热门产品。FM合成法的发明使合成音乐工业发生 了一次革命。 FM合成器生成乐音的基本原理如图2-07所示。它由5个基本模块组成:数字载波器、调 制器、声音包络发生器、数字运算器和模数转换器。数字载波器用了3个参数:音调(pitch)、 音量(volume)和各种波形(wave);调制器用了6个参数:频率(frequency)、调制深度(depth)、 波形的类型(type)、反馈量(feedback)、颤音(vibrato)和音效(effect);乐器声音除了有 它自己的波形参数外,还有它自己的比较典型的声音包络线,声音包络发生器用来调制声音 的电平,这个过程也称为幅度调制(amplitude modulation),并且作为数字式音量控制旋钮, 它的4个参数写成ADSR,这条包络线也称为音量升降维持静音包络线(Attack,decay, sustain,release,ADSR)包络线。 图2-07 FM声音合成器的工作原理 在乐音合成器中,数字载波波形和调制波形有很多种,不同型号的FM合成器所选用的 波形也不同。图2-08是Yamaha OPL-III数字式FM合成器采用的波形
第2章数字声音简介 图2-08声音合成器的波形 各种不同乐音的产生是通过组合各种波形和各种波形参数并采用各种不同的方法实现 的。用什么样的波形作为数字载波波形、用什么样的波形作为调制波形、用什么样的波形参 数去组合才能产生所希望的乐音,这就是FM合成器的算法 通过改变图2-07中所示的参数,可以生成不同的乐音,例如 (1)改变数字载波频率可以改变乐音的音调,改变它的幅度可以改变它的音量 (2)改变波形的类型,如用正弦波、半正弦波或其它波形,会影响基本音调的完整性。 (3)快速改变调制波形的频率(即音调周期)可以改变颤音的特性 (4)改变反馈量,就会改变正常的音调,产生刺耳的声音。 (5)选择的算法不同,载波器和调制器的相互作用也不同,生成的音色也不同 在多媒体计算机中,图2-07中的13个声音参数和算法共14个控制参数以字节的形式存 储在声音卡的ROM中。播放某种乐音时,计算机就发送一个信号,这个信号被转换成ROM的地 址,从该地址中取出的数据就是用于产生乐音的数据。FM合成器利用这些数据产生的乐音是 否真实,它的真实程度有多高,这就取决于可用的波形源的数目、算法和波形的类型 2.6.3乐音样本合成声音 使用FM合成法来产生各种逼真的乐音是相当困难的,有些乐音几乎不能产生,因此很 自然地就转向乐音样本合成法。这种方法就是把真实乐器发出的声音以数字的形式记录下 来,播放时改变播放速度,从而改变音调周期,生成各种音阶的音符。 乐音样本的采集相对比较直观。音乐家在真实乐器上演奏不同的音符,选择44.1kHz 的采样频率、16位的乐音样本,这相当于CDDA的质量,把不同音符的真实声音记录下来 这就完成了乐音样本的采集。 乐音样本通常放在ROM芯片上,ROM是超大规模集成电路( very large scale integrated ⅥLSⅠ)芯片。使用乐音样本合成器的原理框图如图2-09所示 乐音样本数字信号 颤音 合奏 声音-(ROM) 处理器 (DSP) 回声回荡 移动立体声源 右通道 音媚 数字计算 改变播放速率,加音效 立体声模拟 DIA 音量一使用包络数据等等 信号输出 左通道 S Attack:音量提升速度 R ecay.音量下降速度 Sustain音维持强度 声音包络发生器 Release:*音回零速度
第2章 数字声音简介 9 图2-08 声音合成器的波形 各种不同乐音的产生是通过组合各种波形和各种波形参数并采用各种不同的方法实现 的。用什么样的波形作为数字载波波形、用什么样的波形作为调制波形、用什么样的波形参 数去组合才能产生所希望的乐音,这就是FM合成器的算法。 通过改变图2-07中所示的参数,可以生成不同的乐音,例如: (1) 改变数字载波频率可以改变乐音的音调,改变它的幅度可以改变它的音量。 (2) 改变波形的类型,如用正弦波、半正弦波或其它波形,会影响基本音调的完整性。 (3) 快速改变调制波形的频率(即音调周期)可以改变颤音的特性。 (4) 改变反馈量,就会改变正常的音调,产生刺耳的声音。 (5) 选择的算法不同,载波器和调制器的相互作用也不同,生成的音色也不同。 在多媒体计算机中,图2-07中的13个声音参数和算法共14个控制参数以字节的形式存 储在声音卡的ROM中。播放某种乐音时,计算机就发送一个信号,这个信号被转换成ROM的地 址,从该地址中取出的数据就是用于产生乐音的数据。FM合成器利用这些数据产生的乐音是 否真实,它的真实程度有多高,这就取决于可用的波形源的数目、算法和波形的类型。 2.6.3 乐音样本合成声音 使用FM合成法来产生各种逼真的乐音是相当困难的,有些乐音几乎不能产生,因此很 自然地就转向乐音样本合成法。这种方法就是把真实乐器发出的声音以数字的形式记录下 来,播放时改变播放速度,从而改变音调周期,生成各种音阶的音符。 乐音样本的采集相对比较直观。音乐家在真实乐器上演奏不同的音符,选择44.1 kHz 的采样频率、16位的乐音样本,这相当于CD-DA的质量,把不同音符的真实声音记录下来, 这就完成了乐音样本的采集。 乐音样本通常放在ROM芯片上,ROM是超大规模集成电路(very large scale integrated, VLSI)芯片。使用乐音样本合成器的原理框图如图2-09所示
第2章数字声音简介 图2-09乐音样本合成器的工作原理 乐音样本合成器所需要的输入控制参数比较少,可控的数字音效也不多,大多数采用 这种合成方法的声音设备都可以控制声音包络的ADSR参数,产生的声音质量比FM合成方法产 生的声音质量要高。 2.6.4电子乐器数字接口MIDI)系统 MIDI协议提供了一种标准的和有效的方法,用来把演奏信息转换成电子数据。MIDI信息 是以“ MIDI messages”传输的,它可以被认为是告诉音乐合成器( music synthesizer)如何 演奏一小段音乐的一种指令,而合成器把接收到的MIDI数据转换成声音。国际MIDI协会 ( International midi association)出版的MIDI1.0规范对MDI协议作了完整的说明。 MIDI数据流是单向异步的数据位流( bit stream),其速率为31.25kbps,每个字节为10 位(1位开始位,8位数据位和1位停止位)。MDI乐器上的MIDI接口通常包含3种不同的MIDI 连接器,用IN(输入),OUT(输出)和THRU(穿越)。MIDI数据流通常由MID控制器(MIDI controller)产生,如乐器键盘( musical instrument keyboard),或者由MID音序器MIDI sequencer)产生。MIDI控制器是当作乐器使用的一种设备,在播放时把演奏转换成实时的 MIDI数据流,MIDI音序器是一种装置,允许MIDI数据被捕获、存储、编辑、组合和重奏。来 自MIDI控制器或者音序器的MIDI数据输出通过该装置的 MIDI OU连接器传输 通常,MIDI数据流的接收设备是MIDI声音发生器 MIDI sound generator)或者MDI声音 模块( MIDI Sound module),它们在 MIDI IN端口接收MIDI信息( MIDI messages),然后播放 声音。图2-10表示的是一个简单的MIDI系统,它由一个MIDI键盘控制器和一个MIDI声音模块 组成。许多MID键盘乐器在其内部既包含键盘控制器,又包含MIDI声音模块功能。在这些单 元中,键盘控制器和声音模块之间已经有内部链接,这个链接可以通过该设备中的控制功能 ( local control)对链接打开(ON)或者关闭(OFF)。 MIDI OUT MIDI Sound module MiDI Keyboard Controller (MTI声音模块) (MTD键盘控制器) 图2-10简单的MIDI系统 单个物理MIDI通道( MIDI channel)分成16个逻辑通道,每个逻辑通道可指定一种乐器, 如图2-11所示。在MID信息( MIDI messages)中,用4个二进制位来表示这16个逻辑通道。音 乐键盘可设置在这16个通道之中的任何一个,而MIDI声源或者声音模块可被设置在指定的 MIDI通道上接收
第2章 数字声音简介 10 图2-09 乐音样本合成器的工作原理 乐音样本合成器所需要的输入控制参数比较少,可控的数字音效也不多,大多数采用 这种合成方法的声音设备都可以控制声音包络的ADSR参数,产生的声音质量比FM合成方法产 生的声音质量要高。 2.6.4 电子乐器数字接口(MIDI)系统 MIDI协议提供了一种标准的和有效的方法,用来把演奏信息转换成电子数据。MIDI信息 是以“MIDI messages”传输的,它可以被认为是告诉音乐合成器(music synthesizer)如何 演奏一小段音乐的一种指令,而合成器把接收到的MIDI数据转换成声音。国际MIDI协会 (International MIDI Association)出版的MIDI 1.0规范对MIDI协议作了完整的说明。 MIDI数据流是单向异步的数据位流(bit stream),其速率为31.25 kbps,每个字节为10 位(1位开始位,8位数据位和1位停止位)。MIDI乐器上的MIDI接口通常包含3种不同的MIDI 连接器,用IN(输入), OUT(输出)和THRU(穿越)。MIDI数据流通常由MIDI控制器(MIDI controller)产生,如乐器键盘(musical instrument keyboard),或者由MIDI音序器(MIDI sequencer)产生。MIDI控制器是当作乐器使用的一种设备,在播放时把演奏转换成实时的 MIDI数据流,MIDI音序器是一种装置,允许MIDI数据被捕获、存储、编辑、组合和重奏。来 自MIDI控制器或者音序器的MIDI数据输出通过该装置的MIDI OUT连接器传输。 通常,MIDI数据流的接收设备是MIDI声音发生器(MIDI sound generator)或者MIDI声音 模块(MIDI sound module),它们在MIDI IN端口接收MIDI信息(MIDI messages),然后播放 声音。图2-10表示的是一个简单的MIDI系统,它由一个MIDI键盘控制器和一个MIDI声音模块 组成。许多MIDI键盘乐器在其内部既包含键盘控制器,又包含MIDI声音模块功能。在这些单 元中,键盘控制器和声音模块之间已经有内部链接,这个链接可以通过该设备中的控制功能 (local control)对链接打开(ON)或者关闭(OFF)。 图2-10 简单的MIDI系统 单个物理MIDI通道(MIDI channel)分成16个逻辑通道,每个逻辑通道可指定一种乐器, 如图2-11所示。在MIDI信息(MIDI messages)中,用4个二进制位来表示这16个逻辑通道。音 乐键盘可设置在这16个通道之中的任何一个,而MIDI声源或者声音模块可被设置在指定的 MIDI通道上接收