清华大学：《多媒体技术》课程教学资源（教材教案讲义）第2章数字声音及MDI简介.doc_大学文库

第2章数字声音简介图2-01声音是一种连续的波对声音信号的分析表明,声音信号由许多频率不同的信号组成,这类信号称为复合信号, 而单一频率的信号称为分量信号。声音信号的一个重要参数就是带宽,它用来描述组成复合信号的频率范围。如高保声音信号(high- fidelity audio)的频率范围为10Hz~20000Hz, 它的带宽约为20kHz,而视频信号的带宽是6MHz 声音信号的两个基本参数是频率和幅度。信号的频率是指信号每秒钟变化的次数,用Hz 表示。例如,大气压的变化周期很长,以小时或天数计算,一般人不容易感到这种气压信号的变化,更听不到这种变化。对于频率为几Hz到20H的空气压力信号,人们也听不到,如果它的强度足够大,也许可以感觉到。人们把频率小于20Hz的信号称为亚音信号,或称为次音信号( subsonic):频率范围为20Hz~20kHz的信号称为音频( Audio)信号:虽然人的发音器官发出的声音频率大约是80~3400Hz,但人说话的信号频率通常为300~3000Hz,人们把在这种频率范围的信号称为话音( speech)信号:高于20kHz的信号称为超音频信号,或称超声波( ultrasonic)信号。超音频信号具有很强的方向性,而且可以形成波束,在工业上得到广泛的应用,如超声波探测仪,超声波焊接设备等就是利用这种信号。在多媒体技术中,处理的信号主要是音频信号,它包括音乐、话音、风声、雨声、鸟叫声、机器声等人们是否都能听到音频信号,这主要取决于各个人的年龄和耳朵的特性。一般来说,人的听觉器官能感知的声音频率大约在20~20000H之间,在这种频率范围里感知的声音幅度大约在0~120dB之间。除此之外,人的听觉器官对声音的感知还有一些重要特性,这些特性将在第9章中介绍,它们在声音数据压缩中已经得到广泛的应用 2.2声音信号数字化 2.2.1从模拟过渡到数字回顾历史,大多数电信号的处理一直是用模拟元部件(如晶体管、变压器、电阻、电容等)对模拟信号进行处理。但是,开发一个具有相当精度、且几乎不受环境变化影响的模拟信号处理元部件是相当困难的,而且成本也很高。如果把模拟信号转变成数字信号,用数字来表示模拟量,对数字信号做计算,那末难点就发生了转移,把开发模拟运算部件的问题转变成开发数字运算部件的问题,这就出现了数字信号处理器( digital signal processor,DsP)。DSP与通用微处理器相比,除了它们的结构不同外,其基本差别是,DSP有能力响应和处理采样模拟信号得到的数据流,如做乘法和累加求和运算。在数字域而不在模拟域中做信号处理的主要优点是:首先,数字信号计算是一种精确的运算方法,它不受时间和环境变化的影响:其次,表示部件功能的数学运算不是物理上实现的功能部件,而是仅用数学运算去模拟,其中的数学运算也相对容易实现:此外,可以对数字运算部件进行编程,如欲改变算法或改变某些功能,还可对数字部件进行再编程 2.2.2模拟信号与数字信号话音信号是典型的连续信号,不仅在时间上是连续的,而且在幅度上也是连续的。在时间上“连续”是指在一个指定的时间范围里声音信号的幅值有无穷多个,在幅度上“连续是指幅度的数值有无穷多个。我们把在时间和幅度上都是连续的信号称为模拟信号。在某些特定的时刻对这种模拟信号进行测量叫做采样( sampling),由这些特定时刻采样得到的信号称为离散时间信号。采样得到的幅值是无穷多个实数值中的一个,因此幅度还是连续的。如果把信号幅度取值的数目加以限定,这种由有限个数值组成的信号就称为离散幅度信号。例如,假设输入电压的范围是0.0V~0.7V,并假设它的取值只限定在0、0.1、0.2,…, 0.7共8个值。如果采样得到的幅度值是0.123V,它的取值就应算作0.1V,如果采样得到的幅

第2章数字声音简介 2 图2－01 声音是一种连续的波对声音信号的分析表明，声音信号由许多频率不同的信号组成，这类信号称为复合信号，而单一频率的信号称为分量信号。声音信号的一个重要参数就是带宽，它用来描述组成复合信号的频率范围。如高保声音信号(high-fidelity audio)的频率范围为10 Hz～20 000 Hz，它的带宽约为20 kHz，而视频信号的带宽是6 MHz。声音信号的两个基本参数是频率和幅度。信号的频率是指信号每秒钟变化的次数，用Hz 表示。例如，大气压的变化周期很长，以小时或天数计算，一般人不容易感到这种气压信号的变化，更听不到这种变化。对于频率为几Hz到20 Hz的空气压力信号，人们也听不到，如果它的强度足够大，也许可以感觉到。人们把频率小于20 Hz的信号称为亚音信号，或称为次音信号(subsonic)；频率范围为20 Hz～20 kHz的信号称为音频(Audio)信号；虽然人的发音器官发出的声音频率大约是80～3400 Hz，但人说话的信号频率通常为300～3000 Hz，人们把在这种频率范围的信号称为话音(speech)信号；高于20 kHz的信号称为超音频信号，或称超声波 (ultrasonic) 信号。超音频信号具有很强的方向性，而且可以形成波束，在工业上得到广泛的应用，如超声波探测仪，超声波焊接设备等就是利用这种信号。在多媒体技术中，处理的信号主要是音频信号，它包括音乐、话音、风声、雨声、鸟叫声、机器声等。人们是否都能听到音频信号，这主要取决于各个人的年龄和耳朵的特性。一般来说，人的听觉器官能感知的声音频率大约在20～20000 Hz之间，在这种频率范围里感知的声音幅度大约在0～120 dB之间。除此之外，人的听觉器官对声音的感知还有一些重要特性，这些特性将在第9章中介绍，它们在声音数据压缩中已经得到广泛的应用。 2.2 声音信号数字化 2.2.1 从模拟过渡到数字回顾历史，大多数电信号的处理一直是用模拟元部件(如晶体管、变压器、电阻、电容等)对模拟信号进行处理。但是，开发一个具有相当精度、且几乎不受环境变化影响的模拟信号处理元部件是相当困难的，而且成本也很高。如果把模拟信号转变成数字信号，用数字来表示模拟量，对数字信号做计算，那末难点就发生了转移，把开发模拟运算部件的问题转变成开发数字运算部件的问题，这就出现了数字信号处理器(digital signal processor，DSP)。DSP与通用微处理器相比，除了它们的结构不同外，其基本差别是，DSP有能力响应和处理采样模拟信号得到的数据流，如做乘法和累加求和运算。在数字域而不在模拟域中做信号处理的主要优点是：首先，数字信号计算是一种精确的运算方法，它不受时间和环境变化的影响；其次，表示部件功能的数学运算不是物理上实现的功能部件，而是仅用数学运算去模拟，其中的数学运算也相对容易实现；此外，可以对数字运算部件进行编程，如欲改变算法或改变某些功能，还可对数字部件进行再编程。 2.2.2 模拟信号与数字信号话音信号是典型的连续信号，不仅在时间上是连续的，而且在幅度上也是连续的。在时间上“连续”是指在一个指定的时间范围里声音信号的幅值有无穷多个，在幅度上“连续” 是指幅度的数值有无穷多个。我们把在时间和幅度上都是连续的信号称为模拟信号。在某些特定的时刻对这种模拟信号进行测量叫做采样(sampling)，由这些特定时刻采样得到的信号称为离散时间信号。采样得到的幅值是无穷多个实数值中的一个，因此幅度还是连续的。如果把信号幅度取值的数目加以限定，这种由有限个数值组成的信号就称为离散幅度信号。例如，假设输入电压的范围是0.0V～0.7V，并假设它的取值只限定在0、0.1、0.2，…， 0.7共8个值。如果采样得到的幅度值是0.123V，它的取值就应算作0.1V，如果采样得到的幅

第2章数字声音简介度值是0.26V,它的取值就算作0.3,这种数值就称为离散数值。我们把时间和幅度都用离散的数字表示的信号就称为数字信号 2.2.3声音信号数字化声音进入计算机的第一步就是数字化,数字化实际上就是采样和量化。如前所述,连续时间的离散化通过采样来实现,就是每隔相等的一小段时间采样一次,这种采样称为均匀采样( uniform sampling):连续幅度的离散化通过量化( quantization)来实现,就是把信号的强度划分成一小段一小段,如果幅度的划分是等间隔的,就称为线性量化,否则就称为非线性量化。图2-02表示了声音数字化的概念。 0100 0010 0000 100l l010 1011 1100 图2-02声音的采样和量化声音数字化需要回答两个问题:①每秒钟需要采集多少个声音样本,也就是采样频率(f) 是多少,②每个声音样本的位数( bit per sample,bps)应该是多少,也就是量化精度 2.2.4采样频率采样频率的高低是根据奈奎斯特理论( Nyquist theory)和声音信号本身的最高频率决定的。奈奎斯特理论指出,采样频率不应低于声音信号最高频率的两倍,这样就能把以数字表达的声音还原成原来的声音,这叫做无损数字化( lossless digitization)。采样定律用公式表示为 f≥2f或者T≤m/2 其中f为被采样信号的最高频率你可以这样来理解奈奎斯特理论:声音信号可以看成由许许多多正弦波组成的,一个振幅为A、频率为f正弦波至少需要两个采样样本表示,因此,如果一个信号中的最高频率为 ∫m,采样频率最低要选择2Jm。例如,电话话音的信号频率约为34kz,采样频率就选为8kHz 2.2.5采样精度样本大小是用每个声音样本的位数bit/s(即bps)表示的,它反映度量声音波形幅度的精度。例如,每个声音样本用16位(2字节)表示,测得的声音样本值是在0 的范围里它的精度就是输入信号的1/65536。样本位数的大小影响到声音的质量,位数越多,声音的质量越高,而需要的存储空间也越多;位数越少,声音的质量越低,需要的存储空间越少采样精度的另一种表示方法是信号噪声比,简称为信噪比( signal-to- noise ratio, SNR),并用下式计算: sNr= 10 lg [(sigmal)/(Voise)]=20 1g (Signal /Vnoise 其中,Vima表示信号电压,表示噪声电压:SNR的单位为分贝(db)

第2章数字声音简介 3 度值是0.26V，它的取值就算作0.3，这种数值就称为离散数值。我们把时间和幅度都用离散的数字表示的信号就称为数字信号。 2.2.3 声音信号数字化声音进入计算机的第一步就是数字化，数字化实际上就是采样和量化。如前所述，连续时间的离散化通过采样来实现，就是每隔相等的一小段时间采样一次，这种采样称为均匀采样(uniform sampling)；连续幅度的离散化通过量化(quantization)来实现，就是把信号的强度划分成一小段一小段，如果幅度的划分是等间隔的，就称为线性量化，否则就称为非线性量化。图2–02表示了声音数字化的概念。图2－02 声音的采样和量化声音数字化需要回答两个问题：①每秒钟需要采集多少个声音样本，也就是采样频率(fs) 是多少，②每个声音样本的位数(bit per sample，bps)应该是多少，也就是量化精度。 2.2.4 采样频率采样频率的高低是根据奈奎斯特理论(Nyquist theory)和声音信号本身的最高频率决定的。奈奎斯特理论指出，采样频率不应低于声音信号最高频率的两倍，这样就能把以数字表达的声音还原成原来的声音，这叫做无损数字化(lossless digitization)。采样定律用公式表示为 fs  2f 或者 Ts  T/2 其中f为被采样信号的最高频率。你可以这样来理解奈奎斯特理论：声音信号可以看成由许许多多正弦波组成的，一个振幅为A、频率为f的正弦波至少需要两个采样样本表示，因此，如果一个信号中的最高频率为 max f ,采样频率最低要选择2 max f 。例如，电话话音的信号频率约为3.4 kHz，采样频率就选为8 kHz。 2.2.5 采样精度样本大小是用每个声音样本的位数bit/s(即bps)表示的，它反映度量声音波形幅度的精度。例如，每个声音样本用16位(2字节)表示，测得的声音样本值是在0～65536的范围里，它的精度就是输入信号的1/65536。样本位数的大小影响到声音的质量，位数越多，声音的质量越高，而需要的存储空间也越多；位数越少，声音的质量越低，需要的存储空间越少。采样精度的另一种表示方法是信号噪声比，简称为信噪比(signal-to-noise ratio， SNR)，并用下式计算： SNR＝ 10 lg [(Vsignal) 2 / (Vnoise) 2 ]＝20 lg (Vsignal / Vnoise) 其中，Vsignal表示信号电压，Vnoise表示噪声电压；SNR的单位为分贝(db)

第2章数字声音简介例1:假设Vm=1,每个声音样本位数用1位表示时,Vm=2,它的信噪比SNR=6分例2:假设mx=1,每个声音样本位数用16位表示时,Vm1=26,它的信噪比SNR=96 分贝 2.2.6声音质量与数据率根据声音的频带,通常把声音的质量分成5个等级,由低到高分别是电话( telephone 调幅( amplitude modulation,AM)广播、调频( frequency modulation,FM广播、激光唱盘 ( CD-Audio)和数字录音带( digital audio tape,DAT)的声音。在这5个等级中,使用的采样频率、样本精度、通道数和数据率列于表2-01。表2-01声音质量和数据率质量采样频率样本精度单道声/数据率(kB/s)频率范围 kHz)(bit/s)立体声(未压缩) 电话*8 单道声 64.0 200~3400Hz AM11.025 886 单道声 88.2 20~15000H FM22.050 立体声 705.6 50~7000H CD4.1 6立体声141.220~20000Hz 1536.0 0~20000H *电话使用μ律编码,动态范围为13位,而不是8位(详见第3章) 2.3声音文件的存储格式如同存储文本文件一样,存储声音数据也需要有存储格式。在因特网上和各种机器上运行的声音文件格式很多,但目前比较流行的有以wav( waveform),au( audio),aiff( Audio Interchangeable File format)和.snd( sound)为扩展名的文件格式。,wav格式主要用在PC 上,,au主要用在Unix工作站上,,aif和snd主要用在苹果机和美国视算科技有限公司 ( Silicon graphics,Inc.,SGI)的工作站上用.wav为扩展名的文件格式称为波形文件格式( WAVE File format),它在多媒体编程接口和数据规范1.0( Multimedia Programming Interface and Data Specifications1.0)文档中有详细的描述。该文档是由IBM和微软公司于1991年8月联合开发的,它是一种为交换多媒体资源而开发的资源交换文件格式( Resource Interchange File Format,RIFF) 波形文件格式支持存储各种采样频率和样本精度的声音数据,并支持声音数据的压缩。波形文件有许多不同类型的文件构造块组成,其中最主要的两个文件构造块是 Format Chunk(格式块)和 Sound data chunk(声音数据块)。格式块包含有描述波形的重要参数,例如采样频率和样本精度等,声音数据块则包含有实际的波形声音数据。RIFF中的其他文件块是可选择的。它的简化结构如图2-03所示

第2章数字声音简介 4 例1：假设Vnoise＝1，每个声音样本位数用1位表示时，Vsignal＝2 1，它的信噪比SNR＝6分贝。例2：假设Vnoise＝1，每个声音样本位数用16位表示时，Vsignal＝2 16，它的信噪比SNR＝96 分贝。 2.2.6 声音质量与数据率根据声音的频带，通常把声音的质量分成5个等级，由低到高分别是电话(telephone)、调幅(amplitude modulation，AM)广播、调频(frequency modulation，FM)广播、激光唱盘 (CD-Audio)和数字录音带(digital audio tape，DAT)的声音。在这5个等级中，使用的采样频率、样本精度、通道数和数据率列于表2–01。表2–01 声音质量和数据率质量采样频率 (kHz) 样本精度 (bit/s) 单道声/ 立体声数据率(kB/s) (未压缩) 频率范围电话* 8 8 单道声 64.0 200～3 400 Hz AM 11.025 8 单道声 88.2 20～15 000Hz FM 22.050 16 立体声 705.6 50～7 000Hz CD 44.1 16 立体声 1411.2 20～20 000 Hz DAT 48 16 立体声 1536.0 20～20 000 Hz * 电话使用律编码，动态范围为13位，而不是8位(详见第3章) 2.3 声音文件的存储格式如同存储文本文件一样，存储声音数据也需要有存储格式。在因特网上和各种机器上运行的声音文件格式很多，但目前比较流行的有以.wav (waveform)，.au(audio)，.aiff(Audio Interchangeable File Format)和.snd(sound)为扩展名的文件格式。.wav格式主要用在PC 上，.au主要用在Unix工作站上，.aiff和snd主要用在苹果机和美国视算科技有限公司 (Silicon Graphics，Inc.，SGI)的工作站上。用.wav为扩展名的文件格式称为波形文件格式(WAVE File Format)，它在多媒体编程接口和数据规范1.0(Multimedia Programming Interface and Data Specifications 1.0)文档中有详细的描述。该文档是由IBM和微软公司于1991年8月联合开发的，它是一种为交换多媒体资源而开发的资源交换文件格式(Resource Interchange File Format，RIFF)。波形文件格式支持存储各种采样频率和样本精度的声音数据，并支持声音数据的压缩。波形文件有许多不同类型的文件构造块组成，其中最主要的两个文件构造块是Format Chunk(格式块)和Sound Data Chunk(声音数据块)。格式块包含有描述波形的重要参数，例如采样频率和样本精度等，声音数据块则包含有实际的波形声音数据。RIFF中的其他文件块是可选择的。它的简化结构如图2–03所示

第2章数字声音简介回回回国团●置回■ ^八 I Zoom I cu■Fu205016 bit/Stereo BC003316 End 图2-06 Cool edit96的用户界面 2.5声音质量的度量声音质量的评价是一个很困难的问题,目前还在继续研究的课题。前面介绍了用声音信号的带宽来衡量声音的质量,等级由高到低依次是DAT,CD,FM,AM和数字电话。此外,声音质量的度量还有两种基本的方法:一种是客观质量度量,另一种是主观质量度量。评价语音质量时,有时同时采取两种方法评估,有时以主观质量度量为主声音客观质量的度量主要用信噪比( signal to niose ratio,SNR),详细计算可参看 [1]~[2]。与用SNR客观质量度量相比较,应该可以说人的感觉(如听觉、视觉等)更具有决定意义, 感觉上的、主观上的测试应该成为评价声音质量和图像质量不可缺少的部分。而有的学者则认为,在语音和图像信号编码中使用主观质量度量比使用客观质量度量更加恰当,更有意义可是一般来说,可靠的主观度量值也是比较难获得的,所获得的值也是一个相对值。主观度量声音质量的方法类似于电视节目中的歌手比赛,由评委对每个歌手的表现进行评分,然后求出平均值。对声音质量的度量也可以使用类似的方法,召集若干实验者,由他们对声音质量的好坏进行评分,求出平均值作为对声音质量的评价。这种方法称为主观平均判分法,所得的分数称为主观平均( mean opinion score,MOS)分现在,对声音主观质量度量比较通用的标准是5分制,各档次的评分标准见表2-03 表2-03声音质量评分标准质量级别失真级别优( Excellent) 无察觉良(Goo) (刚)察觉但不讨厌中(Fair) (察觉)有点讨厌 oor 讨厌但不反感劣(Bad)·极讨厌(令人反感)」 2.6电子乐器数字接口MIDI)系统 2.6.MIDI简介 MIDI是 Musical Instrument Digital Interface的首写字母组合词,可译成“电子乐器数字接口”。用于在音乐合成器( music synthesizers)、乐器( musical instruments)和

第2章数字声音简介 7 图2–06 Cool Edit 96的用户界面 2.5 声音质量的度量声音质量的评价是一个很困难的问题，目前还在继续研究的课题。前面介绍了用声音信号的带宽来衡量声音的质量，等级由高到低依次是DAT，CD，FM，AM和数字电话。此外，声音质量的度量还有两种基本的方法：一种是客观质量度量，另一种是主观质量度量。评价语音质量时，有时同时采取两种方法评估，有时以主观质量度量为主。声音客观质量的度量主要用信噪比(signal to niose ratio，SNR)，详细计算可参看 [1]～[2]。与用SNR客观质量度量相比较，应该可以说人的感觉(如听觉、视觉等)更具有决定意义，感觉上的、主观上的测试应该成为评价声音质量和图像质量不可缺少的部分。而有的学者则认为，在语音和图像信号编码中使用主观质量度量比使用客观质量度量更加恰当，更有意义。可是一般来说，可靠的主观度量值也是比较难获得的，所获得的值也是一个相对值。主观度量声音质量的方法类似于电视节目中的歌手比赛，由评委对每个歌手的表现进行评分，然后求出平均值。对声音质量的度量也可以使用类似的方法，召集若干实验者，由他们对声音质量的好坏进行评分，求出平均值作为对声音质量的评价。这种方法称为主观平均判分法，所得的分数称为主观平均(mean opinion score，MOS)分。现在，对声音主观质量度量比较通用的标准是5分制，各档次的评分标准见表2-03。表2-03 声音质量评分标准分数质量级别失真级别 5 优(Excellent) 无察觉 4 良(Good) (刚)察觉但不讨厌 3 中(Fair) (察觉)有点讨厌 2 差(Poor) 讨厌但不反感 1 劣(Bad) 极讨厌(令人反感) 2.6 电子乐器数字接口(MIDI)系统 2.6.1 MIDI简介 MIDI是Musical Instrument Digital Interface的首写字母组合词，可译成“电子乐器数字接口”。用于在音乐合成器(music synthesizers)、乐器(musical instruments)和

第2章数字声音简介计算机之间交换音乐信息的一种标准协议。从20世纪80年代初期开始,MIDI已经逐步被音乐家和作曲家广泛接受和使用。MIDI是乐器和计算机使用的标准语言,是一套指令(即命令的约定),它指示乐器即MID设备要做什么,怎么做,如演奏音符、加大音量、生成音响效果等。MIDI不是声音信号,在MIDI电缆上传送的不是声音,而是发给MIDI设备或其它装置让它产生声音或执行某个动作的指令 MIDI标准之所以受到欢迎,主要是它有下列几个优点:生成的文件比较小,因为MID 文件存储的是命令,而不是声音波形;容易编辑,因为编辑命令比编辑声音波形要容易得多可以作背景音乐,因为MIDI音乐可以和其它的媒体,如数字电视、图形、动画、话音等一起播放,这样可以加强演示效果产生MIDI乐音的方法很多,现在用得较多的方法有两种:一种是( frequency modulation,FM)合成法,另一种是乐音样本合成法,也称为波形表( Wavetable)合成法。这两种方法目前主要用来生成音乐。在介绍MDI之前先简单介绍FM合成法,然后介绍乐音样本合成法,再介绍MIDI系统 2.6.2FM合成声音音乐合成器的先驱 Robert moog采用了模拟电子器件生成了复杂的乐音。20世纪80年代初,美国斯坦福大学( Stanford University)的一名叫 John Chowning的研究生发明了一种产生乐音的新方法,这种方法称为数字式频率调制合成法( digital frequency modulation synthesis),简称为FM合成器。他把几种乐音的波形用数字来表达,并且用数字计算机而不是用模拟电子器件把它们组合起来,通过数模转换器( digital to analog convertor,DAC) 来生成乐音。斯坦福大学得到了发明专利,并且把专利权授给 Yamaha公司,该公司把这种技术做在集成电路芯片里,成了世界市场上的热门产品。FM合成法的发明使合成音乐工业发生了一次革命。 FM合成器生成乐音的基本原理如图2-07所示。它由5个基本模块组成:数字载波器、调制器、声音包络发生器、数字运算器和模数转换器。数字载波器用了3个参数:音调( pitch) 音量( volume)和各种波形(wave):调制器用了6个参数:频率( frequency)、调制深度( depth) 波形的类型(type)、反馈量( feedback)、颤音( vibrato)和音效( effect):乐器声音除了有它自己的波形参数外,还有它自己的比较典型的声音包络线,声音包络发生器用来调制声音的电平,这个过程也称为幅度调制( amplitude modulation),并且作为数字式音量控制旋钮它的4个参数写成ADSR,这条包络线也称为音量升降维持静音包络线( Attack, decay, sustain, release,ADSR)包络线。数字楣制频率載波深度波形类型音猸反馓音量颤音波形音效组合数字载波和制落F模拟声音波形参数进行数字运算信号输出 S Attack:音量提升速度 Decay.·音量下降速度 Sustain乐音维持强度声音包络发生器|3ae:声音回零速度图2-07FM声音合成器的工作原理在乐音合成器中,数字载波波形和调制波形有很多种,不同型号的FM合成器所选用的波形也不同。图2-08是 Yamaha OPL-II数字式FM合成器采用的波形

第2章数字声音简介 8 计算机之间交换音乐信息的一种标准协议。从20世纪80年代初期开始，MIDI已经逐步被音乐家和作曲家广泛接受和使用。MIDI是乐器和计算机使用的标准语言，是一套指令(即命令的约定)，它指示乐器即MIDI设备要做什么，怎么做，如演奏音符、加大音量、生成音响效果等。MIDI不是声音信号，在MIDI电缆上传送的不是声音，而是发给MIDI设备或其它装置让它产生声音或执行某个动作的指令。 MIDI标准之所以受到欢迎，主要是它有下列几个优点：生成的文件比较小，因为MIDI 文件存储的是命令，而不是声音波形；容易编辑，因为编辑命令比编辑声音波形要容易得多；可以作背景音乐，因为MIDI音乐可以和其它的媒体，如数字电视、图形、动画、话音等一起播放，这样可以加强演示效果。产生MIDI乐音的方法很多，现在用得较多的方法有两种：一种是(frequency modulation，FM)合成法，另一种是乐音样本合成法，也称为波形表(Wavetable)合成法。这两种方法目前主要用来生成音乐。在介绍MIDI之前先简单介绍FM合成法，然后介绍乐音样本合成法，再介绍MIDI系统。 2.6.2 FM合成声音音乐合成器的先驱Robert Moog采用了模拟电子器件生成了复杂的乐音。20世纪80年代初，美国斯坦福大学(Stanford University)的一名叫John Chowning的研究生发明了一种产生乐音的新方法，这种方法称为数字式频率调制合成法(digital frequency modulation synthesis)，简称为FM合成器。他把几种乐音的波形用数字来表达，并且用数字计算机而不是用模拟电子器件把它们组合起来，通过数模转换器(digital to analog convertor，DAC) 来生成乐音。斯坦福大学得到了发明专利，并且把专利权授给Yamaha公司，该公司把这种技术做在集成电路芯片里，成了世界市场上的热门产品。FM合成法的发明使合成音乐工业发生了一次革命。 FM合成器生成乐音的基本原理如图2-07所示。它由5个基本模块组成：数字载波器、调制器、声音包络发生器、数字运算器和模数转换器。数字载波器用了3个参数：音调(pitch)、音量(volume)和各种波形(wave)；调制器用了6个参数：频率(frequency)、调制深度(depth)、波形的类型(type)、反馈量(feedback)、颤音(vibrato)和音效(effect)；乐器声音除了有它自己的波形参数外，还有它自己的比较典型的声音包络线，声音包络发生器用来调制声音的电平，这个过程也称为幅度调制(amplitude modulation)，并且作为数字式音量控制旋钮，它的4个参数写成ADSR，这条包络线也称为音量升降维持静音包络线(Attack，decay， sustain，release，ADSR)包络线。图2-07 FM声音合成器的工作原理在乐音合成器中，数字载波波形和调制波形有很多种，不同型号的FM合成器所选用的波形也不同。图2-08是Yamaha OPL-III数字式FM合成器采用的波形

第2章数字声音简介图2-08声音合成器的波形各种不同乐音的产生是通过组合各种波形和各种波形参数并采用各种不同的方法实现的。用什么样的波形作为数字载波波形、用什么样的波形作为调制波形、用什么样的波形参数去组合才能产生所希望的乐音,这就是FM合成器的算法通过改变图2-07中所示的参数,可以生成不同的乐音,例如 (1)改变数字载波频率可以改变乐音的音调,改变它的幅度可以改变它的音量 (2)改变波形的类型,如用正弦波、半正弦波或其它波形,会影响基本音调的完整性。 (3)快速改变调制波形的频率(即音调周期)可以改变颤音的特性 (4)改变反馈量,就会改变正常的音调,产生刺耳的声音。 (5)选择的算法不同,载波器和调制器的相互作用也不同,生成的音色也不同在多媒体计算机中,图2-07中的13个声音参数和算法共14个控制参数以字节的形式存储在声音卡的ROM中。播放某种乐音时,计算机就发送一个信号,这个信号被转换成ROM的地址,从该地址中取出的数据就是用于产生乐音的数据。FM合成器利用这些数据产生的乐音是否真实,它的真实程度有多高,这就取决于可用的波形源的数目、算法和波形的类型 2.6.3乐音样本合成声音使用FM合成法来产生各种逼真的乐音是相当困难的,有些乐音几乎不能产生,因此很自然地就转向乐音样本合成法。这种方法就是把真实乐器发出的声音以数字的形式记录下来,播放时改变播放速度,从而改变音调周期,生成各种音阶的音符。乐音样本的采集相对比较直观。音乐家在真实乐器上演奏不同的音符,选择44.1kHz 的采样频率、16位的乐音样本,这相当于CDDA的质量,把不同音符的真实声音记录下来这就完成了乐音样本的采集。乐音样本通常放在ROM芯片上,ROM是超大规模集成电路( very large scale integrated ⅥLSⅠ)芯片。使用乐音样本合成器的原理框图如图2-09所示乐音样本数字信号颤音合奏声音-(ROM) 处理器 (DSP) 回声回荡移动立体声源右通道音媚数字计算改变播放速率,加音效立体声模拟 DIA 音量一使用包络数据等等信号输出左通道 S Attack:音量提升速度 R ecay.音量下降速度 Sustain音维持强度声音包络发生器 Release:*音回零速度

第2章数字声音简介 9 图2-08 声音合成器的波形各种不同乐音的产生是通过组合各种波形和各种波形参数并采用各种不同的方法实现的。用什么样的波形作为数字载波波形、用什么样的波形作为调制波形、用什么样的波形参数去组合才能产生所希望的乐音，这就是FM合成器的算法。通过改变图2-07中所示的参数，可以生成不同的乐音，例如： (1) 改变数字载波频率可以改变乐音的音调，改变它的幅度可以改变它的音量。 (2) 改变波形的类型，如用正弦波、半正弦波或其它波形，会影响基本音调的完整性。 (3) 快速改变调制波形的频率(即音调周期)可以改变颤音的特性。 (4) 改变反馈量，就会改变正常的音调，产生刺耳的声音。 (5) 选择的算法不同，载波器和调制器的相互作用也不同，生成的音色也不同。在多媒体计算机中，图2-07中的13个声音参数和算法共14个控制参数以字节的形式存储在声音卡的ROM中。播放某种乐音时，计算机就发送一个信号，这个信号被转换成ROM的地址，从该地址中取出的数据就是用于产生乐音的数据。FM合成器利用这些数据产生的乐音是否真实，它的真实程度有多高，这就取决于可用的波形源的数目、算法和波形的类型。 2.6.3 乐音样本合成声音使用FM合成法来产生各种逼真的乐音是相当困难的，有些乐音几乎不能产生，因此很自然地就转向乐音样本合成法。这种方法就是把真实乐器发出的声音以数字的形式记录下来，播放时改变播放速度，从而改变音调周期，生成各种音阶的音符。乐音样本的采集相对比较直观。音乐家在真实乐器上演奏不同的音符，选择44.1 kHz 的采样频率、16位的乐音样本，这相当于CD-DA的质量，把不同音符的真实声音记录下来，这就完成了乐音样本的采集。乐音样本通常放在ROM芯片上，ROM是超大规模集成电路(very large scale integrated， VLSI)芯片。使用乐音样本合成器的原理框图如图2-09所示

第2章数字声音简介图2-09乐音样本合成器的工作原理乐音样本合成器所需要的输入控制参数比较少,可控的数字音效也不多,大多数采用这种合成方法的声音设备都可以控制声音包络的ADSR参数,产生的声音质量比FM合成方法产生的声音质量要高。 2.6.4电子乐器数字接口MIDI)系统 MIDI协议提供了一种标准的和有效的方法,用来把演奏信息转换成电子数据。MIDI信息是以“ MIDI messages”传输的,它可以被认为是告诉音乐合成器( music synthesizer)如何演奏一小段音乐的一种指令,而合成器把接收到的MIDI数据转换成声音。国际MIDI协会 ( International midi association)出版的MIDI1.0规范对MDI协议作了完整的说明。 MIDI数据流是单向异步的数据位流( bit stream),其速率为31.25kbps,每个字节为10 位(1位开始位,8位数据位和1位停止位)。MDI乐器上的MIDI接口通常包含3种不同的MIDI 连接器,用IN(输入),OUT(输出)和THRU(穿越)。MIDI数据流通常由MID控制器(MIDI controller)产生,如乐器键盘( musical instrument keyboard),或者由MID音序器MIDI sequencer)产生。MIDI控制器是当作乐器使用的一种设备,在播放时把演奏转换成实时的 MIDI数据流,MIDI音序器是一种装置,允许MIDI数据被捕获、存储、编辑、组合和重奏。来自MIDI控制器或者音序器的MIDI数据输出通过该装置的 MIDI OU连接器传输通常,MIDI数据流的接收设备是MIDI声音发生器 MIDI sound generator)或者MDI声音模块( MIDI Sound module),它们在 MIDI IN端口接收MIDI信息( MIDI messages),然后播放声音。图2-10表示的是一个简单的MIDI系统,它由一个MIDI键盘控制器和一个MIDI声音模块组成。许多MID键盘乐器在其内部既包含键盘控制器,又包含MIDI声音模块功能。在这些单元中,键盘控制器和声音模块之间已经有内部链接,这个链接可以通过该设备中的控制功能 ( local control)对链接打开(ON)或者关闭(OFF)。 MIDI OUT MIDI Sound module MiDI Keyboard Controller (MTI声音模块) (MTD键盘控制器) 图2-10简单的MIDI系统单个物理MIDI通道( MIDI channel)分成16个逻辑通道,每个逻辑通道可指定一种乐器, 如图2-11所示。在MID信息( MIDI messages)中,用4个二进制位来表示这16个逻辑通道。音乐键盘可设置在这16个通道之中的任何一个,而MIDI声源或者声音模块可被设置在指定的 MIDI通道上接收

第2章数字声音简介 10 图2-09 乐音样本合成器的工作原理乐音样本合成器所需要的输入控制参数比较少，可控的数字音效也不多，大多数采用这种合成方法的声音设备都可以控制声音包络的ADSR参数，产生的声音质量比FM合成方法产生的声音质量要高。 2.6.4 电子乐器数字接口(MIDI)系统 MIDI协议提供了一种标准的和有效的方法，用来把演奏信息转换成电子数据。MIDI信息是以“MIDI messages”传输的，它可以被认为是告诉音乐合成器(music synthesizer)如何演奏一小段音乐的一种指令，而合成器把接收到的MIDI数据转换成声音。国际MIDI协会 (International MIDI Association)出版的MIDI 1.0规范对MIDI协议作了完整的说明。 MIDI数据流是单向异步的数据位流(bit stream)，其速率为31.25 kbps，每个字节为10 位(1位开始位，8位数据位和1位停止位)。MIDI乐器上的MIDI接口通常包含3种不同的MIDI 连接器，用IN(输入), OUT(输出)和THRU(穿越)。MIDI数据流通常由MIDI控制器(MIDI controller)产生，如乐器键盘(musical instrument keyboard)，或者由MIDI音序器(MIDI sequencer)产生。MIDI控制器是当作乐器使用的一种设备，在播放时把演奏转换成实时的 MIDI数据流，MIDI音序器是一种装置，允许MIDI数据被捕获、存储、编辑、组合和重奏。来自MIDI控制器或者音序器的MIDI数据输出通过该装置的MIDI OUT连接器传输。通常，MIDI数据流的接收设备是MIDI声音发生器(MIDI sound generator)或者MIDI声音模块(MIDI sound module)，它们在MIDI IN端口接收MIDI信息(MIDI messages)，然后播放声音。图2-10表示的是一个简单的MIDI系统，它由一个MIDI键盘控制器和一个MIDI声音模块组成。许多MIDI键盘乐器在其内部既包含键盘控制器，又包含MIDI声音模块功能。在这些单元中，键盘控制器和声音模块之间已经有内部链接，这个链接可以通过该设备中的控制功能 (local control)对链接打开(ON)或者关闭(OFF)。图2-10 简单的MIDI系统单个物理MIDI通道(MIDI channel)分成16个逻辑通道，每个逻辑通道可指定一种乐器，如图2-11所示。在MIDI信息(MIDI messages)中，用4个二进制位来表示这16个逻辑通道。音乐键盘可设置在这16个通道之中的任何一个，而MIDI声源或者声音模块可被设置在指定的 MIDI通道上接收

清华大学：《多媒体技术》课程教学资源（教材教案讲义）第2章 数字声音及MDI简介

清华大学：《多媒体技术》课程教学资源（教材教案讲义）第2章数字声音及MDI简介