《方言》：汉语方言的实验语音学研究旨趣（中国社会科学院语言研究所：胡方）

团购合买资源类别：文库，文档格式：PDF，文档页数：16，文件大小：1.53MB

国家哲学社会科学学术期刊数据库方言2018年第4期35-40(2018年11月24日出版于北京) ational social Sciences Datab 汉语方言的实验语音学研究旨趣胡方 (中国社会科学院语言研究所北京hufang@cass.org.cn) 提要汉语方言的语音研究中经常用到实验语音学,但却常常存在两大误解。其一,觉得实验语音学就是做测量,做统计分析的,将语言学范畴图解一下,好像就是实验语音学了;其二,觉得实验语音学是研究偏僻音类的,好像只有偏僻、稀奇的音才需要实验研究,以补“口耳之缺”。本文指出,实验语音学并不是音类的简单图解,语音学测量与统计必须有语言学意义上的考量。汉语方言的实验语音学研究就是以现在的语音科学实验手段探寻方言语音中的音类、音值区别的性质与规律:这些音的物理特性是什么?发音上是如何实现的?感知上有什么特点?而不是简单地验证记音的准确性,更不是为了寻找僻见的语音。汉语方言的实验语音学研究是语言学研究的一个独立的子学科,实验语音学测量所提供的语音细节为我们观察语音现象提供了新的方法论上的可能性。语音作为人类语言的物理载体具备了具体、变异的特性,不再像以往概念化似的那般抽象。语音的物理特性与语言学范畴之间并不存在简单对应的关系,而是交融着语音产生机制与语音感知特性的复杂映射关系。关键词实验语音学证据导向新描写主义零引言语言学属于人文科学( Humanities)范畴,其研究旨趣在于描写语言事实并进行总结,是种归纳推理导向的研究范式( a generalization- based approach);实验语音学则属于实验科学范畴,其研究旨趣在于以生理、物理、心理实验为基础,对语言中的语音现象进行描写或者解释, 是一种证据导向的研究范式( an evidence- based approach)。无论采用哪种研究范式,任何科学研究的核心任务都是为人类提供新知识,也就是创新。那么,在汉语方言的语音研究上,实验语音学可以提供什么样的新知识?换句话说,研究方言语音为什么需要实验语音学? 汉语方言的语音研究是在高本汉(1915-1926)、赵元任(1928)开创的传统的基础上发展起来的。这个传统是描写主义的,科学与人文并重。研究者主要基于口耳之学的听音辨音,记录汉语方言材料,整理方言音系,并结合汉语历史音韵,厘清汉语方言的发展关系及地理分布特点。这一传统的研究范式为我们了解汉语方言的基本面貌和特点提供了宝贵的第一手的资料。这种研究自1949年以来,尤其是在改革开放之后取得了丰硕的研究成果。语言学领域的实验语音学研究也有源远流长的口耳之学的传统,但自20世纪以来,其学科发展渐渐走上了一条实验科学的道路,而且越来越呈现出跨学科的特点。不用说语音工程、人工智能等领域的研究,就是偏语言学本身的语音学研究,也普遍遵循实验科学的一般范式, 对语音进行采样测量,对数据进行统计分析,进而对语音现象进行描写与解释。实验科学在传统语音研究领域的发展为我们观察人类语言中的语音现象提供了新的理论视角与方法工具。那么,实验语音学究竟提供了怎么样的新东西呢?首当其冲的便是语音数据的采样,尤其是作为语言物理外壳的语音音频数据的采集,现代科技的发展为我们提供了极大的方便,以前 2018年第4期 385 ational social sciences Databa

方言 2018年第 4期 385—4oo页(2018年 11月 24日出版于北京 ) 汉语方言的实验语音学研究旨趣胡方 (中国社会科学院语言研究所北京 hufang@cass．org．cn) 提要汉语方言的语音研究中经常用到实验语音学，但却常常存在两大误解。其一，觉得实验语音学就是做测量，做统计分析的，将语言学范畴图解一下，好像就是实验语音学了；其二，觉得实验语音学是研究偏僻音类的，好像只有偏僻、稀奇的音才需要实验研究，以补 “口耳之缺 ”。本文指出，实验语音学并不是音类的简单图解，语音学测量与统计必须有语言学意义上的考量。汉语方言的实验语音学研究就是以现在的语音科学实验手段探寻方言语音中的音类、音值区别的性质与规律：这些音的物理特性是什么?发音上是如何实现的?感知上有什么特点 ?而不是简单地验证记音的准确性，更不是为了寻找僻见的语音。汉语方言的实验语音学研究是语言学研究的一个独立的子学科，实验语音学测量所提供的语音细节为我们观察语音现象提供了新的方法论上的可能性。语音作为人类语言的物理载体具备了具体、变异的特性，不再像以往概念化似的那般抽象。语音的物理特性与语言学范畴之间并不存在简单对应的关系，而是交融着语音产生机制与语音感知特性的复杂映射关系。关键词实验语音学证据导向新描写主义零引言语言学属于人文科学 (Humanities)范畴，其研究旨趣在于描写语言事实并进行总结，是一种归纳推理导向的研究范式 (ageneralization—based approach)；实验语音学则属于实验科学范畴，其研究旨趣在于以生理、物理、心理实验为基础，对语言中的语音现象进行描写或者解释，是一种证据导向的研究范式 (anevidence—basedapproach)。无论采用哪种研究范式，任何科学研究的核心任务都是为人类提供新知识，也就是创新。那么，在汉语方言的语音研究上，实验语音学可以提供什么样的新知识?换句话说，研究方言语音为什么需要实验语音学? 汉语方言的语音研究是在高本汉(1915—1926)、赵元任 (1928)开创的传统的基础上发展起来的。这个传统是描写主义的，科学与人文并重。研究者主要基于口耳之学的听音辨音，记录汉语方言材料，整理方言音系，并结合汉语历史音韵，厘清汉语方言的发展关系及地理分布特点。这一传统的研究范式为我们了解汉语方言的基本面貌和特点提供了宝贵的第一手的资料。这种研究自1949年以来，尤其是在改革开放之后取得了丰硕的研究成果。语言学领域的实验语音学研究也有源远流长的口耳之学的传统，但自 20世纪以来，其学科发展渐渐走上了一条实验科学的道路，而且越来越呈现出跨学科的特点。不用说语音工程、人工智能等领域的研究，就是偏语言学本身的语音学研究，也普遍遵循实验科学的一般范式，对语音进行采样测量，对数据进行统计分析，进而对语音现象进行描写与解释。实验科学在传统语音研究领域的发展为我们观察人类语言中的语音现象提供了新的理论视角与方法工具。那么，实验语音学究竞提供了怎么样的新东西呢?首当其冲的便是语音数据的采样，尤其是作为语言物理外壳的语音音频数据的采集，现代科技的发展为我们提供了极大的方便，以前 2018年第 4期 ·385·

国家哲学社会科学学术期刊数据库需要专业录音设备才能完成的任务,现在可以在便携电子产品上轻松实现。ccsD)a 新技术不仅仅提供新的方法,而且在语言研究的哲学层面带来基础理论的变革。结构主义以来的语言学传统区分“语言”( language)与“言语”( speech),定义前者是抽象的语言能力 (生成学派术语中的 linguistic competence),后者则是具体的产出( linguistic performance);语言学研究的是“语言”,而不是“言语”。吊诡的是,语言学研究的材料都是“言语”;而根据“言语”来研究“语言”,在语言学的研究中这一设定是不需要进行论证的。比如说,作为语言基本单位的“音位”( phoneme)的概念,直接就被认为是人脑中固有的抽象物,可有更抽象的“区别特征”( distinctive features),而同时,“音位”的物理产出物“音素”( phone)则只是一些对语言学核心任务来说不大重要的“变异”( variations)。更为关键的是,在学科立论( argumentation) 上,也不需要从具体的言语产出( speech production)去对语言学上的音类(即人类储存在大脑中的语音类别)进行论证。与此相反,实验语音学则认为这是需要论证的,抽象的音类是建立在对采样数据的科学论证基础上的;丰富的实验语音细节(fne- grained phonetic details)改变了我们的语音观、语言观。实验语音学为方言语音研究带来的创新之处,表面上看,最显著的就是对数据的测量、统计了。那么,我们的任务就是做测量,做统计,通过数据的可视化图解语音范畴或者语音现象么?例如经常可见到一些声调研究,测量了若干人的声调的基频曲线,通过平均、归一方法画出来,据说便能和声调的五度值对应了;然后便是结论,讨论一下和传统的口耳之学的方言学记音有什么异同。这是非常危险的,因为语音的声学参量与语言学意义上的语音范畴之间并不是简单对应的关系。或者增加发音人中男女、年龄、或者其他社会属性的不同,再复杂一些, 比较一下另一方言的类似情况,然后就开始谈语音的性别差异、年龄差异,甚至语音演变等,那就更加危险了。语音的物理参量的采样、测量、统计本身并没有错,数据可视化也是实验语音学研究中常见的手段;但实验语音学并不是为测量而测量,为统计而统计,实验语音学遵循实验科学的一般方法,最为关键的是,实验语音学的测量与统计必须有语言学意义上的考量关于实验语音学对方言研究的用处,一个广泛被接受的说法是“补口耳之缺”;这是从前文所言“通过言语来研究语言而不需要进行论证”的立场出发说的。事实上,从事方言调查工作的学者对于实验语音学最大的需求可能就在于此,因为即便是调查经验丰富的学者,有时也会希望借助语音实验来确定或证明某个难记的音。但非常遗憾,实验语音学往往不能直接给出答案,因为我们的语言观、语音观是:语音的本质不是抽象的音位、音位变体或区别特征所能完全概括的语音是具体的、变异的。“补口耳之缺”这个说法的另一个问题是其预设,即常见的音类是不需要实验语音学的,只有僻见的语音才有必要引入实验研究。这也是错误的想法, 实验语音学并非只研究僻见的语音现象,而是要对一切语音现象做系统、全面的研究实验语音学对于语音研究的创新就在于直面“通过言语来研究语言”这一语言学的二元论问题。在一般语言学的理论框架中,作为语言基本单位的音位及其区别性主要是从心理的角度,通过思辨推理来定义的,即音类在语言或大脑中的表征( representation)是通过逻辑推理,而不是实际的发音生理和感知心理实验来论证的。在这个框架之下,语言具有自主性 ( autonomy)。有一个著名的比喻:一副象棋缺个子儿,无论是车、马,还是将、相,拿块石子代替即可。也就是说,重要的是系统与功能,具体语言单位的确切物理值对语言系统来说一点儿都不重要。在这种语言观背景下,实验语音学研究除了验证音类的音值之外,确实没有太多其他的用武之地,况且验证音值本也不是语言研究的核心问题。有意思的是,持这种语言观的学者术期刊数据 National social sciences databa

需要专业录音设备才能完成的任务，现在可以在便携电子产品上轻松实现。新技术不仅仅提供新的方法，而且在语言研究的哲学层面带来基础理论的变革。结构主义以来的语言学传统区分“语言”(1anguage)与“言语 ”(speech)，定义前者是抽象的语言能力 (生成学派术语中的 linguisticcompetence)，后者则是具体的产出(1inguisticperformance)；语言学研究的是“语言”，而不是“言语 ”。吊诡的是，语言学研究的材料都是 “言语 ”；而根据“言语”来研究“语言”，在语言学的研究中这一设定是不需要进行论证的。比如说，作为语言基本单位的“音位”(phoneme)的概念，直接就被认为是人脑中固有的抽象物，可有更抽象的“区别特征”(distinctivefeatures)，而同时，“音位”的物理产出物“音素 ”(phone)则只是一些对语言学核心任务来说不大重要的“变异”(variations)。更为关键的是，在学科立论 (argumentation) 上，也不需要从具体的言语产出(speechproduction)去对语言学上的音类 (即人类储存在大脑中的语音类别 )进行论证。与此相反，实验语音学则认为这是需要论证的，抽象的音类是建立在对采样数据的科学论证基础上的；丰富的实验语音细节 (fine—grainedphoneticdetails)改变了我们的语音观、语言观。实验语音学为方言语音研究带来的创新之处，表面上看，最显著的就是对数据的测量、统计了。那么，我们的任务就是做测量，做统计，通过数据的可视化图解语音范畴或者语音现象么?例如经常可见到一些声调研究，测量了若干人的声调的基频曲线，通过平均、归一方法画出来，据说便能和声调的五度值对应了；然后便是结论，讨论一下和传统的口耳之学的方言学记音有什么异同。这是非常危险的，因为语音的声学参量与语言学意义上的语音范畴之间并不是简单对应的关系。或者增加发音人中男女、年龄、或者其他社会属性的不同，再复杂一些，比较一下另一方言的类似情况，然后就开始谈语音的性别差异、年龄差异，甚至语音演变等，那就更加危险了。语音的物理参量的采样、测量、统计本身并没有错，数据可视化也是实验语音学研究中常见的手段；但实验语音学并不是为测量而测量，为统计而统计，实验语音学遵循实验科学的一般方法，最为关键的是，实验语音学的测量与统计必须有语言学意义上的考量。关于实验语音学对方言研究的用处，一个广泛被接受的说法是“补口耳之缺”；这是从前文所言“通过言语来研究语言而不需要进行论证”的立场出发说的。事实上，从事方言调查丁作的学者对于实验语音学最大的需求可能就在于此，因为即便是调查经验丰富的学者，有时也会希望借助语音实验来确定或证明某个难记的音。但非常遗憾，实验语音学往往不能直接给出答案，因为我们的语言观、语音观是：语音的本质不是抽象的音位、音位变体或区别特征所能完全概括的，语音是具体的、变异的。“补口耳之缺”这个说法的另一个问题是其预设，即常见的音类是不需要实验语音学的，只有僻见的语音才有必要引入实验研究。这也是错误的想法，实验语音学并非只研究僻见的语音现象，而是要对一切语音现象做系统、全面的研究。实验语音学对于语音研究的创新就在于直面“通过言语来研究语言”这一语言学的二元论问题。在一般语言学的理论框架中，作为语言基本单位的音位及其区别性主要是从心理的角度，通过思辨推理来定义的，即音类在语言或大脑中的表征 (representation)是通过逻辑推理，而不是实际的发音生理和感知心理实验来论证的。在这个框架之下，语言具有自主性 (autonomy)。有一个著名的比喻：一副象棋缺个子儿，无论是车、马，还是将、相，拿块石子代替即可。也就是说，重要的是系统与功能，具体语言单位的确切物理值对语言系统来说一点儿都不重要。在这种语言观背景下，实验语音学研究除了验证音类的音值之外，确实没有太多其他的用武之地，况且验证音值本也不是语言研究的核心问题。有意思的是，持这种语言观的学者 · 386· 方言

往往觉得用实验的方法验证音值并不是件难事,因为他们认为语音与声学参数之间存在着简单的对应关系。但事实上,在实验语音学的研究范式中,音位,或者宽泛一点的“音类”,与研究中容易采样测量到的语音声学数据之间,并不存在直接的对应关系,因为二者之间隔着语音产生( speech production)与语音感知( speech perception)两大科学问题。而且,近些年的实验研究表明:大脑中处理语音产生与感知是由不同的区域与机理控制的( Bouchard等2013; Mesgarani等2014)。尽管在实验语音学领域,一直不断地有理论试图建立语音产生与感知之间的关系,阐释二者之间的相关性甚至一致性,比如语音感知的运动神经理论( The motor theory of speech perception,参见 Liberman等1967; liberman& Mattingly1985和1989; Liberman& Whalen2000; Galantucci等2006)、语音产生的量子理论( The quantal theory of peech production,参见 Stevens1972,1989)等,但是,语音产生与感知毕竟是由独立机制控制的,而二者之间的不一致性可能就是造成各种语言的语音多样性的原因之一,比如 Ohala (1981,1993)就试图从感知误差去解释语音演变,认为这是语音演变的主要原因。实验语音学的研究就是用实验科学的方法描写人类语言中的语音现象,作为一个多学科共同关心的研究领域,其研究旨趣可以有不同的取向——可以是偏描写性的( descriptive approach),描写世界语言中的语音多样性与普遍性;又可以是偏实验性的( experimental approach),也就是把言语作为实验材料,测试大脑中与语音相关的语言能力。语音产生与语音感知是人类大脑的固有功能,在大脑中由相应的模块与机制控制,受语音产生与感知机制控制的音类在具体的语言中如何组织成系统,成为语法的一部分,便是语言的音系( phonology) 了。偏描写性的实验语音学的主要任务就是描写这个“从大脑至语言/言语”的过程;而偏实验性的实验语音学则有“从言语/语言至大脑”的意味,旨趣上更偏向解释性。本文主要以汉语方言中的语音现象为研究对象来谈语音学,在实验语音学中大体上属于偏描写的、偏语言学的研究取向。虽然偏描写,但与传统的方言学描写不同,这就是:我们提倡种“新描写主义”的方法——实验描写主义。生成学派( Chomsky&Hlle1968)区分语音 ( phonetics)与音系( phonology),并认为语音学是研究语音的,主要是语言外部( linguistic external)的内容,音系学是研究音系的,是语言内部( linguistic internal)的内容。但如前所述我们的语言观与此不同,本文所谈论的实验语音学研究包括语言的语音与音系,即大体采用 Ohala(1991,1995)所倡导的取向。简要地说,就是以语音科学实验手段探寻方言语音中的音类的性质与规律这些音的物理特性是什么?发音上是如何实现的?感知上有什么特点?不是简单地将原来研究的音类画一个图,统计一下,验证一下记音的准确性;更不是为了寻找某些僻见的语音。汉语方言的实验语音学研究是语言学的一个独立的子学科,兄弟学科会发现它的研究成果对自己有用,但它本身并不是为别的学科服务的当我们谈论实验测量、统计的时候,我们在谈论什么?必须明白:我们仍是在谈论语言学, 只是,这是一种跟原来的非实验传统有些不一样的语言学。壹发音人在干什么?一从语音基本单位出发实验语音学的终极目标是从科学上弄清楚:发音人在干什么?把这通俗的话语换成科学术语,首先就是语言语音的基本单位问题:它是相对连续的某一个整体,比如音节( syllable)? 还是离散的抽象的一个一个音段( segment)音位或者其他更基本、更抽象的组成成分?同时提出的是语音单位的真实存在性问题,即它们在大脑/语言中的表征( representation)问题。这不是个容易的问题。做田野语言调查的学者,不可能奢望发音合作人跟你解释某个音 18年第4期社会科学学术期刊数据库 National social sciences databa

往往觉得用实验的方法验证音值并不是件难事，因为他们认为语音与声学参数之间存在着简单的对应关系。但事实上，在实验语音学的研究范式中，音位，或者宽泛一点的“音类 ”，与研究中容易采样、测量到的语音声学数据之间，并不存在直接的对应关系，因为二者之间隔着语音产生 (speechproduction)与语音感知(speechperception)两大科学问题。而且，近些年的实验研究表明：大脑中处理语音产生与感知是由不同的区域与机理控制的 (Bouchard等 2013； Mesgarani等 2014)。尽管在实验语音学领域，一直不断地有理论试图建立语音产生与感知之间的关系，阐释二者之间的相关性甚至一致性，比如语音感知的运动神经理论 (Themotor theory ofspeech perception，参见 Liberman等 1967；Liberman & Marttingly 1985和 1989； Liberman& Whalen2000；Galantucci等 2006)、语音产生的量子理论 (Thequantaltheory of speechproduction，参见 Stevens1972，1989)等，但是，语音产生与感知毕竟是由独立机制控制的，而二者之间的不一致性可能就是造成各种语言的语音多样性的原因之一，比如 Ohala (1981，1993)就试图从感知误差去解释语音演变，认为这是语音演变的主要原因。实验语音学的研究就是用实验科学的方法描写人类语言中的语音现象，作为一个多学科共同关心的研究领域，其研究旨趣可以有不同的取向——可以是偏描写性的 (descriptive approach)，描写世界语言中的语音多样性与普遍性；又可以是偏实验性的 (experimental approach)，也就是把言语作为实验材料，测试大脑中与语音相关的语言能力。语音产生与语音感知是人类大脑的固有功能，在大脑中由相应的模块与机制控制，受语音产生与感知机制控制的音类在具体的语言中如何组织成系统，成为语法的一部分，便是语言的音系 (phonology) 了。偏描写性的实验语音学的主要任务就是描写这个 “从大脑至语言／言语 ”的过程；而偏实验性的实验语音学则有“从言语／语言至大脑 ”的意味，旨趣上更偏向解释性。本文主要以汉语方言中的语音现象为研究对象来谈语音学，在实验语音学中大体上属于偏描写的、偏语言学的研究取向。虽然偏描写，但与传统的方言学描写不同，这就是：我们提倡一种“新描写主义”的方法——实验描写主义。生成学派 (Chomsky& Halle1968)区分语音 (phonetics)与音系 (phonology)，并认为语音学是研究语音的，主要是语言外部 (1inguistic externa1)的内容，音系学是研究音系的，是语言内部 (1inguisticinterna1)的内容。但如前所述，我们的语言观与此不同，本文所谈论的实验语音学研究包括语言的语音与音系，即大体采用 Ohala(1991，1995)所倡导的取向。简要地说，就是以语音科学实验手段探寻方言语音中的音类的性质与规律：这些音的物理特性是什么?发音上是如何实现的?感知上有什么特点?不是简单地将原来研究的音类画一个图，统计一下，验证一下记音的准确性；更不是为了寻找某些僻见的语音。汉语方言的实验语音学研究是语言学的一个独立的子学科，兄弟学科会发现它的研究成果对自己有用，但它本身并不是为别的学科服务的。当我们谈论实验测量、统计的时候，我们在谈论什么?必须明白：我们仍是在谈论语言学，只是，这是一种跟原来的非实验传统有些不一样的语言学。壹发音人在干什么?— — 从语音基本单位出发实验语音学的终极目标是从科学上弄清楚：发音人在干什么?把这通俗的话语换成科学术语，首先就是语言／语音的基本单位问题：它是相对连续的某一个整体，比如音节 (syllable)? 还是离散的、抽象的一个一个音段(segment)／音位或者其他更基本、更抽象的组成成分?同时提出的是语音单位的真实存在性问题，即它们在大脑／语言中的表征 (representation)问题。这不是个容易的问题。做田野语言调查的学者，不可能奢望发音合作人跟你解释某个音 2018年第 4期 ·387·

是怎么发出来的,因为他根本不知道自己在干什么(比如实现哪个目标),他只是自然而然地就发出音来了。受过专业训练的田野语言学工作者,往往反复模仿发音人的发音,直到发音人完全认可,然后根据自己模仿的发音来进行记录。这里牵涉到一个理论假设,即语音感知的运动神经理论:只有当你能正确地发某个音的时候,你对这个音的感知才是正确的。但这个理论在语音感知领域支持者不多,因为论断太强了;一般的语音感知其实并不需要同时唤醒发音器官的运动神经。语言学家则多喜欢这个理论,因为传统口耳之学的描写语音学正是强调通过发音训练来感知陌生语言的语音,相信通过自己的口腔实践可以找到各类语音发音时的肌肉内省感( proprioceptive sensation)和发音器官的触碰感( tactile sensation)。但有一些语音学家不大相信这些,而认为声学听感是更重要的相关物。比如当你训练正则元音[iee-a]时,他们认为逐一下降的其实并不是舌头的位置,而是你的听感声学距离(参见胡方2008)。问题的复杂性在于,语言发音这件事情牵涉的不仅仅是生理发音(发音器官的运动),而是生理发音受运动神经控制( speech motor control)、感知声学调节的综合结果;而且,语音还受到更高层级的语言学与认知层面的制约,因为语音本身也是语言的语法的一部分。对于发音人在干什么”这个问题,广义的回答包括以上诸多层面,在科学研究上需要厘清的是,我们是在哪个层面上回答这个问题。一方面,可以从语音产生( speech production)的角度进行回答:在运动神经控制层面,就像每个人写字的笔迹不同,发同一个音,发音人可以有不同的运动神经控制模式;运动神经控制的输出就是可以测量到的发音动作,进而就是发音位置的不同这就是一般所说的狭义的发音的不同。另一方面,也可以从语音感知( speech perception)的角度思考发音与声学上的不同是如何被感知的。从目的论的角度看,发音是为了实现感知声学目标;不过,这会把问题过于简单化了。其大脑中控制语音的产生与感知的机制是不同的( Bouchard等2013; Mesgarani等2014)。其二,发音与声学之间的关系不是一对一的。 Stevens(1972,1989)将这种非线性关系理论化为发音与声学之间的量子特性( quantal nature)。其三,即便是量子特性,发音与声学关系也存在着发音人之间( Inter- speaker)与发音人内部( intra-speaker)的变异( variations),而且,还可能跟特定发音所涉及的生理解剖相关( Perkell1996);近年的研究发现,个体的不同是发音与声学关系、产生与感知关系的一个重要变异源( Fuchs等2015)。目的论在语言学中很流行, 因为语言学的论证一般是基于直观推理的,而不是实验科学,诚如 Jakobson和 Waugh(1979) 所言,“ We speak in order to be heard and need to be heard in order to be understood”(我们说话是为了让人听见,需要让人听见是为了被人理解),因此从语言是交际工具这个角度出发,目的是决定性的。在目的论的逻辑看来,发音人自觉或不自觉地运用某种发音策略,所产生的语音具有客观的声学特性、感知特性,其目的是实现该语音的音系地位,即该语音在目标语言中的区别性。也就是说,语言学将整个发音过程简化为实现音位的区别对立性了。但是, 这个实现过程并不简单。更为复杂的是,发音人并不是想做什么就能做到什么,比如我们常会发现:怎么有些平调的基频曲线有点降呢?怎么浊塞音在语图上不是百分之百有浊音杠呢? 怎么单元音的共振峰轨迹有时也会有动程呢? 简言之,非实验的语言学建立在语音的区别性之上,具有区别性的音构成语言中不同的音类,整个现代语言学大厦便矗立在此基础之上;而基于实验的语音学研究则要回答:这些音类是怎么样的,如何产生,如何感知,如何在语言中构成系统。我们可以暂且先把发音策略、感知特性等问题放在一边,从语音声学( speech acoustics)出发,测量语音( phones or sampled 家哲学社会科学学术期刊数据库方言 National social sciences Dalat

是怎么发出来的，因为他根本不知道自己在干什么 (比如实现哪个目标 )，他只是自然而然地就发出音来了。受过专业训练的田野语言学工作者，往往反复模仿发音人的发音，直到发音人完全认可，然后根据自己模仿的发音来进行记录。这里牵涉到一个理论假设，即语音感知的运动神经理论：只有当你能正确地发某个音的时候，你对这个音的感知才是正确的。但这个理论在语音感知领域支持者不多，因为论断太强了；一般的语音感知其实并不需要同时唤醒发音器官的运动神经。语言学家则多喜欢这个理论，因为传统口耳之学的描写语音学正是强调通过发音训练来感知陌生语言的语音，相信通过自己的口腔实践可以找到各类语音发音时的肌肉内省感 (proprioceptivesensation)和发音器官的触碰感 (tactilesensation)。但有一些语音学家不大相信这些，而认为声学一听感是更重要的相关物。比如当你训练正则元音 [i-e一￡．a]时，他们认为逐一下降的其实并不是舌头的位置，而是你的听感声学距离(参见胡方 2008)。问题的复杂性在于，语言发音这件事情牵涉的不仅仅是生理发音 (发音器官的运动)，而是生理发音受运动神经控制(speech motorcontro1)、感知声学调节的综合结果；而且，语音还受到更高层级的语言学与认知层面的制约，因为语音本身也是语言的语法的一部分。对于 “发音人在干什么”这个问题，广义的回答包括以上诸多层面，在科学研究上需要厘清的是，我们是在哪个层面上回答这个问题。一方面，可以从语音产生(speechproduction)的角度进行回答：在运动神经控制层面，就像每个人写字的笔迹不同，发同一个音，发音人可以有不同的运动神经控制模式；运动神经控制的输出就是可以测量到的发音动作，进而就是发音位置的不同，这就是一般所说的狭义的发音的不同。另一方面，也可以从语音感知(speechperception)的角度思考发音与声学上的不同是如何被感知的。从目的论的角度看，发音是为了实现感知声学目标；不过，这会把问题过于简单化了。其一，大脑中控制语音的产生与感知的机制是不同的 (Bouchard等 2013；Mesgarani等 2014)。其二，发音与声学之间的关系不是一对一的。Stevens(1972，1989)将这种非线性关系理论化为发音与声学之间的量子特性 (quantalnature)。其三，即便是量子特性，发音与声学关系也存在着发音人之间(inter—speaker)与发音人内部 (intra．speaker)的变异 (variations)，而且，还可能跟特定发音所涉及的生理解剖相关 (Perkell1996)；近年的研究发现，个体的不同是发音与声学关系、产生与感知关系的一个重要变异源 (Fuchs等 2015)。目的论在语言学中很流行，因为语言学的论证一般是基于直观推理的，而不是实验科学，诚如 Jakobson和 Waugh(1979) 所言。“Wespeakinordertobeheardandneedtobeheardinordertobeunderstood”(我们说话是为了让人听见，需要让人听见是为了被人理解 )，因此从语言是交际工具这个角度出发，目的是决定性的。在目的论的逻辑看来，发音人自觉或不自觉地运用某种发音策略，所产生的语音具有客观的声学特性、感知特性，其目的是实现该语音的音系地位，即该语音在目标语言中的区别性。也就是说，语言学将整个发音过程简化为实现音位的区别对立性了。但是，这个实现过程并不简单。更为复杂的是，发音人并不是想做什么就能做到什么，比如我们常会发现：怎么有些平调的基频曲线有点降呢?怎么浊塞音在语图上不是百分之百有浊音杠呢? 怎么单元音的共振峰轨迹有时也会有动程呢? 简言之，非实验的语言学建立在语音的区别性之上，具有区别性的音构成语言中不同的音类，整个现代语言学大厦便矗立在此基础之上；而基于实验的语音学研究则要回答：这些音类是怎么样的，如何产生，如何感知，如何在语言中构成系统。我们可以暂且先把发音策略、感知特性等问题放在一边，从语音声学 (speech acoustics)出发，测量语音 (phonesorsampled · 388· —疗言

家哲学社会科学学术期刊数据库 segments)的声学特性,观察语言中的音类是怎么样的。这个过程,从语言学的角度看来,就是观察语音的区别特性如何实现①!在具体操作上,我们采样的是个体的语音,但我们要描写的其实是语音的类( phonetic category),音系上的自然类( natural class)。因此,在检视所采样的语音的声学参数时,“发音人在干什么”这个问题便具体化为:哪些声学特性在我们所研究的目标语言中是具有区别音类的作用的?哪些又是冗余的? 我们来看一个声调的例子( Zhang&H2015)。据刘丹青的调查,徽语祁门方言有6个声调(平田昌司[主编]1998:126):阴平[]11,阳平[]55,上声[]42,阴去[]213,阳去 [4]33,阴入[4]435。中古平、去、入声今均分阴阳,不过阳入并入阳去,独立成调的阴入也不短促;上声不分阴阳,但有一部分古全浊上声字今读阳去。下面介绍我们的研究。在核实了记音的基础上,我们对祁门声调进行了声学采样。每个声调用了5个单音节例字,例字既单念也放在载体句中,录音重复5遍。5男5女共10位成年发音人参与了录音,他们均说地道祁门话,没有言语或听力障碍。录音在田野调查中进行,在个安静的房间内通过 TerraTec DMX6 Fire USB声卡和 SHURE SM86麦克风直接录到笔记本电脑中,声音的采样率是11,025赫兹,16位。在prat5.3.48( Boersma& Weenink2014)中将每个采样例字的韵母段标注为声调的承载段( Tone Bearing Unit,TBU)。在检视每个采样之后,将每个样本的基频曲线均分,并提取10个点上的基频,用 Logarithm Z- -score(L- score) 方法对基频进行归一。如下面公式(1)所示,x代表采样点的基频值,y是x的对数值,那么 LZ- score值z就可以表示为y与对数均值之差除以标准差s,。然后,我们将 LZ-score值进一步转换成以每个发音人为基础的相对值( Relative Degree,RD):如公式(2)所示,zm和zm分别是某个发音人的 LZ-score最大值和最小值;这样,计算的结果与转写声调的五度值(Chao1930) 之间就有一个直观的参照。声调时长也用相对化( Duration Relativization,DR)进行归一,如公式(3)所示,D代表测量的实际时长,M代表6个声调的平均时长。公式(1):y;=lgx;z1= 公式(2):RD,= 公式(3):DBsb M 看下页图1。头两行先逐个表现发音人的声调基频曲线均值(第一行依次为五位男发音人,第二行依次为五位女发音人)。数字代表调类:1阴平、2阳平、3上声、4阴去、5阳去、6阴入;横坐标是采样的10个点,纵坐标是赫兹值。第三行开头两图是分性别的发音人均值(左男中女)。发音人的基频幅度均有160赫兹左右,其中男发音人约在100-260赫兹之间,女发音人约在130-290赫兹之间。所有人的基频曲线总结为第三行右图。先来看祁门方言的三个平调。只有记为[]33的阳去的基频曲线大致是平的,男发音人均值约在163赫兹,女发音人均值约在216赫兹;当然,在不同的个体发音人中,也有一些变异的情况,比如在女发音人1中,它是下倾的,在女发音人4中,它有个下降的调头,在男发音人 2和女发音人5中,它有个上升的调头,等等。记为[]11的阴平调在大部分发音人中都是下倾的,也就是说,从基频曲线看,它是个低降的调形:男发音人约从144赫兹下降至131赫兹, 女发音人约从202赫兹下降至175赫兹。而记为[]5的阳平调从基频曲线上看则是个升降 ①在语言学传统上,语音之间的区别特性是从心理的角度根据直观推理定义的,即由区别特征 ( distinctive features)构成,但近些年来心理学领域的研究发现人类在类别感知上可能具有范例性特点 ( exemplar model),语言的音类也是如此(参见 Johnson2007),由于本文不具体讨论这个问题,因此不细究。 2018年第4期社 389 National social sclences Dala

segments)的声学特性，观察语言中的音类是怎么样的。这个过程，从语言学的角度看来，就是观察语音的区别特性如何实现①!在具体操作上，我们采样的是个体的语音，但我们要描写的其实是语音的类 (phoneticcategory)，音系上的自然类 (naturalclass)。因此，在检视所采样的语音的声学参数时，“发音人在干什么”这个问题便具体化为：哪些声学特性在我们所研究的目标语言中是具有区别音类的作用的?哪些又是冗余的? 我们来看一个声调的例子(Zhang& Hu2015)。据刘丹青的调查，徽语祁门方言有 6个声调(平田昌司[主编 ]1998：126)：阴平 [J]11，阳平 []]55，上声 [-1]42，阴去 [J]213，阳去 [_{]33，阴人[叫]435。中古平、去、人声今均分阴阳，不过阳人并人阳去，独立成调的阴人也不短促；上声不分阴阳，但有一部分古全浊上声字今读阳去。下面介绍我们的研究。在核实了记音的基础上，我们对祁门声调进行了声学采样。每个声调用了5个单音节例字，例字既单念也放在载体句中，录音重复 5遍。5男 5女共 10位成年发音人参与了录音，他们均说地道祁门话，没有言语或听力障碍。录音在田野调查中进行，在一个安静的房间内通过 TerraTecDMX 6FireUSB声卡和 SHURE SM86麦克风直接录到笔记本电脑中，声音的采样率是 11，025赫兹，16位。在 praat5．3．48(Boersma& Weenink2014)中将每个采样例字的韵母段标注为声调的承载段 (ToneBearingUnit，TBU)。在检视每个采样之后，将每个样本的基频曲线均分，并提取 10个点上的基频，用 Logarithm Z—score(LZ-score) 方法对基频进行归一。如下面公式 (1)所示，代表采样点的基频值，Y是的对数值，那么， LZ—score值z就可以表示为Y与对数均值之差除以标准差s。然后，我们将 LZ-score值进一步转换成以每个发音人为基础的相对值 (RelativeDegree，RD)：如公式(2)所示，z～和z…分别是某个发音人的 LZ．score最大值和最小值；这样，计算的结果与转写声调的五度值(Chao1930) 之间就有一个直观的参照。声调时长也用相对化(DurationRelativization，DR)进行归一，如公式(3)所示，D代表测量的实际时长，代表 6个声调的平均时长。 v—m z—z，． D 公式(1)：Y= ；z= 公式(2)：RD= 公式(3)：D尺= Sv zm“ ‘z吣 L 11／1i 看下页图 1。头两行先逐个表现发音人的声调基频曲线均值(第一行依次为五位男发音人，第二行依次为五位女发音人 )。数字代表调类：1阴平、2阳平、3上声、4阴去、5阳去、6阴人；横坐标是采样的 10个点，纵坐标是赫兹值。第三行开头两图是分性别的发音人均值 (左男中女)。发音人的基频幅度均有 160赫兹左右，其中男发音人约在 100-260赫兹之间，女发音人约在 130-290赫兹之间。所有人的基频曲线总结为第三行右图。先来看祁门方言的三个平调。只有记为 []33的阳去的基频曲线大致是平的，男发音人均值约在 163赫兹，女发音人均值约在 216赫兹；当然，在不同的个体发音人中，也有一些变异的情况，比如在女发音人 1中，它是下倾的，在女发音人 4中，它有个下降的调头，在男发音人 2和女发音人 5中，它有个上升的调头，等等。记为 [_J]11的阴平调在大部分发音人中都是下倾的，也就是说，从基频曲线看，它是个低降的调形：男发音人约从 144赫兹下降至 131赫兹，女发音人约从 202赫兹下降至 175赫兹。而记为[]]55的阳平调从基频曲线上看则是个升降 ① 在语言学传统上，语音之间的区别特性是从心理的角度根据直观推理定义的，即由区别特征 (distinctivefeatures)构成，但近些年来心理学领域的研究发现人类在类别感知上可能具有范例性特点 (exemplarmode1)，语言的音类也是如此(参见 Johnson2007)，由于本文不具体讨论这个问题，因此不细究。 2018年第 4期 ·389·

国家哲学社会科学学术期刊数据库型曲折调形,根本不是平的。 National social sciences atal Male 1 0130304450070109 :15041504喜0 enal Female 4 01526304914·610091 19203445Q]4 06.704 Mean(males) Mean (females) 009000 0 001020304050.50.70.8091 00102030405060108091 00.10.2030.40.50.60.70.80.911.1 图1祁门声调那么,它们是平调么?答曰:是的。我们认为,正因为祁门有三个平调,所以其中有两个平调在基频曲线上才不实现为平的调形!音系特征有“偶值理论”,但祁门的平调是典型的三值。中平实现为平实的基频曲线( plain level);低平略带缓降;高平在基频上特别高,发音人往往会运用特别的发声态“假声”( falsetto)来实现:男发音人阳平最高基频均值是256赫兹,女发音人是284赫兹。需要注意,无论是假声还是基频曲线的曲折,都是发音人为实现这一特高音调目标( pitch target)所使用的策略,而并不是假声这个发声态具有什么重要的语言学意义换言之,祁门方言“高、中、低”三个平调对立是通过发音人运用不同的发音策略来实现的。与祁门类似的有尼日利亚的 Yoruba语( Hombert1976a,1976b)和泰语( Abramson1962) Yoruba语仅有的三个声调,基频曲线也是低调降、中调平、高调升降(但基频没有祁门那么高),但它们都是音系上的平调;泰语有与 Yoruba类似的三个平调,另还有一个升调、一个降调,系统上更接近祁门(参考 Abramson1972,1975,1976,1978) 上声是祁门唯一的降调,其前半部分(约首45%时长)缓降,后半部分速降:男发音人约从 l90赫兹下降至110赫兹;女发音人约从241赫兹下降至137赫兹。而且无论男女,上声的最低点就是声调的最低点,即调域的下限。从这个意义上讲,上声记成[]41更妥一些祁门的阴去和阴入调形相同,为降升曲折型。两个声调的调头几乎相同:男发音人阴去的调头下降约9赫兹,阴人的调头下降约10赫兹;女发音人阴去的调头下降约17赫兹,阴入的调头下降约10赫兹。两调的调形区别仅在于上升的幅度,阴去上升不足30赫兹,而阴入则上升约79赫兹。就是说,祁门的两个升调的调头相同,唯高升调(阴入)升得高,低升调(阴去) 升得低。祁门方言明显不支持所谓“调域理论”(Yip1980;Bao1999),这个理论认为一个语内应避免拥有相同的调头或调尾的声调,而祁门的两个升调恰恰如此,而且阴入调贯穿低高两个调域。刘丹青记为降升调[]213和[1]435,保留了语音细节;我们则认为在音系上可 390·哲学社会科学学术期刊数据库 National social sclences Databa

型曲折调形，根本不是平的。 — — 1 m 2 "- *-3 · —一 4 一 5 6 图 1 祁门声调那么，它们是平调么?答日：是的。我们认为，正因为祁门有三个平调，所以其中有两个平调在基频曲线上才不实现为平的调形 !音系特征有 “偶值理论 ”，但祁门的平调是典型的三值。中平实现为平实的基频曲线(plainleve1)；低平略带缓降；高平在基频上特别高，发音人往往会运用特别的发声态“假声”(falsetto)来实现：男发音人阳平最高基频均值是 256赫兹，女发音人是 284赫兹。需要注意，无论是假声还是基频曲线的曲折，都是发音人为实现这一特高音调目标 (pitchtarget)所使用的策略，而并不是假声这个发声态具有什么重要的语言学意义。换言之，祁门方言“高、中、低”三个平调对立是通过发音人运用不同的发音策略来实现的。与祁门类似的有尼日利亚的 Yoruba语 (Hombert1976a，1976b)和泰语(Abramson 1962)。 Yoruba语仅有的三个声调，基频曲线也是低调降、中调平、高调升降 (但基频没有祁门那么高 )，但它们都是音系上的平调；泰语有与 Yomba类似的三个平调，另还有一个升调、一个降调，系统上更接近祁门(参考 Abramson 1972，1975，1976，1978)。上声是祁门唯一的降调，其前半部分(约首 45％时长)缓降，后半部分速降：男发音人约从 190赫兹下降至 110赫兹；女发音人约从 241赫兹下降至 137赫兹。而且无论男女，上声的最低点就是声调的最低点，即调域的下限。从这个意义上讲，上声记成 [＼J]41更妥一些。祁门的阴去和阴人调形相同，为降升曲折型。两个声调的调头几乎相同：男发音人阴去的调头下降约 9赫兹，阴入的调头下降约 10赫兹；女发音人阴去的调头下降约 17赫兹，阴入的调头下降约 10赫兹。两调的调形区别仅在于上升的幅度，阴去上升不足 30赫兹，而阴人则上升约 79赫兹。就是说，祁门的两个升调的调头相同，唯高升调 (阴入)升得高，低升调 (阴去) 升得低。祁门方言明显不支持所谓“调域理论 ”(Yip 1980；Bao 1999)，这个理论认为一个语言内应避免拥有相同的调头或调尾的声调，而祁门的两个升调恰恰如此，而且阴人调贯穿低一高两个调域。刘丹青记为降升调[J]213和[、1]435，保留了语音细节；我们则认为在音系上可 · 390· 方言

以将这两个声调记为阴去[]23阴入[A]25。有两个理由:首先是两个声调的调头相同,都是低降升,而低升调拥有一个略降的起始符合其产生与感知特点(Shen&Lin1991);其次,如果记成降升调,祁门方言便没有升调,不符合类型学的一般规律,基于“剃刀原则”,音系上还是处理为两个升调为妥。基频是声调最直接的物理关联物,但并不直接等同于声调。检视一个语言或方言的基频样本时,应该思考:它的声调对立是什么?对立是如何通过基频来实现的?而不是简单地根据基频曲线来折算出五度值。要完整回答这个问题,还需要考虑声调的心理感知问题。我们常常发现:人耳对于基频上升与下降的感知是不同的,基频升高10赫兹很容易被感知为明显的升调,但基频降低10赫兹则基本还是会被感知为平调;而调头、调尾及相关的感知问题可能更加复杂(参见 Hombert1978; Gandour1978) 总之,方言语音的实验语音学研究的目的并不是简单地将音类具体化、数字化或者图形化,而是借助音类(上例是声调)的物理关联物(上例是基频曲线)更为直观地分析、寻找语音之间区分的语言学意义所在。同时我们也看到,语音细节可以帮助我们更好地理解音类之间的区别,而不仅仅是验证记音、补口耳之缺,尽管实验语音细节确可以修正口耳记音中的偏差。需要注意的是,有些偏差在语言学意义上无关紧要,比如祁门的上声是记成[√]42调还是[] 41调;但也有些偏差是具有一定的理论意义的,比如上文对于调域的讨论。贰实验语音学不是只研究疑难冷僻音类,而是研究所有语音问题对实验语音学的一个常见误解是认为只有那些不常见的、奇怪偏僻的语音才需要做实验, 似乎实验语音学是专门针对疑难杂症的。我们必须强调:并非如此!不是说发现哪里有内爆音、哪里有嘎裂音就有意义,要弄明白内爆了嘎裂了又如何,这才是有意义的。比如上文谈及祁门的假声的语言学意义,并不在它本身,而在于它是说话人实现高平音高目标的发音策略之一。实验语音学研究所有的语音现象,所以说汉语方言语音的实验语音学是“阵地战”,是在新的语音观、语言观的指导下,使用实验科学的方法,全面研究方言语音问题。下面简要地说个单、双元音的问题(双元音又可分为降峰双元音、升峰双元音等①)。单元音、双元音都是汉语方言中常见的,不是什么偏僻的问题类型学研究一般依靠单元音韵母及复合元音韵母、鼻音尾或塞音尾韵母的韵腹来观察元音音位。但是,这样的研究有时会得出误导性的结论。比如梅县客家话只有6个单元音[1i eaou],Ze&Le(2007)和叶晓锋(2011)都把客家话归类为元音最少的汉语方言。但机械地以单双元音分类为纲,会割裂元音音位对立的音系本质。在江西,有11个单元音的客家方言(张倩2013),似乎与梅县截然不同。但梅县还有5个降峰或平峰双元音[ al o1 ul au eu],在我们看来它们也是元音音位,因此梅县客家话也是11个元音音位( Zhang&Hu 2015)。最荒唐的一个例子来自著名的《科学》( Science)杂志。 Atkinson(2011)撰文力图证明世界语言的多样性分布与人类的基因图谱相吻合,以此支持人类非洲起源说。他的理论假设是,越古老的语言其语音也越复杂,元音个数越多的语言便是越古老的语言;根据他的计算,全世界的语言正好符合他的理论。此文遭到诸多批评,其中Wang等(2012)提出:按照 Atkinson 的逻辑,亚洲才是语言起源的地方,一个重要的证据就是吴语元音的复杂性。在他们的统计、我们不使用更常见的术语如前响双元音、后响双元音,是因为“前响、后响”等在字面上均涉及听感判断,不如“降峰、升峰”等根据纯声学参数定义的术语更为中性。 2018年第4期学 I Social sciences dalal

以将这两个声调记为阴去 [一]23、阴入[／1]25。有两个理由：首先是两个声调的调头相同，都是低降升，而低升调拥有一个略降的起始符合其产生与感知特点(Shen＆ Lin1991)；其次，如果记成降升调，祁门方言便没有升调，不符合类型学的一般规律，基于“剃刀原则”，音系上还是处理为两个升调为妥。基频是声调最直接的物理关联物，但并不直接等同于声调。检视一个语言或方言的基频样本时，应该思考：它的声调对立是什么?对立是如何通过基频来实现的?而不是简单地根据基频曲线来折算出五度值。要完整回答这个问题，还需要考虑声调的心理感知问题。我们常常发现：人耳对于基频上升与下降的感知是不同的，基频升高 10赫兹很容易被感知为明显的升调，但基频降低 1O赫兹则基本还是会被感知为平调；而调头、调尾及相关的感知问题可能更加复杂 (参见 Hombe~ 1978；Gandour1978)。总之，方言语音的实验语音学研究的目的并不是简单地将音类具体化、数字化或者图形化，而是借助音类(上例是声调)的物理关联物 (上例是基频曲线 )更为直观地分析、寻找语音之间区分的语言学意义所在。同时我们也看到，语音细节可以帮助我们更好地理解音类之间的区别，而不仅仅是验证记音、补口耳之缺，尽管实验语音细节确可以修正口耳记音中的偏差。需要注意的是，有些偏差在语言学意义上无关紧要，比如祁门的上声是记成 []42调还是 [＼J] 41调；但也有些偏差是具有一定的理论意义的，比如上文对于调域的讨论。贰实验语音学不是只研究疑难冷僻音类，而是研究所有语音问题对实验语音学的一个常见误解是认为只有那些不常见的、奇怪偏僻的语音才需要做实验，似乎实验语音学是专门针对疑难杂症的。我们必须强调：并非如此 !不是说发现哪里有内爆音、哪里有嘎裂音就有意义，要弄明白内爆了、嘎裂了又如何，这才是有意义的。比如上文谈及祁门的假声的语言学意义，并不在它本身，而在于它是说话人实现高平音高目标的发音策略之一。实验语音学研究所有的语音现象，所以说汉语方言语音的实验语音学是“阵地战”，是在新的语音观、语言观的指导下，使用实验科学的方法，全面研究方言语音问题。下面简要地说一个单、双元音的问题(双元音又可分为降峰双元音、升峰双元音等①)。单元音、双元音都是汉语方言中常见的，不是什么偏僻的问题。类型学研究一般依靠单元音韵母及复合元音韵母、鼻音尾或塞音尾韵母的韵腹来观察元音音位。但是，这样的研究有时会得出误导性的结论。比如梅县客家话只有 6个单元音 [1i eaOu]，Zee＆ Lee(2007)和叶晓锋 (2011)都把客家话归类为元音最少的汉语方言。但机械地以单双元音分类为纲，会割裂元音音位对立的音系本质。在江西，有 11个单元音的客家方言 (张倩 2013)，似乎与梅县截然不同。但梅县还有 5个降峰或平峰双元音 [ai0iuiau ￡u]，在我们看来它们也是元音音位，因此梅县客家话也是 11个元音音位 (Zhang& Hu 2015)。最荒唐的一个例子来自著名的《科学》(Science)杂志。Atkinson(2011)撰文力图证明世界语言的多样性分布与人类的基因图谱相吻合，以此支持人类非洲起源说。他的理论假设是，越古老的语言其语音也越复杂，元音个数越多的语言便是越古老的语言；根据他的计算，全世界的语言正好符合他的理论。此文遭到诸多批评，其中 Wang等 (2012)提出：按照 Atkinson 的逻辑，亚洲才是语言起源的地方，一个重要的证据就是吴语元音的复杂性。在他们的统计、 ① 我们不使用更常见的术语如前响双元音、后响双元音，是因为“前响、后响”等在字面上均涉及听感判断，不如“降峰、升峰”等根据纯声学参数定义的术语更为中性。 2018年第 4期 ·391·

计算中,元音都只包括单元音,这便是得出荒谬结论的一个根本原因之所在。术期刊数据库关于双元音的性质,很早便有讨论(Pike1947; Lehiste& Peterson1961; Holbrook& Fairbanks1962)。大致有两种观点:一是认为双元音是一个单独的元音,它的核心在语音上是复杂的( Malmberg1963; Abercombie1967; Catford1977);另一种观点则认为双元音就是两个元音成分或者一个元音成分和另一个半元音成分的组合序列( Sweet1877; Jones1922)。前者将双元音视为单一发音事件,只有一个动态的目标;而后者则将双元音看成是两个发音事件从一个静态的目标过渡到另一个静态的目标降峰双元音和升峰双元音在语音或音系上的表现往往是不同的。赵元任(1928:65-66) 早就指出:吴语中只有降峰双元音才是“真复合元音”,升峰双元音不是。事实上,无论在历时或共时层面都常常能发现,降峰双元音可以和相应的单元音形成交替( alternation),升峰双元音则不然。最常见的如/ai/与/e/、au/与/5/之间的交替,在晋语、吴语等方言中都很常见。我们最近的研究明确指出:升峰双元音拥有两个目标,因此[ia]应视为[i与[a]的序列;而降峰双元音则只有一个动态的目标,因此,[ai]并不是[a]与[i]的序列,而是一个整体的元音, 与[a]、[i]等单元音构成音位对立(胡方2013)。我们并不认为这个结论放之四海而皆准,相反,我们期待不同的语言/方言存在不同的情况。比如说,我们认为北京话的/ai是一个动态目标,是一个整体的元音音位,而英语的/ai/就可能是[a]加[i]的序列。① 这里举例表明如何通过语音观、语言观的革新,通过语音数据的采样,借助看似简单、枯燥的声学测量,将以前口耳之学中只能意会的一些内容展示出来,进而可以比较各方言中的各类单元音、双元音,以及一切其他音类,厘清一些事实。下面是一个西南官话的例子(邱玥、胡方 2013)。四川隆昌话属西南官话江贡小片,有韵母36个,如下:1,t,a,o,e,3;ai,si,au,au;an, an, an, o: 1, la, le, 10,lau, au; len, In, lan, lon; u, ua, ue, ual, uaI; uan, uan, uap;y,ye, yen, yno 我们对所有的韵母进行了声学录音采样,选取含有目标元音的单音节字,并尽量选取阴平调、零声母或唇音声母字,嵌入“,读三遍”的载体句中。录音在实地调查中进行,有效样本来自5男4女共9位发音人,均为20-25岁的青年,从小在隆昌县长大,母语为本地方言,也学过普通话和英语,属于典型的隆昌青年口音。录音使用 Sony D50线性录音棒,采样率为 16,000赫兹;录音重复五遍。由于没有显著差异,本文将“,读三遍”中两个位置的目标元音音段数据一起统计,即每位发音人每个目标元音的有效样本数据为10个。这里我们讨论隆昌话的9个单元音[1 Liu y ae o3]和4个降峰双元音[ ai ai au au;在降峰双元音与升峰双元音的对比中,选取[aiau]与[iaua]这两对语言中最常见的双元音。讨论集中在共振峰模式,略去吋间结构。隆昌单元音在声学元音图中的分布见下页图2(置信椭圆为两个标准差,参看胡方 014)。这是典型的三角形分布,高低分三个层级:高元音[iyu],低元音[a],以及[eo]。 [eo]实际上位于正则元音的半高与半低之间。除了前高位置有圆唇与否的对立,其他前元音都不圆唇,后元音都圆唇。两个舌尖元音11]在声学元音图中位于高、央的位置,但比高元音略低。还有一个儿化的央元音[可]。只看单元音,隆昌话的元音系统非常简单、整齐。不 ①有的北京人说英语时用[ε]代替/ai/,如 arne说成[aev]。不用自己语音系统里面有的/a/来对应英语的/a/,而是用了一个在北京话/普通话中并不符合CV音节拼合关系的单元音[e]来代替,这便说明在北京人的大脑/语法中,北京话的/a跟英语的/a/是完全不同的东西。学社会料学学术期数据库

计算中，元音都只包括单元音，这便是得出荒谬结论的一个根本原因之所在。关于双元音的性质，很早便有讨论 (Pike 1947；Lehiste & Peterson 1961；Holbrook & Fairbanks1962)。大致有两种观点：一是认为双元音是一个单独的元音，它的核心在语音上是复杂的(Malmberg1963；Abercombie1967；Catford 1977)；另一种观点则认为双元音就是两个元音成分或者一个元音成分和另一个半元音成分的组合序列(Sweet1877；Jones1922)。前者将双元音视为单一发音事件，只有一个动态的目标；而后者则将双元音看成是两个发音事件，从一个静态的目标过渡到另一个静态的目标。降峰双元音和升峰双元音在语音或音系上的表现往往是不同的。赵元任(1928：65-66) 早就指出：吴语中只有降峰双元音才是 “真复合元音 ”，升峰双元音不是。事实上，无论在历时或共时层面都常常能发现，降峰双元音可以和相应的单元音形成交替 (ahernation)，升峰双元音则不然。最常见的~[I／ai／与／e／、／au／与／3／之间的交替，在晋语、吴语等方言中都很常见。我们最近的研究明确指出：升峰双元音拥有两个目标，因此 [ia]应视为[i]与[a]的序列；而降峰双元音则只有一个动态的目标，因此，[ai]并不是 [a]与 [i]的序列，而是一个整体的元音，与[a]、[i]等单元音构成音位对立 (胡方 2013)。我们并不认为这个结论放之四海而皆准，相反，我们期待不同的语言／方言存在不同的情况。比如说，我们认为北京话的／ai／是一个动态目标，是一个整体的元音音位，而英语的／ai／就可能是 [a]加 [i]的序列。① 这里举例表明如何通过语音观、语言观的革新，通过语音数据的采样，借助看似简单、枯燥的声学测量，将以前口耳之学中只能意会的一些内容展示出来，进而可以比较各方言中的各类单元音、双元音，以及一切其他音类，厘清一些事实。下面是一个西南官话的例子(邱弱、胡方 2013)。四川隆昌话属西南官话江贡小片，有韵母 36个，如下：1，1．，a，o，e，；ai，oi，an，au；an， 3n，ar3，or3；i，ia，ie，io，iau，iou；ien，in，iar3，ioi3；u，113，ue，uai，uai；uan，uan，uar3；Y，ye，yen，yn。我们对所有的韵母进行了声学录音采样，选取含有目标元音的单音节字，并尽量选取阴平调、零声母或唇音声母字，嵌入“ ，读三遍”的载体旬中。录音在实地调查中进行，有效样本来自5男 4女共 9位发音人，均为 20-25岁的青年，从小在隆昌县长大，母语为本地方言，也学过普通话和英语，属于典型的隆昌青年口音。录音使用 SonyD50线性录音棒，采样率为 16，000赫兹；录音重复五遍。由于没有显著差异，本文将“ ，读三遍 ”中两个位置的目标元音音段数据一起统计，即每位发音人每个目标元音的有效样本数据为 10个。这里我们讨论隆昌话的 9个单元音[11．iUYaeo9]和 4个降峰双元音 [aioiauou]；在降峰双元音与升峰双元音的对比中，选取 [aiau]与 [iaua]这两对语言中最常见的双元音。讨论集中在共振峰模式，略去时问结构。隆昌单元音在声学元音图中的分布见下页图 2(置信椭圆为两个标准差，参看胡方 2014)。这是典型的三角形分布，高低分个层级：高元音 [iYu]，低元音 [a]，以及 [eo]。 [eo]实际上位于正则元音的半高与半低之间。除了前高位置有圆唇与否的对立，其他前元音都不圆唇，后元音都圆唇。两个舌尖元音 [11，]在声学元音图中位于高、央的位置，但比高元音略低。还有一个儿化的央元音[ ]。只看单元音，隆昌话的元音系统非常简单、整齐。不 ① 有的北京人说英语时用[￡]代替／ai／，如 arrive说成 [0~Icv]。不用自己语音系统里面有的／ai／来对应英语的／ai／，而是用了一个在北京话／普通话中并不符合 CV音节拼合关系的单元音 [￡]来代替，这便说明在北京人的大脑／语法中，北京话的／ai／跟英语的／ai／是完全不同的东西。 · 392· 方言

家哲学社会科学学术期刊数据库图34的比较目的是想知道双元音如何实现其声学目标。图中可以看到,双元音[aiau 中的首成分[a]与单元音[a]相比分别偏前和偏后,这应是受各自的尾成分的影响,显现出定程度的逆协同发音,但其椭圆的大小与单元音[a]类似,而且重叠明显。这说明双元音[ai au]的发音是从一个类似于单元音[a]的声学位置开始的,其声学目标比较清楚。而双元音[ai au]的尾成分[iu]与单元音[iu]位置差距很大,椭圆几乎不重合,说明并未到达目标位置,而椭圆面积显著大,即数据分布的离散度增加、可变性增大。可见[aiau]的发音似乎并没有个明确的尾成分声学目标,其尾成分的位置是由双元音的动态特性所决定的。与[aiau]类似,[aiau]的尾成分也没有一个明确的声学目标。另外,[ai3u]的首成分[。]的可变性也非常大,虽然[iau]中的[。]的椭圆与单元音[3]的椭圆还是重叠的,但离散度显著增加,尤其在女发音人的数据中,这个特点更加明显。综上所述隆昌话的降峰双元音[ al au al au]并不是由两个目标组成的,它们更像是一个动态的目标。[aiau]由一个接近于单元音[a]的声学位置开始,但不需要实现其尾目标[i]或 [u],而是在不到目标的位置就结束了,是由于受到双元音自身的动态特性制约;[iu]也类似,而且,从其变异性更大的首成分[3的分布来看,其动态特性更加重要。因此,我们认为降峰双元音应该如单元音一样,是隆昌话元音音位对立的组成部分。升峰双元音则全然不同。请看图5 F 2500 500HzF23500 品号8o88 8品8 8o888 2500 图5隆昌升峰双元音[iaua]与单元音[iua]的比较(左:男;右:女) 隆昌升峰双元音[iaua]的首尾成分(实线或点线椭圆)与单元音[iua]的椭圆(虚线) 大部分重合,均值点的位置也非常接近;因此,声学材料支持将隆昌话的升峰双元音看做是由两个相对稳定的声学目标组成的,其发音过程中就是从一个稳定的目标位置过渡到另一个稳定的目标位置。也就是说,[iaua]就是[i]与[a]、[u]与[a]的序列。叁语音的变异性在现在通行的普通语言学的理论框架中,一般把语音看做是均质的,即一个音就是百分之百的这个音。如前文所述,普通语言学更偏重于抽象层面的分析,无论是形式学派还是功能学派,基本还是只关心语言中抽象的那部分,即将语言视为人类的一种或内在的( innate)或交际驱动的抽象的能力( competence),将语言的具体产出视为一种执行( performance)。因此音类”“音位”都是从感知、心理的角度根据直观推理定义的,在语言学中强调其区别性。但 National social sciences Datab

图 3、4的比较目的是想知道双元音如何实现其声学目标。图中可以看到，双元音 [aiau] 中的首成分 [a]与单元音[a]相比分别偏前和偏后，这应是受各自的尾成分的影响，显现出一定程度的逆协同发音，但其椭圆的大小与单元音 [a]类似，而且重叠明显。这说明双元音 [ai al1]的发音是从一个类似于单元音 [a]的声学位置开始的，其声学目标比较清楚。而双元音[ai al1]的尾成分 [iu]与单元音 [iI]位置差距很大，椭圆几乎不重合，说明并未到达目标位置，而椭圆面积显著大，即数据分布的离散度增加、可变性增大。可见[aial1]的发音似乎并没有一个明确的尾成分声学目标，其尾成分的位置是由双元音的动态特性所决定的。与 [aial1]类似，[aiau]的尾成分也没有一个明确的声学目标。另外，[3iau]的首成分 [a]的可变性也非常大，虽然 [3iau]中的[a]的椭圆与单元音 [a]的椭圆还是重叠的，但离散度显著增加，尤其在女发音人的数据中，这个特点更加明显。综上所述，隆昌话的降峰双元音 [aialloiau]并不是由两个目标组成的，它们更像是一个动态的目标。[aial1]由一个接近于单元音 [a]的声学位置开始，但不需要实现其尾目标 [i]或 [11]，而是在不到目标的位置就结束了，是由于受到双元音自身的动态特性制约；[ai0u]也类似，而且，从其变异性更大的首成分[a]的分布来看，其动态特性更加重要。因此，我们认为降峰双元音应该如单元音一样，是隆昌话元音音位对立的组成部分。升峰双元音则全然不同。请看图 5。图5 隆昌升峰双元音[ia1in]与单元音[iua]的比较(左：男；右：女) 隆昌升峰双元音 [iaua]的首尾成分 (实线或点线椭圆)与单元音 [iua]的椭圆(虚线) 大部分重合，均值点的位置也非常接近；因此，声学材料支持将隆昌话的升峰双元音看做是由两个相对稳定的声学目标组成的，其发音过程中就是从一个稳定的目标位置过渡到另一个稳定的目标位置。也就是说，[iaua]就是 [i]与[a]、[n]与 [a]的序列。叁语音的变异性在现在通行的普通语言学的理论框架中，一般把语音看做是均质的，即一个音就是百分之一百的这个音。如前文所述，普通语言学更偏重于抽象层面的分析，无论是形式学派还是功能学派，基本还是只关心语言中抽象的那部分，即将语言视为人类的一种或内在的(innate)或交际驱动的抽象的能力 (competence)，将语言的具体产出视为一种执行 (performance)。因此， “音类 ”“音位”都是从感知、心理的角度根据直观推理定义的，在语言学中强调其区别性。但． 394．方言

点击下载完整版文档（PDF格式）

共16页，试读结束，阅读完整版请下载

点击下载（PDF格式）

浏览记录