国家哲学社会科学学术期刊数据库 方言2018年第4期35-40(2018年11月24日出版于北京) ational social Sciences Datab 汉语方言的实验语音学研究旨趣 胡方 (中国社会科学院语言研究所北京hufang@cass.org.cn) 提要汉语方言的语音研究中经常用到实验语音学,但却常常存在两大误解。其一,觉得实验语音学就 是做测量,做统计分析的,将语言学范畴图解一下,好像就是实验语音学了;其二,觉得实验语音学是研 究偏僻音类的,好像只有偏僻、稀奇的音才需要实验研究,以补“口耳之缺”。本文指出,实验语音学并不 是音类的简单图解,语音学测量与统计必须有语言学意义上的考量。汉语方言的实验语音学研究就是 以现在的语音科学实验手段探寻方言语音中的音类、音值区别的性质与规律:这些音的物理特性是什 么?发音上是如何实现的?感知上有什么特点?而不是简单地验证记音的准确性,更不是为了寻找僻 见的语音。汉语方言的实验语音学研究是语言学研究的一个独立的子学科,实验语音学测量所提供的 语音细节为我们观察语音现象提供了新的方法论上的可能性。语音作为人类语言的物理载体具备了具 体、变异的特性,不再像以往概念化似的那般抽象。语音的物理特性与语言学范畴之间并不存在简单对 应的关系,而是交融着语音产生机制与语音感知特性的复杂映射关系。 关键词实验语音学证据导向新描写主义 零引言 语言学属于人文科学( Humanities)范畴,其研究旨趣在于描写语言事实并进行总结,是 种归纳推理导向的研究范式( a generalization- based approach);实验语音学则属于实验科学范 畴,其研究旨趣在于以生理、物理、心理实验为基础,对语言中的语音现象进行描写或者解释, 是一种证据导向的研究范式( an evidence- based approach)。无论采用哪种研究范式,任何科 学研究的核心任务都是为人类提供新知识,也就是创新。那么,在汉语方言的语音研究上,实 验语音学可以提供什么样的新知识?换句话说,研究方言语音为什么需要实验语音学? 汉语方言的语音研究是在高本汉(1915-1926)、赵元任(1928)开创的传统的基础上发展 起来的。这个传统是描写主义的,科学与人文并重。研究者主要基于口耳之学的听音辨音,记 录汉语方言材料,整理方言音系,并结合汉语历史音韵,厘清汉语方言的发展关系及地理分布 特点。这一传统的研究范式为我们了解汉语方言的基本面貌和特点提供了宝贵的第一手的资 料。这种研究自1949年以来,尤其是在改革开放之后取得了丰硕的研究成果。 语言学领域的实验语音学研究也有源远流长的口耳之学的传统,但自20世纪以来,其学 科发展渐渐走上了一条实验科学的道路,而且越来越呈现出跨学科的特点。不用说语音工程、 人工智能等领域的研究,就是偏语言学本身的语音学研究,也普遍遵循实验科学的一般范式, 对语音进行采样测量,对数据进行统计分析,进而对语音现象进行描写与解释。实验科学在传 统语音研究领域的发展为我们观察人类语言中的语音现象提供了新的理论视角与方法工具。 那么,实验语音学究竟提供了怎么样的新东西呢?首当其冲的便是语音数据的采样,尤其 是作为语言物理外壳的语音音频数据的采集,现代科技的发展为我们提供了极大的方便,以前 2018年第4期 385 ational social sciences Databa
方言 2018年第 4期 385—4oo页(2018年 11月 24日出版于北京 ) 汉语方言的实验语音学研究 旨趣 胡 方 (中国社会科学院语言研究 所 北京 hufang@cass.org.cn) 提要 汉语方 言的语音研究 中经常用到实验语 音学 ,但却 常常存 在两大误解 。其一 ,觉得实 验语音学 就 是做测量 ,做统计分析 的,将语 言学范畴 图解一下 ,好像 就是 实验语 音学 了 ;其 二 ,觉得 实验语音 学是 研 究偏僻音类 的 ,好像只有偏僻 、稀奇的音才需要 实验 研究 ,以补 “口耳之缺 ”。本文指 出,实验语音学并不 是音类 的简单 图解 ,语音学测量 与统 计必须有语言学 意义 上的考 量。汉语 方言 的实验语 音学研 究 就是 以现在 的语音科学 实验手段探寻方言 语音 中 的音 类 、音 值 区别 的性质 与规律 :这些 音 的物理特 性是 什 么?发音上是 如何 实现的?感知上有什么特点 ?而 不是 简单地 验证 记音 的准确性 ,更 不是 为了 寻找僻 见 的语音 。汉语方 言的实验语音学研究是语 言学研究 的一个独 立 的子学科 ,实 验语音 学测量 所提供 的 语音 细节 为我们观察语音现象提供 了新 的方法论上 的可能性 。语音作 为人类语言 的物理 载体具 备了具 体 、变异 的特性 ,不再像 以往概念化似 的那 般抽象 。语音 的物理特性 与语言学范畴之 间并 不存在 简单对 应 的关 系 ,而是交融着语音 产生机制与语音感知特性 的复杂映射关系 。 关键 词 实验语音学 证据导 向 新描写 主义 零 引言 语言学属于人文科学 (Humanities)范畴 ,其研究 旨趣在于描写语言事实并进行总结 ,是一 种 归纳 推理 导 向的研 究范 式 (ageneralization—based approach);实 验语 音 学 则 属于 实 验 科 学 范 畴,其研究 旨趣在于以生理、物理 、心理实验为基 础 ,对语言 中的语音现象进行描写或者解释 , 是一种证据导向的研究范式 (anevidence—basedapproach)。无论采用哪种研究 范式 ,任何科 学研究的核心任务都是为人类提供新知识 ,也就是创新 。那么 ,在汉语方言 的语音研 究上 ,实 验语音学可 以提供什么样 的新知识?换句话说 ,研究方言语音为什么需要实验语音学? 汉语方言的语音研究是在高本汉(1915—1926)、赵元任 (1928)开创的传统的基础上发展 起来的。这个传统是描写主义的,科学与人文并重。研究者主要基于 口耳之学的听音辨音 ,记 录汉语方言材料 ,整理方言音系 ,并结合汉语历史音韵 ,厘清汉语方言 的发展关系及地理分布 特点。这一传统的研究范式为我们了解汉语方言 的基本面貌和特点提供了宝贵的第一手的资 料。这种研究 自1949年以来 ,尤其是在改革开放之后取得 了丰硕的研究成果。 语言学领域 的实验语音学研究也有源远流长的 口耳之学的传统 ,但 自 20世纪 以来 ,其学 科发展渐渐走上了一条实验科学 的道路 ,而且越来越呈现 出跨学科 的特点 。不用说语音工程、 人工智能等领域的研究 ,就是偏语言学本身的语音学研究 ,也普遍遵循实验科学的一般范式 , 对语音进行采样测量 ,对数据进行统计分析 ,进而对语音现象进行描写与解释 。实验科学在传 统语音研究领域的发展为我们观察人类语言中的语音现象提供了新的理论视角与方法工具。 那么,实验语音学究竞提供 了怎么样的新东西呢?首当其冲的便是语音数据 的采样 ,尤其 是作为语言物理外壳 的语音音频数据的采集 ,现代科技 的发展为我们提供了极大的方便 ,以前 2018年第 4期 ·385·
国家哲学社会科学学术期刊数据库 需要专业录音设备才能完成的任务,现在可以在便携电子产品上轻松实现。ccsD)a 新技术不仅仅提供新的方法,而且在语言研究的哲学层面带来基础理论的变革。结构主 义以来的语言学传统区分“语言”( language)与“言语”( speech),定义前者是抽象的语言能力 (生成学派术语中的 linguistic competence),后者则是具体的产出( linguistic performance);语 言学研究的是“语言”,而不是“言语”。吊诡的是,语言学研究的材料都是“言语”;而根据“言 语”来研究“语言”,在语言学的研究中这一设定是不需要进行论证的。比如说,作为语言基本 单位的“音位”( phoneme)的概念,直接就被认为是人脑中固有的抽象物,可有更抽象的“区别 特征”( distinctive features),而同时,“音位”的物理产出物“音素”( phone)则只是一些对语言 学核心任务来说不大重要的“变异”( variations)。更为关键的是,在学科立论( argumentation) 上,也不需要从具体的言语产出( speech production)去对语言学上的音类(即人类储存在大脑 中的语音类别)进行论证。与此相反,实验语音学则认为这是需要论证的,抽象的音类是建立 在对采样数据的科学论证基础上的;丰富的实验语音细节(fne- grained phonetic details)改变 了我们的语音观、语言观。 实验语音学为方言语音研究带来的创新之处,表面上看,最显著的就是对数据的测量、统 计了。那么,我们的任务就是做测量,做统计,通过数据的可视化图解语音范畴或者语音现象 么?例如经常可见到一些声调研究,测量了若干人的声调的基频曲线,通过平均、归一方法画 出来,据说便能和声调的五度值对应了;然后便是结论,讨论一下和传统的口耳之学的方言学 记音有什么异同。这是非常危险的,因为语音的声学参量与语言学意义上的语音范畴之间并 不是简单对应的关系。或者增加发音人中男女、年龄、或者其他社会属性的不同,再复杂一些, 比较一下另一方言的类似情况,然后就开始谈语音的性别差异、年龄差异,甚至语音演变等,那 就更加危险了。语音的物理参量的采样、测量、统计本身并没有错,数据可视化也是实验语音 学研究中常见的手段;但实验语音学并不是为测量而测量,为统计而统计,实验语音学遵循实 验科学的一般方法,最为关键的是,实验语音学的测量与统计必须有语言学意义上的考量 关于实验语音学对方言研究的用处,一个广泛被接受的说法是“补口耳之缺”;这是从前 文所言“通过言语来研究语言而不需要进行论证”的立场出发说的。事实上,从事方言调查工 作的学者对于实验语音学最大的需求可能就在于此,因为即便是调查经验丰富的学者,有时也 会希望借助语音实验来确定或证明某个难记的音。但非常遗憾,实验语音学往往不能直接给 出答案,因为我们的语言观、语音观是:语音的本质不是抽象的音位、音位变体或区别特征所能 完全概括的语音是具体的、变异的。“补口耳之缺”这个说法的另一个问题是其预设,即常见 的音类是不需要实验语音学的,只有僻见的语音才有必要引入实验研究。这也是错误的想法, 实验语音学并非只研究僻见的语音现象,而是要对一切语音现象做系统、全面的研究 实验语音学对于语音研究的创新就在于直面“通过言语来研究语言”这一语言学的二元 论问题。在一般语言学的理论框架中,作为语言基本单位的音位及其区别性主要是从心理的 角度,通过思辨推理来定义的,即音类在语言或大脑中的表征( representation)是通过逻辑推 理,而不是实际的发音生理和感知心理实验来论证的。在这个框架之下,语言具有自主性 ( autonomy)。有一个著名的比喻:一副象棋缺个子儿,无论是车、马,还是将、相,拿块石子代替 即可。也就是说,重要的是系统与功能,具体语言单位的确切物理值对语言系统来说一点儿都 不重要。在这种语言观背景下,实验语音学研究除了验证音类的音值之外,确实没有太多其他 的用武之地,况且验证音值本也不是语言研究的核心问题。有意思的是,持这种语言观的学者 术期刊数据 National social sciences databa
需要专业录音设备才能完成的任务 ,现在可以在便携电子产品上轻松实现 。 新技术不仅仅提供新 的方法 ,而且在语言研究的哲学层面带来基础理论 的变革 。结构 主 义以来的语言学传统区分“语言”(1anguage)与“言语 ”(speech),定义前者是抽象的语 言能力 (生成学派术语 中的 linguisticcompetence),后者则是 具体的产 出(1inguisticperformance);语 言学研究 的是“语言”,而不是“言语 ”。吊诡 的是 ,语言学研究的材料都是 “言语 ”;而根据“言 语”来研究“语言”,在语言学的研究 中这一设定是不需要进行论证 的。比如说 ,作为语言基本 单位的“音位”(phoneme)的概念 ,直接就被认为是人脑 中固有的抽象物 ,可有更抽象 的“区别 特征”(distinctivefeatures),而同时,“音位”的物 理产 出物“音素 ”(phone)则只是一些对语言 学核心任务来说不大重要 的“变异”(variations)。更 为关键 的是 ,在学科立论 (argumentation) 上 ,也不需要从具体的言语产 出(speechproduction)去对语言学上的音类 (即人类储存在大脑 中的语音类别 )进行论证。与此相反 ,实验语音学则认为这是需要论证 的,抽象的音类是建立 在对采样数据 的科学论证基础上的;丰富的实验语音 细节 (fine—grainedphoneticdetails)改变 了我们的语音观 、语言观。 实验语音学为方言语音研究带来 的创新之处 ,表面上看 ,最显著 的就是对数据 的测量 、统 计了。那么 ,我们 的任务就是做测量 ,做统计 ,通过数据 的可视化图解语音范畴或者语音现象 么?例如经常可见到一些声调研究 ,测量了若干人的声调 的基频 曲线 ,通过平均 、归一方法 画 出来 ,据说便能和声调的五度值对应了 ;然后便是结论 ,讨论一下和传统 的 口耳之学的方言学 记音有什么异 同。这是非常危险的 ,因为语音 的声学参量与语言学 意义上 的语音范畴之间并 不是简单对应 的关 系。或者增加发音人中男女 、年龄 、或者其他社会属性的不同 ,再复杂一些 , 比较一下另一方言的类似情况 ,然后就开始谈语音 的性别差异 、年龄差异 ,甚至语音演变等 ,那 就更加危险了。语音的物理参量的采样 、测量 、统计本身并没有错 ,数据可视化也是实验语音 学研究中常见 的手段 ;但实验语音学并不是为测量而测量 ,为统计而统计 ,实验语 音学遵循实 验科学的一般方法 ,最为关键的是 ,实验语音学 的测量与统计必须有语言学意义上的考量 。 关于实验语音学对方言研究的用处 ,一个广泛被接受的说法是“补 口耳之 缺”;这是从前 文所言“通过言语来研究语言而不需要进行论证”的立场 出发说的。事实上 ,从 事方言调查丁 作 的学者对于实验语音学最大的需求可能就在于此 ,因为即便是调查经验丰富的学者 ,有时也 会希望借助语音实验来确定或证明某个难记的音 。但非 常遗憾 ,实验语音学往往不能直接给 出答案 ,因为我们 的语言观 、语音观是 :语音 的本质不是抽象的音位 、音位变体或区别特征所能 完全概括的 ,语音是具体的 、变异的。“补 口耳之缺”这个说法的另一个 问题是其预设 ,即常见 的音类是不需要实验语音学的,只有僻见的语音才有必要引入实验研究 。这也是错误的想法 , 实验语音学并非只研究僻见的语音现象 ,而是要对一切语音现象做系统 、全面的研究 。 实验语音学对于语音研究的创新就在于直面“通过言语来 研究语 言”这一语 言学 的二元 论问题。在一般语言学 的理论框架 中,作为语言基本单位的音位及其 区别性主要是从心理 的 角度 ,通过思辨推理来定义 的,即音类 在语 言或大脑 中的表 征 (representation)是通过 逻辑推 理 ,而不是实际的发音 生理和感知 心理实 验来论证 的。在这 个框架 之下 ,语 言具 有 自主性 (autonomy)。有一个著名的比喻 :一副象棋缺个子儿 ,无论是车 、马,还是将 、相 ,拿块石子代替 即可。也就是说 ,重要的是系统与功能 ,具体语言单位的确切物理值对语言系统来说一点儿都 不重要 。在这种语言观背景下 ,实验语音学研究除了验证音类的音值之外 ,确实没有太多其他 的用武之地 ,况且验证音值本也不是语言研究的核心问题 。有意思的是 ,持这种语言观的学者 · 386· 方 言
往往觉得用实验的方法验证音值并不是件难事,因为他们认为语音与声学参数之间存在着简 单的对应关系。但事实上,在实验语音学的研究范式中,音位,或者宽泛一点的“音类”,与研 究中容易采样测量到的语音声学数据之间,并不存在直接的对应关系,因为二者之间隔着语 音产生( speech production)与语音感知( speech perception)两大科学问题。而且,近些年的实 验研究表明:大脑中处理语音产生与感知是由不同的区域与机理控制的( Bouchard等2013; Mesgarani等2014)。尽管在实验语音学领域,一直不断地有理论试图建立语音产生与感知之 间的关系,阐释二者之间的相关性甚至一致性,比如语音感知的运动神经理论( The motor theory of speech perception,参见 Liberman等1967; liberman& Mattingly1985和1989; Liberman& Whalen2000; Galantucci等2006)、语音产生的量子理论( The quantal theory of peech production,参见 Stevens1972,1989)等,但是,语音产生与感知毕竟是由独立机制控制 的,而二者之间的不一致性可能就是造成各种语言的语音多样性的原因之一,比如 Ohala (1981,1993)就试图从感知误差去解释语音演变,认为这是语音演变的主要原因。 实验语音学的研究就是用实验科学的方法描写人类语言中的语音现象,作为一个多学科 共同关心的研究领域,其研究旨趣可以有不同的取向——可以是偏描写性的( descriptive approach),描写世界语言中的语音多样性与普遍性;又可以是偏实验性的( experimental approach),也就是把言语作为实验材料,测试大脑中与语音相关的语言能力。语音产生与语 音感知是人类大脑的固有功能,在大脑中由相应的模块与机制控制,受语音产生与感知机制控 制的音类在具体的语言中如何组织成系统,成为语法的一部分,便是语言的音系( phonology) 了。偏描写性的实验语音学的主要任务就是描写这个“从大脑至语言/言语”的过程;而偏实 验性的实验语音学则有“从言语/语言至大脑”的意味,旨趣上更偏向解释性。 本文主要以汉语方言中的语音现象为研究对象来谈语音学,在实验语音学中大体上属于 偏描写的、偏语言学的研究取向。虽然偏描写,但与传统的方言学描写不同,这就是:我们提倡 种“新描写主义”的方法——实验描写主义。生成学派( Chomsky&Hlle1968)区分语音 ( phonetics)与音系( phonology),并认为语音学是研究语音的,主要是语言外部( linguistic external)的内容,音系学是研究音系的,是语言内部( linguistic internal)的内容。但如前所述 我们的语言观与此不同,本文所谈论的实验语音学研究包括语言的语音与音系,即大体采用 Ohala(1991,1995)所倡导的取向。简要地说,就是以语音科学实验手段探寻方言语音中的音 类的性质与规律这些音的物理特性是什么?发音上是如何实现的?感知上有什么特点?不 是简单地将原来研究的音类画一个图,统计一下,验证一下记音的准确性;更不是为了寻找某 些僻见的语音。汉语方言的实验语音学研究是语言学的一个独立的子学科,兄弟学科会发现 它的研究成果对自己有用,但它本身并不是为别的学科服务的 当我们谈论实验测量、统计的时候,我们在谈论什么?必须明白:我们仍是在谈论语言学, 只是,这是一种跟原来的非实验传统有些不一样的语言学。 壹发音人在干什么?一从语音基本单位出发 实验语音学的终极目标是从科学上弄清楚:发音人在干什么?把这通俗的话语换成科学 术语,首先就是语言语音的基本单位问题:它是相对连续的某一个整体,比如音节( syllable)? 还是离散的抽象的一个一个音段( segment)音位或者其他更基本、更抽象的组成成分?同时 提出的是语音单位的真实存在性问题,即它们在大脑/语言中的表征( representation)问题。 这不是个容易的问题。做田野语言调查的学者,不可能奢望发音合作人跟你解释某个音 18年第4期 社会科学学术期刊数据库 National social sciences databa
往往觉得用实验的方法验证音值并不是件难事 ,因为他们认为语音与声学参数之间存在着简 单的对应关系。但事实上 ,在实验语音学 的研究范式 中,音位 ,或者宽泛一点 的“音类 ”,与研 究 中容易采样 、测量到的语音声学数据之间,并不存在直接 的对应关 系,因为二者之间隔着语 音产生 (speechproduction)与语音感知(speechperception)两大科学问题 。而且 ,近些年的实 验研究表明:大脑中处理语 音产生 与感知是 由不 同的区域与机理控制的 (Bouchard等 2013; Mesgarani等 2014)。尽管在实验语音学领域 ,一直不断地有理论试 图建立语音产生与感知之 间的关 系,阐释二者之 间的相关性甚 至一致性 ,比如语音 感知 的运动神经理论 (Themotor theory ofspeech perception,参 见 Liberman等 1967;Liberman & Marttingly 1985和 1989; Liberman& Whalen2000;Galantucci等 2006)、语音产生 的量子理论 (Thequantaltheory of speechproduction,参见 Stevens1972,1989)等 ,但是 ,语音产生与感知毕竟是 由独立机制控制 的 ,而二者之间 的不 一致性 可能就 是造 成各 种语 言 的语 音多 样性 的原 因之一 ,比如 Ohala (1981,1993)就试图从感知误差去解释语音演变 ,认为这是语音演变的主要原因。 实验语音学的研究就是用实验科学的方法描写人类语言中的语音现象 ,作为一个多学科 共同关心的研 究领 域 ,其研究 旨趣可 以有 不 同的取 向——可 以是偏 描写 性 的 (descriptive approach),描 写世 界语 言 中的语 音 多样 性 与 普遍 性 ;又可 以是偏 实 验性 的 (experimental approach),也就是把言语作为实验材料 ,测试大脑 中与语音相关 的语言能力。语音产生与语 音感知是人类大脑的固有功能 ,在大脑中由相应 的模块与机制控制 ,受语音产生与感知机制控 制的音类在具体的语言中如何组织成系统 ,成 为语法 的一部分 ,便是语言 的音系 (phonology) 了。偏描写性 的实验语音学的主要任务就是描写这个 “从大脑至语言/言语 ”的过程 ;而偏实 验性的实验语音学则有“从言语/语言至大脑 ”的意味 ,旨趣上更偏 向解释性 。 本文主要以汉语方言 中的语音现象为研究对象来谈语音学 ,在实验语音学 中大体上属于 偏描写的 、偏语言学的研究取向。虽然偏描写 ,但与传统 的方言学描写不同 ,这就是 :我们提倡 一 种“新描写主义”的方法——实验描写主义。生成学派 (Chomsky& Halle1968)区分语音 (phonetics)与音 系 (phonology),并 认 为语 音学 是研 究 语 音 的,主要 是 语 言外 部 (1inguistic externa1)的内容 ,音系学是研究音系的,是语言 内部 (1inguisticinterna1)的内容 。但 如前所述 , 我们的语言观与此不 同,本 文所谈论 的实验语音学研究包括语言的语音 与音 系,即大体采用 Ohala(1991,1995)所倡导的取向。简要地说 ,就是 以语音科学实验手段探寻方言语音 中的音 类 的性质与规律 :这些音的物理特性是什么?发音上是如何实现 的?感知上有什么特点?不 是简单地将原来研究的音类画一个图,统计一下 ,验证一下记音 的准确性 ;更不是为 了寻找某 些僻见 的语音。汉语方言的实验语音学研究是语言学的一个独立的子学科 ,兄弟学科会发现 它的研究成果对 自己有用 ,但它本身并不是为别的学科服务的。 当我们谈论实验测量 、统计的时候 ,我们在谈论什么?必须明白:我们仍是在谈论语言学 , 只是 ,这是一种跟原来的非实验传统有些不一样的语言学 。 壹 发 音人在 干 什 么?— — 从语 音基 本单 位 出发 实验语音学的终极 目标是从科学上弄清楚 :发音人在干什 么?把这通俗 的话语换成科学 术语 ,首先就是语言/语音 的基本单位 问题 :它是相对连续 的某一个整体 ,比如音节 (syllable)? 还是离散 的、抽象的一个一个音段(segment)/音位或者其他更基本 、更抽象 的组成成分?同时 提 出的是语音单位的真实存在性问题 ,即它们在大脑/语言 中的表征 (representation)问题。 这不是个容易的问题。做 田野语 言调查 的学者 ,不可能奢望发音合作人跟你解 释某个音 2018年第 4期 ·387·
是怎么发出来的,因为他根本不知道自己在干什么(比如实现哪个目标),他只是自然而然地 就发出音来了。受过专业训练的田野语言学工作者,往往反复模仿发音人的发音,直到发音人 完全认可,然后根据自己模仿的发音来进行记录。这里牵涉到一个理论假设,即语音感知的运 动神经理论:只有当你能正确地发某个音的时候,你对这个音的感知才是正确的。但这个理论 在语音感知领域支持者不多,因为论断太强了;一般的语音感知其实并不需要同时唤醒发音器 官的运动神经。语言学家则多喜欢这个理论,因为传统口耳之学的描写语音学正是强调通过 发音训练来感知陌生语言的语音,相信通过自己的口腔实践可以找到各类语音发音时的肌肉 内省感( proprioceptive sensation)和发音器官的触碰感( tactile sensation)。但有一些语音学家 不大相信这些,而认为声学听感是更重要的相关物。比如当你训练正则元音[iee-a]时,他 们认为逐一下降的其实并不是舌头的位置,而是你的听感声学距离(参见胡方2008)。 问题的复杂性在于,语言发音这件事情牵涉的不仅仅是生理发音(发音器官的运动),而 是生理发音受运动神经控制( speech motor control)、感知声学调节的综合结果;而且,语音还 受到更高层级的语言学与认知层面的制约,因为语音本身也是语言的语法的一部分。对于 发音人在干什么”这个问题,广义的回答包括以上诸多层面,在科学研究上需要厘清的是,我 们是在哪个层面上回答这个问题。一方面,可以从语音产生( speech production)的角度进行回 答:在运动神经控制层面,就像每个人写字的笔迹不同,发同一个音,发音人可以有不同的运动 神经控制模式;运动神经控制的输出就是可以测量到的发音动作,进而就是发音位置的不同 这就是一般所说的狭义的发音的不同。另一方面,也可以从语音感知( speech perception)的角 度思考发音与声学上的不同是如何被感知的。 从目的论的角度看,发音是为了实现感知声学目标;不过,这会把问题过于简单化了。其 大脑中控制语音的产生与感知的机制是不同的( Bouchard等2013; Mesgarani等2014)。 其二,发音与声学之间的关系不是一对一的。 Stevens(1972,1989)将这种非线性关系理论化 为发音与声学之间的量子特性( quantal nature)。其三,即便是量子特性,发音与声学关系也 存在着发音人之间( Inter- speaker)与发音人内部( intra-speaker)的变异( variations),而且,还可 能跟特定发音所涉及的生理解剖相关( Perkell1996);近年的研究发现,个体的不同是发音与 声学关系、产生与感知关系的一个重要变异源( Fuchs等2015)。目的论在语言学中很流行, 因为语言学的论证一般是基于直观推理的,而不是实验科学,诚如 Jakobson和 Waugh(1979) 所言,“ We speak in order to be heard and need to be heard in order to be understood”(我们 说话是为了让人听见,需要让人听见是为了被人理解),因此从语言是交际工具这个角度出 发,目的是决定性的。在目的论的逻辑看来,发音人自觉或不自觉地运用某种发音策略,所产 生的语音具有客观的声学特性、感知特性,其目的是实现该语音的音系地位,即该语音在目标 语言中的区别性。也就是说,语言学将整个发音过程简化为实现音位的区别对立性了。但是, 这个实现过程并不简单。更为复杂的是,发音人并不是想做什么就能做到什么,比如我们常会 发现:怎么有些平调的基频曲线有点降呢?怎么浊塞音在语图上不是百分之百有浊音杠呢? 怎么单元音的共振峰轨迹有时也会有动程呢? 简言之,非实验的语言学建立在语音的区别性之上,具有区别性的音构成语言中不同的音 类,整个现代语言学大厦便矗立在此基础之上;而基于实验的语音学研究则要回答:这些音类 是怎么样的,如何产生,如何感知,如何在语言中构成系统。我们可以暂且先把发音策略、感知 特性等问题放在一边,从语音声学( speech acoustics)出发,测量语音( phones or sampled 家哲学社会科学学术期刊数据库 方言 National social sciences Dalat
是怎么发 出来的 ,因为他根本不知道 自己在干什么 (比如实现哪个 目标 ),他只是 自然而然地 就发出音来 了。受过专业训练的田野语言学工作者 ,往往反复模仿发音人 的发音 ,直到发音人 完全认可 ,然后根据 自己模仿的发音来进行记录。这里牵涉到一个理论假设 ,即语音感知的运 动神经理论 :只有 当你能正确地发某个音的时候 ,你对这个音 的感知才是正确 的。但这个理论 在语音感知领域支持者不多 ,因为论断太强了 ;一般的语音感知其实并不需要 同时唤醒发音器 官的运动神经 。语言学家则多喜欢这个理论 ,因为传统 口耳之学 的描写语音学正是强调通过 发音训练来感知陌生语言的语音 ,相信通过 自己的口腔 实践可 以找到各类语音发音时的肌 肉 内省感 (proprioceptivesensation)和发音器官的触碰感 (tactilesensation)。但有一些语音学家 不大相信这些 ,而认为声学一听感是更重要的相关物。比如 当你训练正则元音 [i-e一£.a]时 ,他 们认为逐一下降的其实并不是舌头的位置 ,而是你 的听感声学距离(参见胡方 2008)。 问题 的复杂性在于 ,语言发音这件事情牵涉的不仅仅是生理发音 (发音器官的运 动),而 是生理发音受运动神经控制(speech motorcontro1)、感知声学调节 的综合结果 ;而且 ,语音还 受到更高层级的语言学与认 知层面的制约 ,因为语音本 身也是语 言的语 法的一部分 。对于 “发音人在干什么”这个问题 ,广义的回答包括以上诸多层面 ,在科学研究上需要厘清的是 ,我 们是在哪个层面上 回答这个 问题 。一方面 ,可以从语音产生(speechproduction)的角度进行回 答 :在运动神经控制层面 ,就像每个人写字的笔迹不同 ,发同一个音 ,发音人可以有不同的运动 神经控制模式 ;运动神经控制的输出就是可以测量到的发音动作 ,进而就是发音位置 的不 同, 这就是一般所说 的狭义的发音的不同。另一方面,也可以从语音感知(speechperception)的角 度思考发音与声学上的不同是如何被感知的。 从 目的论的角度看 ,发音是为了实现感知声学 目标 ;不过 ,这会把问题过于简单化 了。其 一 , 大脑中控制语音 的产生与感知 的机制是不 同的 (Bouchard等 2013;Mesgarani等 2014)。 其二 ,发音与声学之间的关 系不是一对一 的。Stevens(1972,1989)将这种非线性关系理论化 为发音与声学之间的量子特性 (quantalnature)。其三 ,即便是量子特性 ,发音与声学关系也 存在着发音人之间(inter—speaker)与发音人内部 (intra.speaker)的变异 (variations),而且 ,还可 能跟特定发音所涉及 的生理解剖相关 (Perkell1996);近年的研究发现 ,个体的不同是发音与 声学 关系、产生与感知关 系的一个重要变异源 (Fuchs等 2015)。 目的论在语言学 中很流行 , 因为语言学的论证一般是基 于直观推理 的,而不是 实验科学 ,诚 如 Jakobson和 Waugh(1979) 所言 。“Wespeakinordertobeheardandneedtobeheardinordertobeunderstood”(我们 说话是为了让人听见 ,需要 让人听见是为 了被人理解 ),因此从语言是交 际工具 这个角度 出 发 ,目的是决定性的。在 目的论的逻辑看来 ,发音人 自觉或不 自觉地运用某种发音策略 ,所产 生的语音具有客观的声学特性 、感知特性 ,其 目的是实现该语音 的音 系地位 ,即该语音在 目标 语言中的区别性 。也就是说 ,语言学将整个发音过程简化为实现音位的区别对立性 了。但是 , 这个实现过程并不简单。更为复杂的是 ,发音人并不是想做什么就能做到什么,比如我们常会 发现 :怎么有些平调 的基 频曲线有点降 呢?怎么浊 塞音在语 图上不是百分之百有浊音杠呢? 怎么单元音 的共振峰轨迹有时也会有动程 呢? 简言之 ,非实验的语言学建立在语音的区别性之上 ,具有区别性的音构成语言中不 同的音 类 ,整个现代语言学大厦便矗立在此基础之上 ;而基于实验的语音学研究则要 回答 :这些音类 是怎么样 的,如何产生,如何感知 ,如何在语言 中构成系统。我们可以暂且先把发音策略、感知 特性 等 问题 放 在一 边 ,从语 音 声学 (speech acoustics)出发 ,测 量语 音 (phonesorsampled · 388· —疗 言
家哲学社会科学学术期刊数据库 segments)的声学特性,观察语言中的音类是怎么样的。这个过程,从语言学的角度看来,就是 观察语音的区别特性如何实现①!在具体操作上,我们采样的是个体的语音,但我们要描写的 其实是语音的类( phonetic category),音系上的自然类( natural class)。因此,在检视所采样的 语音的声学参数时,“发音人在干什么”这个问题便具体化为:哪些声学特性在我们所研究的 目标语言中是具有区别音类的作用的?哪些又是冗余的? 我们来看一个声调的例子( Zhang&H2015)。据刘丹青的调查,徽语祁门方言有6个 声调(平田昌司[主编]1998:126):阴平[]11,阳平[]55,上声[]42,阴去[]213,阳去 [4]33,阴入[4]435。中古平、去、入声今均分阴阳,不过阳入并入阳去,独立成调的阴入也不 短促;上声不分阴阳,但有一部分古全浊上声字今读阳去。 下面介绍我们的研究。在核实了记音的基础上,我们对祁门声调进行了声学采样。每个 声调用了5个单音节例字,例字既单念也放在载体句中,录音重复5遍。5男5女共10位成年 发音人参与了录音,他们均说地道祁门话,没有言语或听力障碍。录音在田野调查中进行,在 个安静的房间内通过 TerraTec DMX6 Fire USB声卡和 SHURE SM86麦克风直接录到笔记 本电脑中,声音的采样率是11,025赫兹,16位。在prat5.3.48( Boersma& Weenink2014)中 将每个采样例字的韵母段标注为声调的承载段( Tone Bearing Unit,TBU)。在检视每个采样 之后,将每个样本的基频曲线均分,并提取10个点上的基频,用 Logarithm Z- -score(L- score) 方法对基频进行归一。如下面公式(1)所示,x代表采样点的基频值,y是x的对数值,那么 LZ- score值z就可以表示为y与对数均值之差除以标准差s,。然后,我们将 LZ-score值进一步 转换成以每个发音人为基础的相对值( Relative Degree,RD):如公式(2)所示,zm和zm分别是 某个发音人的 LZ-score最大值和最小值;这样,计算的结果与转写声调的五度值(Chao1930) 之间就有一个直观的参照。声调时长也用相对化( Duration Relativization,DR)进行归一,如公 式(3)所示,D代表测量的实际时长,M代表6个声调的平均时长。 公式(1):y;=lgx;z1= 公式(2):RD,= 公式(3):DBsb M 看下页图1。头两行先逐个表现发音人的声调基频曲线均值(第一行依次为五位男发音 人,第二行依次为五位女发音人)。数字代表调类:1阴平、2阳平、3上声、4阴去、5阳去、6阴 入;横坐标是采样的10个点,纵坐标是赫兹值。第三行开头两图是分性别的发音人均值(左 男中女)。发音人的基频幅度均有160赫兹左右,其中男发音人约在100-260赫兹之间,女发 音人约在130-290赫兹之间。所有人的基频曲线总结为第三行右图。 先来看祁门方言的三个平调。只有记为[]33的阳去的基频曲线大致是平的,男发音人 均值约在163赫兹,女发音人均值约在216赫兹;当然,在不同的个体发音人中,也有一些变异 的情况,比如在女发音人1中,它是下倾的,在女发音人4中,它有个下降的调头,在男发音人 2和女发音人5中,它有个上升的调头,等等。记为[]11的阴平调在大部分发音人中都是下 倾的,也就是说,从基频曲线看,它是个低降的调形:男发音人约从144赫兹下降至131赫兹, 女发音人约从202赫兹下降至175赫兹。而记为[]5的阳平调从基频曲线上看则是个升降 ①在语言学传统上,语音之间的区别特性是从心理的角度根据直观推理定义的,即由区别特征 ( distinctive features)构成,但近些年来心理学领域的研究发现人类在类别感知上可能具有范例性特点 ( exemplar model),语言的音类也是如此(参见 Johnson2007),由于本文不具体讨论这个问题,因此不细究。 2018年第4期社 389 National social sclences Dala
segments)的声学特性 ,观察语言中的音类是怎么样 的。这个过程 ,从语言学的角度看来 ,就是 观察语音的区别特性如何实现①!在具体操作上 ,我们采样 的是个体的语音 ,但我们要描写的 其实是语音的类 (phoneticcategory),音系上的 自然类 (naturalclass)。因此 ,在检视所采样的 语音 的声学参数时 ,“发音人在干什么”这个 问题便具体化为 :哪些声学特性在我们所研究的 目标语言中是具有区别音类的作用 的?哪些又是冗余 的? 我们来看一个声调 的例子(Zhang& Hu2015)。据刘丹青 的调查 ,徽语祁 门方言有 6个 声调(平 田昌司[主编 ]1998:126):阴平 [J]11,阳平 []]55,上声 [-1]42,阴去 [J]213,阳去 [_{]33,阴人[叫]435。中古平 、去 、人声今均分阴阳,不过阳人并人 阳去,独立成调 的阴人也不 短促 ;上声不分阴阳,但有一部分古全浊上声字今读 阳去 。 下面介绍我们的研究 。在核实 了记音的基础上 ,我们对祁 门声调进行了声学采样。每个 声调用了5个单音节例字 ,例字既单念也放在载体句中 ,录音重复 5遍 。5男 5女共 10位成年 发音人参与了录音 ,他们均说地道祁门话 ,没有言语或听力障碍 。录音在 田野调查 中进行 ,在 一 个安静的房间内通过 TerraTecDMX 6FireUSB声卡和 SHURE SM86麦克风直接录到笔记 本 电脑中,声音 的采样率是 11,025赫兹 ,16位。在 praat5.3.48(Boersma& Weenink2014)中 将每个采样例字的韵母段标注为声调 的承载段 (ToneBearingUnit,TBU)。在检视每个采样 之后 ,将每个样本的基频 曲线均分 ,并提取 10个点上的基频 ,用 Logarithm Z—score(LZ-score) 方法对基频进行归一。如下面公式 (1)所示 , 代表采样 点的基频值 ,Y是 的对数值 ,那么 , LZ—score值z就可以表示为Y与对数均值之差除 以标准差s。然后 ,我们将 LZ-score值进一步 转换成以每个发音人为基础 的相对值 (RelativeDegree,RD):如公式(2)所示 ,z~和z…分别是 某个发音人的 LZ.score最大值和最小值 ;这样 ,计算 的结果与转写声调 的五度值(Chao1930) 之间就有一个直观的参照 。声调时长也用相对化(DurationRelativization,DR)进行归一 ,如公 式(3)所示 ,D代表测量的实 际时长 , 代表 6个声调的平均时长。 v—m z—z,. D 公式(1):Y= ;z= 公式(2):RD= 公式(3):D尺= Sv zm“ ‘z吣 L 11/1i 看下页图 1。头两行先逐个表现发音人 的声调基频曲线均值(第一行依次为五位男发音 人 ,第二行依次为五位女发音人 )。数字代表调类 :1阴平 、2阳平 、3上声 、4阴去 、5阳去 、6阴 人 ;横坐标是采样的 10个点 ,纵坐标是赫兹值。第三行开头两图是分性别 的发音人均值 (左 男中女)。发音人的基频幅度均有 160赫兹左右 ,其 中男发音人约在 100-260赫兹之间 ,女发 音人约在 130-290赫兹之间。所有人 的基频 曲线总结为第三行右图。 先来看祁 门方言的三个平调。只有记为 []33的阳去的基频 曲线大致是平 的,男发音人 均值约在 163赫兹 ,女发音人均值约在 216赫兹 ;当然 ,在不同的个体发音人 中,也有一些变异 的情况 ,比如在女发音人 1中,它是下倾 的,在女发音人 4中 ,它有个下降 的调头 ,在男发音人 2和女发音人 5中,它有个上升的调头 ,等等 。记为 [_J]11的阴平调在大部分发音人 中都是下 倾的 ,也就是说 ,从基频曲线看 ,它是个低降的调形 :男发音人约从 144赫兹下降至 131赫兹 , 女发音人约从 202赫兹下降至 175赫兹。而记为[]]55的阳平调从基频曲线上看则是个升降 ① 在 语 言 学 传 统 上 ,语 音 之 间 的 区别 特 性 是 从 心 理 的角 度 根 据 直 观 推 理定 义 的 ,即 由 区别 特 征 (distinctivefeatures)构 成 ,但 近 些 年 来 心 理 学 领 域 的研 究 发 现 人 类 在 类 别 感 知 上 可 能 具 有 范 例 性 特 点 (exemplarmode1),语言 的音类也是如 此(参见 Johnson2007),由于本文不具体讨论这个 问题 ,因此不 细究 。 2018年第 4期 ·389·
国家哲学社会科学学术期刊数据库 型曲折调形,根本不是平的。 National social sciences atal Male 1 0130304450070109 :15041504喜0 enal Female 4 01526304914·610091 19203445Q]4 06.704 Mean(males) Mean (females) 009000 0 001020304050.50.70.8091 00102030405060108091 00.10.2030.40.50.60.70.80.911.1 图1祁门声调 那么,它们是平调么?答曰:是的。我们认为,正因为祁门有三个平调,所以其中有两个平 调在基频曲线上才不实现为平的调形!音系特征有“偶值理论”,但祁门的平调是典型的三 值。中平实现为平实的基频曲线( plain level);低平略带缓降;高平在基频上特别高,发音人往 往会运用特别的发声态“假声”( falsetto)来实现:男发音人阳平最高基频均值是256赫兹,女 发音人是284赫兹。需要注意,无论是假声还是基频曲线的曲折,都是发音人为实现这一特高 音调目标( pitch target)所使用的策略,而并不是假声这个发声态具有什么重要的语言学意义 换言之,祁门方言“高、中、低”三个平调对立是通过发音人运用不同的发音策略来实现的。 与祁门类似的有尼日利亚的 Yoruba语( Hombert1976a,1976b)和泰语( Abramson1962) Yoruba语仅有的三个声调,基频曲线也是低调降、中调平、高调升降(但基频没有祁门那么 高),但它们都是音系上的平调;泰语有与 Yoruba类似的三个平调,另还有一个升调、一个降 调,系统上更接近祁门(参考 Abramson1972,1975,1976,1978) 上声是祁门唯一的降调,其前半部分(约首45%时长)缓降,后半部分速降:男发音人约从 l90赫兹下降至110赫兹;女发音人约从241赫兹下降至137赫兹。而且无论男女,上声的最 低点就是声调的最低点,即调域的下限。从这个意义上讲,上声记成[]41更妥一些 祁门的阴去和阴入调形相同,为降升曲折型。两个声调的调头几乎相同:男发音人阴去的 调头下降约9赫兹,阴人的调头下降约10赫兹;女发音人阴去的调头下降约17赫兹,阴入的 调头下降约10赫兹。两调的调形区别仅在于上升的幅度,阴去上升不足30赫兹,而阴入则上 升约79赫兹。就是说,祁门的两个升调的调头相同,唯高升调(阴入)升得高,低升调(阴去) 升得低。祁门方言明显不支持所谓“调域理论”(Yip1980;Bao1999),这个理论认为一个语 内应避免拥有相同的调头或调尾的声调,而祁门的两个升调恰恰如此,而且阴入调贯穿低 高两个调域。刘丹青记为降升调[]213和[1]435,保留了语音细节;我们则认为在音系上可 390·哲学社会科学学术期刊数据库 National social sclences Databa
型曲折调形 ,根本不是平的。 — — 1 m 2 "- *-3 · —一 4 一 5 6 图 1 祁 门声调 那么 ,它们是平调么?答 日:是的。我们认为 ,正因为祁 门有三个平调 ,所以其中有两个平 调在基频曲线上才不实现为平 的调形 !音系特征有 “偶 值理论 ”,但祁 门的平 调是典 型的三 值。中平实现为平实的基频曲线(plainleve1);低平略带缓降 ;高平在基频上特别高 ,发音人往 往会运用特别的发声态“假声”(falsetto)来实现 :男 发音人 阳平最 高基频均值是 256赫兹 ,女 发音人是 284赫兹 。需要注意 ,无论是假声还是基频 曲线 的曲折 ,都是发音人为实现这一特高 音调 目标 (pitchtarget)所使用的策略,而并不是假声这个发声态具有什么重要的语言学意义 。 换言之 ,祁门方言“高 、中、低”三个平调对立是通过发音人运用不 同的发音策略来实现的。 与祁门类似的有尼 日利亚的 Yoruba语 (Hombert1976a,1976b)和泰语(Abramson 1962)。 Yoruba语仅有的三个声调 ,基频 曲线 也是低 调降 、中调平 、高调升 降 (但基频没 有祁 门那 么 高 ),但它们都是音系上的平调 ;泰语有 与 Yomba类似 的三个平调 ,另还有一个升调 、一个降 调 ,系统上更接近祁 门(参考 Abramson 1972,1975,1976,1978)。 上声是祁门唯一的降调 ,其前半部分(约首 45%时长)缓降 ,后半 部分速降 :男发音人约从 190赫兹下降至 110赫兹 ;女发音人约从 241赫兹下降至 137赫兹。而且无论男女 ,上声 的最 低点就是声调 的最低点 ,即调域 的下限。从这个意义上讲 ,上声记成 [\J]41更妥一些 。 祁门的阴去和阴人调形相 同,为降升曲折型。两个声调的调头几乎相同:男发音人阴去的 调头下降约 9赫兹 ,阴入的调头下降约 10赫兹 ;女发音人 阴去 的调头下降约 17赫兹 ,阴入 的 调头下降约 10赫兹。两调的调形区别仅在于上升的幅度 ,阴去上升不足 30赫兹 ,而阴人则上 升约 79赫兹。就是说 ,祁门的两个升调的调头相同,唯高升调 (阴入)升得高 ,低升调 (阴去) 升得低。祁门方言明显不支持所谓“调域理论 ”(Yip 1980;Bao 1999),这个理论认为一个语 言内应避免拥有相同的调头或调尾的声调 ,而祁门的两个升调恰恰如此 ,而且 阴人调贯穿低 一 高两个调域。刘丹青记为降升调[J]213和[、1]435,保 留了语音细节 ;我们则认 为在音系上可 · 390· 方 言
以将这两个声调记为阴去[]23阴入[A]25。有两个理由:首先是两个声调的调头相同,都是 低降升,而低升调拥有一个略降的起始符合其产生与感知特点(Shen&Lin1991);其次,如果 记成降升调,祁门方言便没有升调,不符合类型学的一般规律,基于“剃刀原则”,音系上还是 处理为两个升调为妥。 基频是声调最直接的物理关联物,但并不直接等同于声调。检视一个语言或方言的基频 样本时,应该思考:它的声调对立是什么?对立是如何通过基频来实现的?而不是简单地根据 基频曲线来折算出五度值。要完整回答这个问题,还需要考虑声调的心理感知问题。我们常 常发现:人耳对于基频上升与下降的感知是不同的,基频升高10赫兹很容易被感知为明显的 升调,但基频降低10赫兹则基本还是会被感知为平调;而调头、调尾及相关的感知问题可能更 加复杂(参见 Hombert1978; Gandour1978) 总之,方言语音的实验语音学研究的目的并不是简单地将音类具体化、数字化或者图形 化,而是借助音类(上例是声调)的物理关联物(上例是基频曲线)更为直观地分析、寻找语音 之间区分的语言学意义所在。同时我们也看到,语音细节可以帮助我们更好地理解音类之间 的区别,而不仅仅是验证记音、补口耳之缺,尽管实验语音细节确可以修正口耳记音中的偏差。 需要注意的是,有些偏差在语言学意义上无关紧要,比如祁门的上声是记成[√]42调还是[] 41调;但也有些偏差是具有一定的理论意义的,比如上文对于调域的讨论。 贰实验语音学不是只研究疑难冷僻音类,而是研究所有语音问题 对实验语音学的一个常见误解是认为只有那些不常见的、奇怪偏僻的语音才需要做实验, 似乎实验语音学是专门针对疑难杂症的。我们必须强调:并非如此!不是说发现哪里有内爆 音、哪里有嘎裂音就有意义,要弄明白内爆了嘎裂了又如何,这才是有意义的。比如上文谈及 祁门的假声的语言学意义,并不在它本身,而在于它是说话人实现高平音高目标的发音策略之一。 实验语音学研究所有的语音现象,所以说汉语方言语音的实验语音学是“阵地战”,是在 新的语音观、语言观的指导下,使用实验科学的方法,全面研究方言语音问题。下面简要地说 个单、双元音的问题(双元音又可分为降峰双元音、升峰双元音等①)。单元音、双元音都是 汉语方言中常见的,不是什么偏僻的问题 类型学研究一般依靠单元音韵母及复合元音韵母、鼻音尾或塞音尾韵母的韵腹来观察元 音音位。但是,这样的研究有时会得出误导性的结论。比如梅县客家话只有6个单元音[1i eaou],Ze&Le(2007)和叶晓锋(2011)都把客家话归类为元音最少的汉语方言。但机 械地以单双元音分类为纲,会割裂元音音位对立的音系本质。在江西,有11个单元音的客家 方言(张倩2013),似乎与梅县截然不同。但梅县还有5个降峰或平峰双元音[ al o1 ul au eu],在我们看来它们也是元音音位,因此梅县客家话也是11个元音音位( Zhang&Hu 2015)。最荒唐的一个例子来自著名的《科学》( Science)杂志。 Atkinson(2011)撰文力图证明 世界语言的多样性分布与人类的基因图谱相吻合,以此支持人类非洲起源说。他的理论假设 是,越古老的语言其语音也越复杂,元音个数越多的语言便是越古老的语言;根据他的计算,全 世界的语言正好符合他的理论。此文遭到诸多批评,其中Wang等(2012)提出:按照 Atkinson 的逻辑,亚洲才是语言起源的地方,一个重要的证据就是吴语元音的复杂性。在他们的统计、 我们不使用更常见的术语如前响双元音、后响双元音,是因为“前响、后响”等在字面上均涉及听感 判断,不如“降峰、升峰”等根据纯声学参数定义的术语更为中性。 2018年第4期学 I Social sciences dalal
以将这两个声调记为阴去 [一]23、阴入[/1]25。有两个理由:首先是两个声调的调头相同 ,都是 低降升 ,而低升调拥有一个略降的起始符合其产生与感知特点(Shen& Lin1991);其次 ,如果 记成降升调 ,祁门方言便没有升调 ,不符合类型学的一般规律 ,基 于“剃刀原则”,音 系上还是 处 理为 两个 升调 为妥 。 基频是声调最直接的物理关联物 ,但并不直接等 同于声调。检视一个语言或方言的基频 样本时 ,应该思考 :它的声调对立是什么?对立是如何通过基频来实现的?而不是简单地根据 基频曲线来折算 出五度值 。要完整回答这个问题 ,还需要考虑声调的心理感知 问题。我们常 常发现 :人耳对于基频上升与下 降的感知是不 同的 ,基频升高 10赫兹很容易被感知为 明显的 升调 ,但基频 降低 1O赫兹则基本还是会被感知为平调 ;而调头 、调尾及相关的感知问题可能更 加 复杂 (参 见 Hombe~ 1978;Gandour1978)。 总之 ,方言语音 的实验语音学研究 的 目的并不是简单地将音类具体化 、数字化或者图形 化 ,而是借助音类(上例是声调)的物理关联物 (上例是基频 曲线 )更为直观地分析 、寻找语音 之间区分的语言学意义所在。同时我们也看到 ,语音细节可以帮助我们更好地理解音类之间 的区别 ,而不仅仅是验证记音 、补 口耳之缺 ,尽管实验语音细节确可以修正 口耳记音 中的偏差。 需要注意的是 ,有些偏差在语言学意义上无关紧要 ,比如祁门的上声是记成 []42调还是 [\J] 41调 ;但也有些偏差是具有一定 的理论意义的 ,比如上文对于调域 的讨论 。 贰 实验 语音 学不 是只 研 究疑 难冷 僻音 类 ,而是 研 究所 有语 音 问题 对实验语音学的一个常见误解是认为只有那些不常见的、奇怪偏僻 的语音才需要做实验 , 似乎实验语音学是专门针对疑难杂症的。我们必须强调 :并非如此 !不是说发现哪里有 内爆 音 、哪里有嘎裂音就有意义,要弄 明白内爆 了、嘎裂了又如何 ,这才是有意义的。比如上文谈及 祁 门的假声的语言学意义 ,并不在它本身,而在于它是说话人实现高平音高 目标的发音策略之一。 实验语音学研究所有的语音现象 ,所 以说汉语方言语音 的实验语音学是“阵地 战”,是在 新 的语音观、语言观的指导下 ,使用实验科学 的方法 ,全面研究方言语音问题 。下面简要地说 一 个单 、双元音的问题(双元音又可分为降峰双元音 、升峰双元音等①)。单元 音、双元音都是 汉语方言 中常见的,不是什么偏僻的问题。 类型学研究一般依靠单元音韵母及复合元音韵母 、鼻音尾或塞音尾韵母 的韵腹来观察元 音音位。但是 ,这样 的研究有时会得 出误导性 的结论。比如梅县客家话 只有 6个单元音 [1i eaOu],Zee& Lee(2007)和叶晓锋 (2011)都把客家话归类为元音最少的汉语方言。但机 械地 以单双元音分类为纲 ,会割裂元音音位对立 的音系本质 。在江西 ,有 11个单元音的客家 方言 (张倩 2013),似乎 与梅 县截 然不 同。但 梅县还有 5个 降峰或平峰双元 音 [ai0iuiau £u],在我们看来 它们 也是 元音 音 位 ,因此梅 县 客家话 也 是 11个 元音 音位 (Zhang& Hu 2015)。最荒唐 的一个例子来 自著名 的《科学》(Science)杂志。Atkinson(2011)撰文力图证 明 世界语言的多样性分布与人类 的基因图谱相吻合 ,以此支持人类非洲起源说。他 的理论假设 是 ,越古老的语言其语音也越复杂 ,元音个数越多的语言便是越古老 的语言 ;根据他的计算 ,全 世界 的语言正好符合他 的理论 。此文遭到诸多批评 ,其 中 Wang等 (2012)提 出:按照 Atkinson 的逻辑 ,亚洲才是语言起源的地方 ,一个重要的证据就是吴语元音 的复杂性。在他们的统计 、 ① 我们不使用更常见的术语如前响双元音、后响双元音 ,是因为“前响、后响”等在字面上均涉及听感 判断 ,不如“降峰 、升峰”等根据纯声 学参数定义 的术语更 为中性 。 2018年第 4期 ·391·
计算中,元音都只包括单元音,这便是得出荒谬结论的一个根本原因之所在。 术期刊数据库 关于双元音的性质,很早便有讨论(Pike1947; Lehiste& Peterson1961; Holbrook& Fairbanks1962)。大致有两种观点:一是认为双元音是一个单独的元音,它的核心在语音上是 复杂的( Malmberg1963; Abercombie1967; Catford1977);另一种观点则认为双元音就是两个 元音成分或者一个元音成分和另一个半元音成分的组合序列( Sweet1877; Jones1922)。前者 将双元音视为单一发音事件,只有一个动态的目标;而后者则将双元音看成是两个发音事件 从一个静态的目标过渡到另一个静态的目标 降峰双元音和升峰双元音在语音或音系上的表现往往是不同的。赵元任(1928:65-66) 早就指出:吴语中只有降峰双元音才是“真复合元音”,升峰双元音不是。事实上,无论在历时 或共时层面都常常能发现,降峰双元音可以和相应的单元音形成交替( alternation),升峰双元 音则不然。最常见的如/ai/与/e/、au/与/5/之间的交替,在晋语、吴语等方言中都很常见。 我们最近的研究明确指出:升峰双元音拥有两个目标,因此[ia]应视为[i与[a]的序列;而降 峰双元音则只有一个动态的目标,因此,[ai]并不是[a]与[i]的序列,而是一个整体的元音, 与[a]、[i]等单元音构成音位对立(胡方2013)。我们并不认为这个结论放之四海而皆准,相 反,我们期待不同的语言/方言存在不同的情况。比如说,我们认为北京话的/ai是一个动态 目标,是一个整体的元音音位,而英语的/ai/就可能是[a]加[i]的序列。① 这里举例表明如何通过语音观、语言观的革新,通过语音数据的采样,借助看似简单、枯燥 的声学测量,将以前口耳之学中只能意会的一些内容展示出来,进而可以比较各方言中的各类 单元音、双元音,以及一切其他音类,厘清一些事实。下面是一个西南官话的例子(邱玥、胡方 2013)。四川隆昌话属西南官话江贡小片,有韵母36个,如下:1,t,a,o,e,3;ai,si,au,au;an, an, an, o: 1, la, le, 10,lau, au; len, In, lan, lon; u, ua, ue, ual, uaI; uan, uan, uap;y,ye, yen, yno 我们对所有的韵母进行了声学录音采样,选取含有目标元音的单音节字,并尽量选取阴平 调、零声母或唇音声母字,嵌入“,读三遍”的载体句中。录音在实地调查中进行,有效样 本来自5男4女共9位发音人,均为20-25岁的青年,从小在隆昌县长大,母语为本地方言,也 学过普通话和英语,属于典型的隆昌青年口音。录音使用 Sony D50线性录音棒,采样率为 16,000赫兹;录音重复五遍。由于没有显著差异,本文将“,读三遍”中两个位置的目标元 音音段数据一起统计,即每位发音人每个目标元音的有效样本数据为10个。这里我们讨论隆 昌话的9个单元音[1 Liu y ae o3]和4个降峰双元音[ ai ai au au;在降峰双元音与升 峰双元音的对比中,选取[aiau]与[iaua]这两对语言中最常见的双元音。讨论集中在共振 峰模式,略去吋间结构。 隆昌单元音在声学元音图中的分布见下页图2(置信椭圆为两个标准差,参看胡方 014)。这是典型的三角形分布,高低分三个层级:高元音[iyu],低元音[a],以及[eo]。 [eo]实际上位于正则元音的半高与半低之间。除了前高位置有圆唇与否的对立,其他前元 音都不圆唇,后元音都圆唇。两个舌尖元音11]在声学元音图中位于高、央的位置,但比高 元音略低。还有一个儿化的央元音[可]。只看单元音,隆昌话的元音系统非常简单、整齐。不 ①有的北京人说英语时用[ε]代替/ai/,如 arne说成[aev]。不用自己语音系统里面有的/a/来对应 英语的/a/,而是用了一个在北京话/普通话中并不符合CV音节拼合关系的单元音[e]来代替,这便说明在 北京人的大脑/语法中,北京话的/a跟英语的/a/是完全不同的东西。 学社会料学学术期数据库
计算 中,元音都只包括单元音 ,这便是得出荒谬结论的一个根本原 因之所在。 关于双元 音 的性质 ,很 早 便 有讨 论 (Pike 1947;Lehiste & Peterson 1961;Holbrook & Fairbanks1962)。大致有两种观点 :一是认为双元音是一个单独的元音 ,它的核心在语音上是 复杂的(Malmberg1963;Abercombie1967;Catford 1977);另一种观点则认 为双元音就是两个 元音成分或者一个元音成分和另一个半元音成分的组合序列(Sweet1877;Jones1922)。前者 将双元音视为单一发音事件 ,只有一个动态的 目标 ;而后者则将双元音看成是两个发音事件 , 从一个静态的 目标过渡到另一个静态的 目标。 降峰双元音和升峰双元音在语音或音 系上 的表现往往是不 同的。赵元 任(1928:65-66) 早就指出 :吴语中只有 降峰双元音才是 “真复合元音 ”,升峰双元音不是。事实上 ,无论在历时 或共时层面都常常能发现 ,降峰双元音可 以和相应的单元 音形成交替 (ahernation),升峰双元 音则不然 。最常见 的~[I/ai/与/e/、/au/与/3/之间的交替 ,在晋语 、吴 语等方言 中都很 常见。 我们最近的研究明确指出 :升峰双元音拥有两个 目标 ,因此 [ia]应视为[i]与[a]的序列 ;而降 峰双元音则只有一个动态的 目标 ,因此 ,[ai]并不是 [a]与 [i]的序列 ,而是一个整体的元音 , 与[a]、[i]等单元音构成音位对立 (胡方 2013)。我们并不认为这个结论放之 四海而 皆准 ,相 反 ,我们期待不同的语言/方言存在不同的情 况。比如说 ,我们认为北京话 的/ai/是一个动态 目标 ,是一个整体的元音音位 ,而英语的/ai/就可能是 [a]加 [i]的序列 。① 这里举例表明如何通过语音观 、语言观的革新 ,通过语音数据的采样 ,借助看似简单 、枯燥 的声学测量 ,将以前 口耳之学中只能意会的一些内容展示出来 ,进而可以比较各方言中的各类 单元音 、双元音 ,以及一切其他音类 ,厘清一些事实。下面是一个西南官话的例子(邱弱 、胡方 2013)。四川隆昌话属西南官话江贡小片 ,有韵母 36个 ,如下 :1,1.,a,o,e, ;ai,oi,an,au;an, 3n,ar3,or3;i,ia,ie,io,iau,iou;ien,in,iar3,ioi3;u,113,ue,uai,uai;uan,uan,uar3;Y,ye,yen,yn。 我们对所有的韵母进行了声学录音采样 ,选取含有 目标元音的单音节字 ,并尽量选取阴平 调 、零声母或唇音声母字 ,嵌入“ ,读 三遍”的载体旬 中。录音在实地调查 中进行 ,有效样 本来 自5男 4女共 9位发音人 ,均为 20-25岁的青年 ,从小在隆昌县长大 ,母语为本地方言 ,也 学过普通话和英语 ,属于典型 的隆昌青年 口音 。录音使用 SonyD50线性 录音棒 ,采样 率为 16,000赫兹 ;录音重复五遍 。由于没有显著差异 ,本文将“ ,读 三遍 ”中两个位置的 目标元 音音段数据一起统计 ,即每位发音人每个 目标元音 的有效样本数据为 10个 。这里我们讨论 隆 昌话 的 9个单元音[11.iUYaeo9]和 4个降峰双元音 [aioiauou];在降峰双元音与升 峰双元音 的对 比中,选取 [aiau]与 [iaua]这两对语言 中最常见 的双元音。讨论集 中在共振 峰模式 ,略去时问结构 。 隆 昌单 元音 在 声学 元音 图 中 的分 布见 下 页 图 2(置 信椭 圆 为两个 标 准差 ,参 看 胡方 2014)。这是典型的三角形分布 ,高低分 个层 级 :高元音 [iYu],低元音 [a],以及 [eo]。 [eo]实际上位于正则元音的半高与半低之间。除了前高位置有 圆唇与否的对立 ,其他前元 音都不圆唇 ,后元音都圆唇。两个舌尖元音 [11,]在声学元音图 中位于高 、央 的位置 ,但 比高 元音略低 。还有一个儿化的央元音[ ]。只看单元音 ,隆昌话的元音系统非常简单 、整齐。不 ① 有的北京人说英语时用[£]代替/ai/,如 arrive说成 [0~Icv]。不用 自己语音系统里面有的/ai/来对应 英语的/ai/,而是用了一个在北京话/普通话中并不符合 CV音节拼合关系的单元音 [£]来代替 ,这便说明在 北 京人的大脑/语法 中,北 京话 的/ai/跟英 语的/ai/是完 全不 同的东西 。 · 392· 方 言
国家哲学社会科学学术期刊数据库 过隆昌还有4个降峰双元音[ ai au al。u],见图3和图4(实线椭圆是单元音,虚线或点线椭 圆是双元音的首尾成分,箭头则简化示意双元音共振峰模式的变化方向)。 F23000200200100100MzF220000190001000 TSr 888 8888 2500 图2隆昌话单元音(左:男;右:女) 25002000 100500HzF22500 2000 1500 1000 8888 o8 2000 5001000 2500 2000 图3隆昌话双元音[aiau](左)、[aiJu](右)与单元音[iua3]的比较(男 F2300025002000 00050HzF23000250020001500100 88888-8 品 8N81 图4隆昌话双元音[aiau](左)、[aiou](右)与单元音[iua3]的比较(女)。 2018年第4期
过隆昌还有 4个降峰双元音 [aiauoiou],见图 3和 图 4(实线椭 圆是单元音 ,虚线或点线椭 圆是双元音的首尾成分 ,箭头则简化示意双元音共振峰模式的变化方向)。 量 § 鏊 基 § 8 ’ 婚 'a∞ Soo 25oo 2ooo ’嚣OO 10o0 5o0 图2 隆昌话单元音(左 :男 ;右:女) 图 4 隆昌话双元音[aiau](左)、[aiau](右 )与单元音[iuaa]的比较(女)。 2018年第 4期 ·393·
家哲学社会科学学术期刊数据库 图34的比较目的是想知道双元音如何实现其声学目标。图中可以看到,双元音[aiau 中的首成分[a]与单元音[a]相比分别偏前和偏后,这应是受各自的尾成分的影响,显现出 定程度的逆协同发音,但其椭圆的大小与单元音[a]类似,而且重叠明显。这说明双元音[ai au]的发音是从一个类似于单元音[a]的声学位置开始的,其声学目标比较清楚。而双元音[ai au]的尾成分[iu]与单元音[iu]位置差距很大,椭圆几乎不重合,说明并未到达目标位置,而 椭圆面积显著大,即数据分布的离散度增加、可变性增大。可见[aiau]的发音似乎并没有 个明确的尾成分声学目标,其尾成分的位置是由双元音的动态特性所决定的。与[aiau]类 似,[aiau]的尾成分也没有一个明确的声学目标。另外,[ai3u]的首成分[。]的可变性也非 常大,虽然[iau]中的[。]的椭圆与单元音[3]的椭圆还是重叠的,但离散度显著增加,尤其 在女发音人的数据中,这个特点更加明显。 综上所述隆昌话的降峰双元音[ al au al au]并不是由两个目标组成的,它们更像是一个 动态的目标。[aiau]由一个接近于单元音[a]的声学位置开始,但不需要实现其尾目标[i]或 [u],而是在不到目标的位置就结束了,是由于受到双元音自身的动态特性制约;[iu]也类 似,而且,从其变异性更大的首成分[3的分布来看,其动态特性更加重要。因此,我们认为降 峰双元音应该如单元音一样,是隆昌话元音音位对立的组成部分。 升峰双元音则全然不同。请看图5 F 2500 500HzF23500 品 号8o88 8品8 8o888 2500 图5隆昌升峰双元音[iaua]与单元音[iua]的比较(左:男;右:女) 隆昌升峰双元音[iaua]的首尾成分(实线或点线椭圆)与单元音[iua]的椭圆(虚线) 大部分重合,均值点的位置也非常接近;因此,声学材料支持将隆昌话的升峰双元音看做是由 两个相对稳定的声学目标组成的,其发音过程中就是从一个稳定的目标位置过渡到另一个稳 定的目标位置。也就是说,[iaua]就是[i]与[a]、[u]与[a]的序列。 叁语音的变异性 在现在通行的普通语言学的理论框架中,一般把语音看做是均质的,即一个音就是百分之 百的这个音。如前文所述,普通语言学更偏重于抽象层面的分析,无论是形式学派还是功能 学派,基本还是只关心语言中抽象的那部分,即将语言视为人类的一种或内在的( innate)或交 际驱动的抽象的能力( competence),将语言的具体产出视为一种执行( performance)。因此 音类”“音位”都是从感知、心理的角度根据直观推理定义的,在语言学中强调其区别性。但 National social sciences Datab
图 3、4的比较 目的是想知道双元音如何实现其声学 目标 。图中可以看到 ,双元音 [aiau] 中的首成分 [a]与单元音[a]相 比分别偏前和偏后 ,这应是 受各 自的尾成分的影 响,显现出一 定程度的逆协同发音 ,但其 椭圆的大小 与单元音 [a]类似 ,而且重叠 明显 。这说明双元 音 [ai al1]的发音是从一个类似于单元音 [a]的声学位置开始的,其声学 目标 比较清楚。而双元音[ai al1]的尾成分 [iu]与单元音 [iI]位置差距很大 ,椭圆几乎不重合 ,说 明并未到达 目标位置 ,而 椭圆面积显著大 ,即数据分布的离散度增加 、可变性增大。可见[aial1]的发音似乎并没有一 个明确的尾成分声学 目标 ,其尾成分 的位置是 由双元音 的动态特性所决定 的。与 [aial1]类 似 ,[aiau]的尾成分也没有一个明确 的声学 目标 。另外 ,[3iau]的首成分 [a]的可变性也非 常大 ,虽然 [3iau]中的[a]的椭圆与单元音 [a]的椭 圆还是重叠 的,但离散度显著增加 ,尤其 在女发音人 的数据中 ,这个特点更加明显 。 综上所述 ,隆昌话的降峰双元音 [aialloiau]并不是 由两个 目标组成的,它们更像是一个 动态的 目标 。[aial1]由一个接近于单元音 [a]的声学位置开始 ,但不需要实现其尾 目标 [i]或 [11],而是在不到 目标 的位置就结束了 ,是 由于受到双元音 自身 的动态特性制约 ;[ai0u]也类 似 ,而且 ,从其变异性更大的首成分[a]的分布来看 ,其动态特性更加重要。因此 ,我们认为降 峰双元音应该如单元音一样 ,是隆昌话元音音位对立 的组成部分 。 升峰双元音则全然不同。请看图 5。 图5 隆昌升峰双元音[ia1in]与单元音[iua]的比较(左 :男 ;右 :女) 隆昌升峰双元音 [iaua]的首尾成分 (实线或点线椭 圆)与单元音 [iua]的椭 圆(虚线) 大部分重合 ,均值点的位置也非常接近;因此 ,声学材料支持将隆 昌话 的升峰双元音看 做是 由 两个相对稳定 的声学 目标组成 的,其发音过程 中就是从一个稳定 的 目标位置过渡到另一个稳 定 的 目标位置。也就是说 ,[iaua]就是 [i]与[a]、[n]与 [a]的序列 。 叁 语 音 的变 异性 在现在通行的普通语言学的理论框架中,一般把语音看做是均质 的,即一个音就是百分之 一 百 的这个音。如前文所述 ,普通语言学更偏重于抽象层面的分析 ,无论是形式学派还是功能 学派 ,基本还是只关心语言中抽象的那部分 ,即将语言视为人类 的一种或 内在 的(innate)或交 际驱动的抽象 的能力 (competence),将语言 的具体产 出视为一种执行 (performance)。因此 , “音类 ”“音位”都是从感知 、心理的角度根据直观推理定义的 ,在语言学中强调其 区别性 。但 . 394. 方 言