上QQ阅读APP看本书，新人免费读10天

设备和账号都新为新人

第二章　语音学

2.1　导引

●语音概说

●发音语音学

●音素

●音节

●超音段特征

●声学语音学

●听觉语音学

2.1.1　语音概说

语音学是对人类语言声音的研究，其主要的研究范畴包括发音语音学（Articulatory Phonetics）、声学语音学（Acoustic Phonetics）以及听觉语音学（Auditory Phonetics）。口语是人类语言最基本，也是最普遍的实现形式，而人类具有的发音、听音、辨音的能力，是实现口语交流的基础，因此也是语言学的主要研究对象。

有一些语言发源的理论认为，人类最原始的语言形式并不是声音，而是手势。但是，手语的弊端在于说话者必须面对面，有距离的限制；而声音传播的距离很远，打破了这个限制，因此口语取代了手语，成为语言主要的形式。但这并不意味着手语在语言的准确性和复杂度方面劣于口语。对于一些听力或发音器官受损的个体（有时是一个家族或村落），手语帮助他们实现无异于口语的语言沟通。广义的语音学研究对象既包括口语的语音，也包括手语的手势。由于篇幅限制，本章仅对口语的语音做介绍。

2.1.2　发音语音学

发音语言学研究的是人类使用语言时发音的人体生理机制。如果把人说话看成是一个生理活动，其实就是“一股股的热气流”。从物理学上来讲，声音的本质是声波，是由物体的颤动产生的，而人类的发音颤动体是人的声带。人类之所以能发出来各种各样的声音，是因为人类具有复杂的发音器官，让从肺里呼出来的气流发生了变化。

通常，我们用以辨识语音的要素有四个：音高、音强、音长和音色。当气流从肺往外送时，气流会经过喉管、咽腔、口腔和（或）鼻腔，人类通过控制这些器官，比如通过绷紧或放松某些肌肉，扩大或缩小气流通过的空间和位置，就可以改变声波，从而产生了我们听到的不同声音。

声波的振动频率决定了音高，通过控制声带的肌肉使其变长缩短或紧绷放松，可以改变音高。声波的振幅大小决定了音强，试想当我们要大喊时往往要先大吸一口气，其实就是通过制造更大的气流，产生振幅更大的声波，也就是音强更大的声音。时间的长短决定了音长，这个非常好理解。以上这三个方面的声音变化，我们在大部分的飞鸟走兽身上也都能看到。

但是让人类语言的声音如此丰富、复杂的关键，是人类语言的共鸣器：口腔、咽腔、鼻腔；共鸣器的作用是改变声音的音色。普通话的“波”和“泼”的声母的区别，“波”和“八”的韵母的区别，都是通过对共鸣腔的控制实现的。关于人类的发音器官，罗常培在《普通语音学纲要》一书中做了详细的介绍，本章也节选了相关的内容。了解发音器官对于语言学研究极为有必要。以下我们将看到，人类语音基本的分析单位主要是按照发音器官（部位）的不同来分类的。

2.1.3　音素

人类语音非常丰富复杂，但如果要对其进行记录和分析，最基本的分析单位应该是音素（phone）。根据音质的不同，语言学家对人类语言发音进行了区别划分，形成了不同的音素。音素是具体存在的物理现象；一个音素对应的是一个发音动作。

根据目前发现的人类语言，国际语音学会制定了国际音标（International Phonetic Alphabet, IPA, 或称为“国际语音学字母”，见图2.1）。这些国际音标与全人类语言的音素一一对应，用以准确记录人类的任何语言。国际音标的官网有所有音素的音频，感兴趣的读者可以前往听取。⁽¹⁾

图2.1　国际语音学会制定的国际音标（2015年版）⁽²⁾

在使用国际音标标注语音时，可以遵循两种方法。如果严格按照国际音标来标注语音，一般会加方括号表示（如［p］），这种方法称为严式标音法。还有一种用斜杠（如/p/）来标注语音的方法，称为宽式标音法，一般不代表国际音标的发音，而是一个语言中的某个音位，我们会在下一章谈到。

图2.1中我们可以看到，音素大致可分为元音（vowel）和辅音（consonant）两大类。以普通话为例，汉语拼音中的韵母a、o、e、i、u、ü是单元音，而声母b、p、m、f等代表的是辅音。

2.1.3.1　辅音

一般来讲，辅音的发音过程是气流从肺腔发出到达共鸣腔，经历“成阻——持阻——除阻”的过程。从图2.1顶端第一个大表“肺部气流音”（pulmonic consonant），我们可以看到辅音一般按照发音部位（place of articulation）和发音方法（manner of articulation）两个维度进行划分。

该表中的横轴表示的是不同的发音部位。辅音的发音部位指的是气流受到阻碍的部位。根据人体的共鸣器不同的发音部位，我们把这些辅音归类为：双唇音（bilabial）、唇齿音（labiodental）、齿音（dental）、齿龈音（alveolar）、龈后音（postalveolar）、卷舌音（retroflex）、硬腭音（palatal）、软腭音（velar）、小舌音（uvular）、咽音（pharyngeal）、声门音（glottal）。这些不同的发音位置可参见本章选文的发音器官图。

该表中的竖轴表示的是不同的发音方法。辅音的发音方法指的是气流破除发音阻碍的方法。如果把这些不同的辅音按发音方法来归类，可以分为：塞音（plosive）、鼻音（nasal）、颤音（trill）、闪音（flap or tap）、擦音（fricative）、边擦音（lateral fricative）、通音（approximate）、边通音（lateral approximate）。塞音的发音方式是口腔和鼻腔一开始完全阻碍，由气流冲破口腔阻碍后爆破发出；鼻音则是阻碍后打开鼻腔通路，气流颤动声带，从鼻腔通过。发颤音时，发音器官有弹性的部分，如双唇、舌尖、小舌，迅速颤动，使气流忽通忽塞，急速交替，形成颤音；闪音的发音方式类似于颤音，只是不连续颤动，只是闪动一下。擦音发音的阻碍是相近的发音部位形成的窄缝，气流经过口腔时从窄缝挤出，摩擦成声。边通音的发音方式则是舌尖与齿龈相接构成阻碍，舌头两边留有空隙，气流从舌头两边经过形成。

另外，根据发辅音时声带是否颤动，可以分为清辅音和浊辅音。且看该表中最左上角的双唇塞音［p］［b］那一格，［p］代表的是发音时声带不颤动的清辅音，而［b］代表的是和［p］发音位置相同、发音方法也相同但声带颤动的浊辅音。如果以发音方式来看，可以看出塞音和擦音都可以有清浊的区分。

世界上大部分语言（包括英文）的辅音都存在清浊的区别，可是普通话的辅音不以清浊来做主要的区分方法，而是以送气与否来区分。普通话里的b-p、d-t、g-k这几组塞音发音时声带不颤动，可以确定都是清音。但是如果把手放在嘴巴前，可以感受到这几个塞音发音时嘴巴送出的气流不同：发p、t和k的时候能感觉到嘴巴会送出一股气流，而发b、d、g时几乎没有气流，因而称前者为送气，后者为不送气。j-q、z-c、zh-ch这三组塞擦音也是同理，皆为清音，以送气不送气来区分。在国际音标中，送气这一特征以一个上标的h来表示，例如，普通话的b和p分别用［p］和［ph］来标注（注：［ph］右上方作为上标出现的h是一个变音符号，代表的是送气。变音符号（diacritic）是为了更精确地表现辅音和元音的发音情况，见图2.1左下角）。以下是普通话中的辅音分布（表2.1），及其对应的国际音标。

表2.1　普通话的辅音分布（国际音标表示法）⁽³⁾

辅音除了肺部气流音以外，还有非肺部气流音，指的是不需要从肺部送气的辅音（见图2.1第二排左侧“non-pulmonic consonants”）。非肺部气流音同样可以用发音方式和发音部位来区分。如果以发音方式来区分，有搭嘴音（click）、内爆音（voiced implosive）和挤喉音（ejective）。使用非肺部气流音的语言多见于非洲，非洲南部的科依桑语系（Khoisan languages）就使用许多不同的非肺部气流辅音。虽然普通话中不存在这些辅音，但我们在日常生活中其实也经常听到。比如我们逗小孩的时候弹舌头、表示惋惜的时候咂舌都属于搭嘴音，而我们在模仿亲嘴的动作发出的“啵啵”的声音则是内爆音。

2.1.3.2　元音

元音的发音方式与辅音不同，不需要经过“成阻——持阻——除阻”的过程。发元音时，气流经过口腔不受到阻碍，并且发声时各发音器官部位保持均衡的紧张。上面提到，辅音有清浊之分，也就是声带颤动与否的区别，但是发元音时声带肯定是颤动的，所以元音的声音都很响亮。元音也有送气不送气的区别，但是和辅音相比，发元音时的气流非常弱，我们几乎感受不到。

最基本的元音每一个只有一个发音位置，称为单元音（monophthong）。拼音中的a、o、e、i、u、ü就属于单元音。两个或三个单元音组合一起，则构成复合元音（双元音diphthong或三元音triphthong），比如拼音中的ao、ou、iu。复合元音的发音过程是由一个元音向另一个元音滑动，因此复合元音也叫滑动元音（gliding vowel）。

舌头和嘴唇是元音发音的共鸣腔，决定了元音的音质。舌头升降（或口腔开闭）、舌位的前后、圆唇不圆唇是区分单元音的三个维度。国际音标的元音表是一个四角图（见图一第二排右测），代表的就是舌头处在不同位置（舌位高低前后的四个极限边缘）所发出的元音音素。而在同一个位置前后的两个元音，比如舌高前位（四角图左上角）的［i］和［y］则代表的是不圆唇与圆唇时的音素。

我们可以通过发汉语拼音中的几个单元音来感受一下舌头和嘴唇的变化。试着发拼音的a, 我们可以感觉到嘴巴是张着的，舌头贴着下面的；而发e, 甚至i的时候舌头会抬高的，嘴巴也会变小；当我们发i的时候把嘴唇噘成圆形，就变成了ü；而从ü到u, 我们感觉到舌头往后缩；从u到o, 我们能感觉嘴巴的张口变大。

普通话的单元音是一个倒三角形，而非国际音标表中的四角形，因为我们的低元音a只有一个位置，没有舌位前后之分。早期的学者认为，普通话的单元音有十个，但有学者认为，普通话的元音如果仅按基础音来计算，排除掉边际音和派生音，应该只有七个（见图2.2）。这些基础音在不同的条件下出现局部音变产生的音素，实际来讲应视为同一音位（phoneme）的音位变体（allophone）。

图2.2　普通话一级元音格局图（以北京话为样本）⁽⁴⁾

2.1.4　音节

音素是语音的最小单位，而音节（syllable）是听觉能感受到的最自然的语音单位。即使没有受过语音训练的人，也能很容易地感知到音节这一概念。汉语中通常一个字对应的是一个音节，例如，“音节”这个词有两个音节，“音”是一个，“节”是另一个；而英文的“syllable”这个单词则由［si］-［lə］-［bl］三个音节构成，依此类推。

一个音节内部一般由一个或几个音素按一定规律组合在一起。以汉语为例，如果用辅音（C）和元音（V）的组合来表示汉语音节结构的话，汉语方言普遍只有CV、V、CVC、VC四种音节结构（其中V可以是一个或多个元音的组合）。

音节中不同的位置所允许出现的辅音在不同的方言内部存在不同的规则。例如，普通话虽然一共有22个辅音，但是出现在音节末尾的辅音韵尾（coda）的只有［n］和［ŋ］这两个鼻音，并且［ŋ］只出现在韵尾，不能出现在音节开始的声母（onset）位置上。而汉语的其他方言中，例如粤语、闽南语和客家语，能出现在韵尾的辅音除了［m］、［n］和［ŋ］三个鼻音以外，还有［p］、［t］、［k］三个塞音。印欧语系的音节结构则要比汉语复杂得多。例如，英语单词strengths［streŋθ］就包含了多达8个音素。

对于汉语音节结构的划分，中国传统的音韵研究更倾向于把汉语的音节结构分为声母和韵母（rhyme）两部分，即音节中元音之前的辅音为声母，元音以及元音后面的辅音合并称为韵母。《广韵》、《切韵》等中国历史上的韵书都是基于对声母、韵母等的划分进行编排分类的。

2.1.5　超音段特征

以上我们所讨论的辅音和元音的各种区别属于音色上的区别。而我们之前提到，辨识语音的要素除了音色以外还有音高、音强和音长几个特征。在语音学研究中，后面这几个属性都属于超音段特征（suprasegmental feature）。之所以称之为“超音段”，是因为这几项语音特征的作用单位可能大于某个语素（比如汉语的声调作用单位是音节）。图2.1右下角的suprasegmantals（超音段标记）以及tones and accents（声调和重音）这两部分列举了常见的超音段特征及其标注方法。之所以要研究超音段特征，是因为有些语言采用了某个方面的超音段特征作为区分词义的手段。

2.1.5.1　声调

首先谈谈音高。在语音学研究中，我们称语音的音高为声调（tone）。声调在汉语中具有区分语义的作用。比如，在大部分的语言中［ma］这个音节只有一个意思，代表的是“母亲”这个概念，或者作为对母亲的称谓。但如果我们赋予［ma］普通话的四个不同声调，在普通话的语境中，它可能分别代表“妈”、“麻”、“马”、“骂”这四个字，具有不同的，但是固定的语义。而如果把这带四声的［ma］放在英语的语境中，它的区别可能只在于呼唤母亲时所带有的不同感情色彩，比如亲切、引起注意、娇嗲、不耐烦、愤怒、震惊、怀疑等等。注意这种语气所传达的感情色彩并非是固定的，而是会随着语境发生变化的。

类似于汉语利用声调来区分语义的语言称为声调语言（tonal language）。除汉语外，藏语、泰语、老挝语、越南语都是较为典型的声调语言。声调通常负载于整个音节或音节中的韵母之上，对于声调语言来说，声调属于音节的一部分。在这些语言中，声调需要通过两方面来描述，一是通过声调升降（contour）来描述，比如：音高是保持不变的（平调），从低音往高音走（升调），从高音往低音走（降调），或是先降后升、先升后降等（曲折调）——以上是几种基本的调类。二是从调值来描述。虽然声调的音高可以通过测量频率进行科学的记录，但是在语言沟通中，我们并不是通过绝对音高来判断声调，而是通过音高的相对高低和跨度来判断。赵元任先生受到音乐五线谱的启发，提出用五度标记法来表示声调的音高，即音值从低到高可分为低、次低、中、次高、高；如果用符号表示，就是把一条竖线分成五段，用连接竖线的纵线位置来表示音值；或者也可以用数字1—5来表示从低到高的五个音值。国际音标表中表示声调音高的符号（声调符号）就是赵元任先生发明的。如果声调是平调，则可以用单个声调符号表示音值；如果声调有升降，则可以通过排列声调符号来表示声调的升降变化。表2.2分别用国际音标的声调符号、曲线法和数字法表示了普通话的四声。

表2.2　普通话四声的不同表示方法

除了汉语这一类声调语言以外，大多数声调语言在音节内并没有声调的升降，只有一个平调，仅区分调值高低。班图语系（Bantu）的许多语言，如津巴布韦的绍纳语（Shona）和南非的祖鲁语，它们的声调就只有高低之分；西非的约鲁巴语的声调有高中低三种。这些语言的声调和汉语一样，有辨义的作用。日语的方言中也会用高低音调结合重音区别词汇，例如，［haɕi］的两个音节在高低音调不同时可以有三个意思：当把重音放在第一个音节时，第一个音节的声调比第二个音节高，意思为“筷子”；如果重音放在第二个音节，第二个音节的声调比第一个音节高，意思为“桥”；如果两个音节都没有重音，音高在同一个水平，此时意思为“边缘”。

2.1.5.2　重音

在语音学中，语言的音强称为重音（stress）。重音是以音节为单位的。有辨义作用的重音多见于日耳曼语系的语言，如英语、德语。英语中的很多词汇利用重音的位置来区分词性，比如insult、record、permit这几个词，作为动词时重音在第二个音节，而名词的重音则在第一个音节。德语中的“unterstellen”一词，当重音出现在词首，意为“储存”；当重音出现在第三个音节，意为“暗示”。汉语中也能见到一些零星的例子。例如北京话中的“大姑娘”一词，如果把重音放在第一个字“大”上，意为“第一个女儿”；而如果重音出现在第二个字“姑”上面，则意为“已成年的女孩子”。

在有些语言中，重音虽然不具有辨义作用，但仍是一个单词的有机组成部分。有些语言有固定的重音位置，例如，西班牙语的重音默认落在倒数第二个音节上。

严格来讲，重音不是一个可以完全孤立分析的超音段现象。从发音机制上看，重音是通过加强肺部气流来实现的，因此它会改变重音音节中不同音素产生的听觉效果，比如送气辅音的气流会更长，而高元音会听起来更高，或低元音听起来更低。同时，由于气流增加，重音也会改变重音音节的声调，使其音高上升。比如，在上一部分日语的高低音声调的例子中，其实不同前后两个音节也有音强上的区别。

2.1.5.3　音长

音色、音高、音强和音长这四个辨识语音的因素中，在汉语唯一没有体现辨义作用的是音长。但在有些语言中，元音的长短构成不同的音素，并且在构词时能造成词义的区别。国际音标系统中长元音通常用元音后加冒号“：”表示，不加冒号的则是相对短的元音。英语中的［fi: l］“feel”和［fil］“fill”，［si: t］“seat”和［sit］“sit”，［fu: l］“fool”和［ful］“full”这几组语义截然不同的最小对立对（minimal pair）的主要差别就在其元音音长。

2.1.6　声学语音学

声学语音学研究的是语音的声学特征，也就是从声波的频率、振幅、时长等物理属性对语音进行描述和分析。

声学语音学的发展离不开各种现代科学仪器和精密测量技术的推动。1877年，爱迪生发明了留声机，意味着转瞬即逝的声音终于可以被记录下来，并且可以不断地回放重听。到了20世纪，声音的图像化手段开始陆续出现。示波器以波形图（sound waveform）的形式记录声音，而声谱仪（1945年美国贝尔公司发明）则能直接把声波信息转为频谱图（spectrogram），提供更多有用的信息。

图2.3是一个英文语音片段的频谱图（上）和波形图（下），图2.4是元音/a/（左）和塞音/s/（右）的波形图。波形图和频谱图的横轴都是时间轴，通过查看中间的音素标注行，可以发现每个音素对应的波形和频谱都有较为明显的特征。

图2.3　一个英文语音片段的频谱图（上）和波形图（下）⁽⁵⁾

图2.4　0.016秒的元音/a/（左）和塞音/s/（右）的波形图⁽⁶⁾

波形图直观地表现了语音的声波能量（频率、振幅）。波形图的纵轴（幅值）对应的是声音的响亮度（因此有音素的另一种分类方法：响音和阻音，也就是把发音时声带颤动的辅音归为响音）。在图2.3的波形图中我们可以看出：元音声波的振幅最大，边通音/l/和鼻音/n/次之，塞音/d, g/和擦音/z/最弱。如果把波形图放大来看，会发现元音的声波具有稳定的频率和周期，而声带不颤动的辅音则显得杂乱无章。波形图的横轴（时间）显示的是声波能量在时间轴上爆发的形态。因此，波形图可以帮助我们大致地判断音素的类别，但却无法做到精确的描述。

而频谱图则包含非常丰富的信息。频谱图是由声波信息经傅里叶变换处理而生成的。简单地讲，波形图所体现的声波其实是不同频率的波的叠加，而傅里叶变换则可以把这些不同频率的波分离出来。频谱图的横轴同样是时间，但纵轴代表的是不同频率上的波的幅值——纵轴越往上，代表波的频率越高；坐标中的点颜色越深，则代表该频率的波能量越大。这些能量较强的波在时间轴上的延伸形成了横向黑带，每一条黑带称为一个共振峰（formant）。

共振峰之所以产生，是因为声音在经过共振腔时受到了腔体的滤波作用，频域中不同频率的能量被重新分配，一部分因为共振腔的共振作用得到强化，另一部分则受到衰减。由于能量分布不均匀，强的部分犹如山峰一般，故而称之为共振峰。不同的音素由于其发音部位的不同，会形成各异的共振峰，因此共振峰可以用来判断和分析音素。语音频谱图中（如图2.5上图）往往存在多个共振峰。我们可以利用软件对共振峰数值进行划线测量，但大部分语音处理软件都可以自动分析并给出不同共振峰的数值。图2.5下图就是语音处理软件Praat以红点的方式标注出来的几个共振峰。最靠近下方的红点组成的线，也就是频率最低的共振峰，被称为第一共振峰f1；以此类推，第二低的是第二共振峰 f2，第三低的是第三共振峰 f3。

一般来讲，元音仅靠f1和f2便可进行区别判断。图2.5中，f1从低到高是/i/＜/u/ ＜/a/，其中/i, u/的数值非常接近，它们的数值都远小于/a/。f2从高到低是/i/ ＞ /a/ ＞ /u/，其中/i/的数值要远高于/a, u/。事实上，f1的数值代表的是舌位的高低，数值越小，舌位越高；f2代表的是舌位的前后，数值越大，舌位越靠前。

相比元音的声学分析，辅音声学要复杂得多。本文节选了经典的语音学课本——赖福吉的《语言学教程》中关于辅音声学的内容供读者入门。对声学语音学感兴趣的读者，可进一步参阅Stevens（1998）的《声学语音学》⁽⁷⁾，这本著作整合并发展了五十年的声学语言学的研究，对各种元音和辅音都做出了前无古人后无来者的详细分析。关于汉语的声学语音学研究，则可参阅《实验语音学概要》⁽⁸⁾。

/a/　　　/i/　　　/u/

图2.5　普通话的/a, i, u/频谱图⁽⁹⁾

2.1.7　听觉语音学

听觉语音学（或称感知语音学）与发音语音学恰好相对，研究的是人们如何接收并处理语音信息，包括人的听觉器官的结构、听觉功能实现的机制、听觉器官与大脑神经元之间信号的传递和转换等等，与人体生理学和神经科学更为相关。本章在此便不多做介绍，感兴趣的读者可参阅《实验语音学概要》中的相关章节。

第二章 语音学

2.1 导引

2.1.1 语音概说

2.1.2 发音语音学

2.1.3 音素

2.1.3.1 辅音

2.1.3.2 元音

2.1.4 音节

2.1.5 超音段特征

2.1.5.1 声调

2.1.5.2 重音

2.1.5.3 音长

2.1.6 声学语音学

2.1.7 听觉语音学