语音识别的原理 中国科学院附属实验学校 崔东伟
语音识别的原理 中国科学院附属实验学校 崔东伟
引言 ·同学们好,人工智能技术中的语音识别技术在生 活中的应用非常广泛,如果电灯、电视机、门窗、 水龙头都能听我们的话,让它开它就开,让它关 它就关,是不是很方便呢?今天我们就一起来学 习语音识别的原理,探索语音识别的奥秘
引言 •同学们好,人工智能技术中的语音识别技术在生 活中的应用非常广泛,如果电灯、电视机、门窗、 水龙头都能听我们的话,让它开它就开,让它关 它就关,是不是很方便呢?今天我们就一起来学 习语音识别的原理,探索语音识别的奥秘
语音识别 ·思考:语音识别是将人类语音中的词汇内容转换为计算机可 读的输入的技术。当声音识别后,记录下来的是音频,就是 一系列高高低低的频率。那么这一系列频率都和什么有关? 声音的特性图 说明声音的特征 识别中会有哪些影响 声音的响度和整体声音的大 声音的大小 小有关 和声波整体的幅度有关 有人说话音高,有人说话音 低,和声音的频率有关,乐 声音的频率 器不同的音调也体现在不同 的频率上
语音识别 • 思考:语音识别是将人类语音中的词汇内容转换为计算机可 读的输入的技术。当声音识别后,记录下来的是音频,就是 一系列高高低低的频率。那么这一系列频率都和什么有关?
h 语音识别的基本过程 特征向量 语音 特征提取 解码器 词语 声学模型 发音字典 语言模型
语音识别的基本过程
8 人类识别语音的过程 听到命令 耳朵 1听懂命令 +大脑 1 做出反应→」嘴、手等
人类识别语音的过程
语音识别的原理 1.分帧 ·一整段声波电脑是无法直接 把整段声波分成帧为单位的声波 处理的,需要分成一小段一 小段的进行处理,每一小段 为一个帧,相当于把整理流 动的声音切成一片一片的样 子。如果分帧过细会需要很 大的计算量,分帧过粗的话 懒一态流中最小的单,通常每懒时长为25毫粉。5秒的声 波可提取出200慎的声波, 则会损失声音细节
语音识别的原理 • 1. 分帧 • 一整段声波电脑是无法直接 处理的,需要分成一小段一 小段的进行处理,每一小段 为一个帧,相当于把整理流 动的声音切成一片一片的样 子。如果分帧过细会需要很 大的计算量,分帧过粗的话 则会损失声音细节
语音识别的原理 ·2.提取特征值 ·把每一帧识别为一个状态,其实状态就是由若干特征向量 组合而成的,这些特征值经过组合能够表现出这一段音频 的有效信息,就可以组成一个音素。 一帧声波 提取 特征向量一每一帧声波可提取出多组特 征向量
语音识别的原理 • 2. 提取特征值 • 把每一帧识别为一个状态,其实状态就是由若干特征向量 组合而成的,这些特征值经过组合能够表现出这一段音频 的有效信息,就可以组成一个音素
语音识别的原理 ·3.声学模型 ·把若干帧中的特征值组合成音素的过程,就用到了声音的 声学特性,不同语言的声学特性是不同的。汉语的音素就 包含了声母和韵母。 导入 声学模型 生成 0 特征向量
语音识别的原理 • 3. 声学模型 • 把若干帧中的特征值组合成音素的过程, 就用到了声音的 声学特性, 不同语言的声学特性是不同的。汉语的音素就 包含了声母和韵母
语音识别的原理 ·4.发音字典 •声学模型生成的音素通过发音字典生成最大概率的字。 可能的字为:早、我、草、少… 导入 少 000 可能的字为:上、桑、苍、赏… 生成 找 可能的宇为:好、洁、做、娇… 赏 苍 音素 可能的宇为:啊、哈、扎、洒… 发音字典 苍
语音识别的原理 • 4. 发音字典 • 声学模型生成的音素通过发音字典生成最大概率的字
语音识别的原理 ·5.语言模型 ·音素组合成语言的形式,就要用到语言模型,要考虑到不 同语言的特点,要和发音字典进行比对。根据语法规则, 生成词语或句子。 早桑娇哈 桑 找上徵洒 排序匹配 草苍浩啊 早上好啊 赏 苍 早上好啊 计算机可 读的文本 草 好 语言模型
语音识别的原理 • 5. 语言模型 • 音素组合成语言的形式,就要用到语言模型,要考虑到不 同语言的特点,要和发音字典进行比对。根据语法规则, 生成词语或句子