图像、文字、语音与人工智能（PPT课件讲稿）语音识别的原理

团购合买资源类别：文库，文档格式：PPT，文档页数：13，文件大小：4.21MB

语音识别的原理中国科学院附属实验学校崔东伟

引言 ·同学们好，人工智能技术中的语音识别技术在生活中的应用非常广泛，如果电灯、电视机、门窗、水龙头都能听我们的话，让它开它就开，让它关它就关，是不是很方便呢？今天我们就一起来学习语音识别的原理，探索语音识别的奥秘

引言 •同学们好，人工智能技术中的语音识别技术在生活中的应用非常广泛，如果电灯、电视机、门窗、水龙头都能听我们的话，让它开它就开，让它关它就关，是不是很方便呢？今天我们就一起来学习语音识别的原理，探索语音识别的奥秘

语音识别 ·思考：语音识别是将人类语音中的词汇内容转换为计算机可读的输入的技术。当声音识别后，记录下来的是音频，就是一系列高高低低的频率。那么这一系列频率都和什么有关？声音的特性图说明声音的特征识别中会有哪些影响声音的响度和整体声音的大声音的大小小有关和声波整体的幅度有关有人说话音高，有人说话音低，和声音的频率有关，乐声音的频率器不同的音调也体现在不同的频率上

语音识别 • 思考：语音识别是将人类语音中的词汇内容转换为计算机可读的输入的技术。当声音识别后，记录下来的是音频，就是一系列高高低低的频率。那么这一系列频率都和什么有关?

h 语音识别的基本过程特征向量语音特征提取解码器词语声学模型发音字典语言模型

语音识别的基本过程

8 人类识别语音的过程听到命令耳朵 1听懂命令 +大脑 1 做出反应→」嘴、手等

人类识别语音的过程

语音识别的原理 1.分帧 ·一整段声波电脑是无法直接把整段声波分成帧为单位的声波处理的，需要分成一小段一小段的进行处理，每一小段为一个帧，相当于把整理流动的声音切成一片一片的样子。如果分帧过细会需要很大的计算量，分帧过粗的话懒一态流中最小的单，通常每懒时长为25毫粉。5秒的声波可提取出200慎的声波，则会损失声音细节

语音识别的原理 • １. 分帧 • 一整段声波电脑是无法直接处理的，需要分成一小段一小段的进行处理，每一小段为一个帧，相当于把整理流动的声音切成一片一片的样子。如果分帧过细会需要很大的计算量，分帧过粗的话则会损失声音细节

语音识别的原理 ·2.提取特征值 ·把每一帧识别为一个状态，其实状态就是由若干特征向量组合而成的，这些特征值经过组合能够表现出这一段音频的有效信息，就可以组成一个音素。一帧声波提取特征向量一每一帧声波可提取出多组特征向量

语音识别的原理 • ２. 提取特征值 • 把每一帧识别为一个状态，其实状态就是由若干特征向量组合而成的，这些特征值经过组合能够表现出这一段音频的有效信息，就可以组成一个音素

语音识别的原理 ·3.声学模型 ·把若干帧中的特征值组合成音素的过程，就用到了声音的声学特性，不同语言的声学特性是不同的。汉语的音素就包含了声母和韵母。导入声学模型生成 0 特征向量

语音识别的原理 • ３. 声学模型 • 把若干帧中的特征值组合成音素的过程，就用到了声音的声学特性，不同语言的声学特性是不同的。汉语的音素就包含了声母和韵母

语音识别的原理 ·4.发音字典 •声学模型生成的音素通过发音字典生成最大概率的字。可能的字为：早、我、草、少… 导入少 000 可能的字为：上、桑、苍、赏… 生成找可能的宇为：好、洁、做、娇… 赏苍音素可能的宇为：啊、哈、扎、洒… 发音字典苍

语音识别的原理 • ４. 发音字典 • 声学模型生成的音素通过发音字典生成最大概率的字

语音识别的原理 ·5.语言模型 ·音素组合成语言的形式，就要用到语言模型，要考虑到不同语言的特点，要和发音字典进行比对。根据语法规则，生成词语或句子。早桑娇哈桑找上徵洒排序匹配草苍浩啊早上好啊赏苍早上好啊计算机可读的文本草好语言模型

语音识别的原理 • ５. 语言模型 • 音素组合成语言的形式，就要用到语言模型，要考虑到不同语言的特点，要和发音字典进行比对。根据语法规则，生成词语或句子

点击下载完整版文档（PPT格式）

共13页，试读结束，阅读完整版请下载

点击下载（PPT格式）

浏览记录