什么是语音识别技术
在下述的内容中,小编将会对语音识别技术的相关消息予以报道,如果语音识别技术是您想要了解的焦点之一,不妨和小编共同阅读这篇文章哦。
一、什么是语音识别技术
语音识别技术,也被称为自动语音识别(Automatic Speech Recognition,ASR),其目标是将人类的语音中的词汇内容转换为计算机可读的输入,例如按键、二进制编码或者字符序列。与说话人识别及说话人确认不同,后者尝试识别或确认发出语音的说话人而非其中所包含的词汇内容。
语音识别技术属于人工智能方向的一个重要分支,涉及许多学科,如信号处理、计算机科学、语言学、声学、生理学、心理学等,是人机自然交互技术中的关键环节。语音识别较语音合成而言,技术上要复杂,但应用却更加广泛。语音识别ASR的最大优势在于使得人机用户界面更加自然和容易使用。
语音识别是涉及心理学、生理学、声学、语言学、信息理论、信号处理、计算机科学、模式识别等多个学科的交叉学科,具有广阔的应用前景,如语音检索、命令控制、自动客户服务、机器自动翻译等。当今信息社会的高速发展迫切需要性能优越的,能满足各种不同需求的自动语音识别技术。但是,这样的目标面临着诸多困难,如:①语音信号会受 到上下文的影响而发生变化;②发音人以及口音的不同会导致语音特征在参数空间分布的不同;③同一发音人心理和生理变化带来的语音变化;④不同的发音方式和习惯引起的省略、连读等多变的语音现象;⑤环境和信道等因素造成的语音信号失真问题。
对于自动语音识别的探索,实际是早于计算机的出现的,早期的声码器可以看作是语音合成和识别技术的雏形,20世纪20年代出现的“Radio Rex”玩具狗也许是人类历史上最早的语音识别机。现代自动语音识别技术可以追溯到上世纪50年代贝尔实验室的 研究员使用模拟元器件,提取分析元音的共振峰信息,实现了十个英文孤立数字的识别功能。到了50年代末,统计语法的概念被伦敦大学学院的研究者首次加入到语音识别中(Fry,1959),具有识别辅音和元音音素功能的识别器问世。在同一时期,用于特定环境中面向非特定人10个元音的音紊识别器也在麻省理工大学的林肯实验室被研制出来。概率在不确定性数据管理中扮演重要角色,但多重概率的出现也极大的加大了数据处理的繁杂度。
二、语音识别系统包含哪些部分
(1)语音输入的预处理模块
对输入的原始语音信号进行处理,滤除掉其中的不重要信息以及背景噪声,并进行语音信号的端点检测(也就是找出语音信号的始末)、语音分帧(可以近似理解为,一段语音就像是一段视频,由许多帧的有序画面构成,可以将语音信号切割为单个的“画面”进行分析)等处理。
(2)特征提取
在去除语音信号中对于语音识别无用的冗余信息后,保留能够反映语音本质特征的信息进行处理,并用一定的形式表示出来。也就是提取出反映语音信号特征的关键特征参数形成特征矢量序列,以便用于后续处理。
(3)声学模型训练
声学模型可以理解为是对声音的建模,能够把语音输入转换成声学表示的输出,准确的说,是给出语音属于某个声学符号的概率。根据训练语音库的特征参数训练出声学模型参数。在识别时可以将待识别的语音的特征参数与声学模型进行匹配,得到识别结果。目前的主流语音识别系统多采用隐马尔可夫模型HMM进行声学模型建模。
(4)语言模型训练
语言模型是用来计算一个句子出现概率的模型,简单地说,就是计算一个句子在语法上是否正确的概率。因为句子的构造往往是规律的,前面出现的词经常预示了后方可能出现的词语。它主要用于决定哪个词序列的可能性更大,或者在出现了几个词的时候预测下一个即将出现的词语。它定义了哪些词能跟在上一个已经识别的词的后面(匹配是一个顺序的处理过程),这样就可以为匹配过程排除一些不可能的单词。
语言建模能够有效的结合汉语语法和语义的知识,描述词之间的内在关系,从而提高识别率,减少搜索范围。对训练文本数据库进行语法、语义分析,经过基于统计模型训练得到语言模型。
(5)语音解码和搜索算法
解码器是指语音技术中的识别过程。针对输入的语音信号,根据己经训练好的HMM声学模型、语言模型及字典建立一个识别网络,根据搜索算法在该网络中寻找最佳的一条路径,这个路径就是能够以最大概率输出该语音信号的词串,这样就确定这个语音样本所包含的文字了。所以,解码操作即指搜索算法,即在解码端通过搜索技术寻找最优词串的方法。
以上便是小编此次带来的有关语音识别技术的全部内容,十分感谢大家的耐心阅读,想要了解更多相关内容,或者更多精彩内容,请一定关注我们网站哦。