首页 > 技术 > ML/机器学习

语音识别技术包括哪些

人阅读 2024-04-25 05:23:07

今天,小编将在这篇文章中为大家带来语音识别技术的有关报道,通过阅读这篇文章,大家可以对语音识别技术具备清晰的认识,主要内容如下。

一、语音识别技术

语音识别技术,也被称为自动语音识别(Automatic Speech Recognition,ASR),其目标是将人类的语音中的词汇内容转换为计算机可读的输入,例如按键、二进制编码或者字符序列。与说话人识别及说话人确认不同,后者尝试识别或确认发出语音的说话人而非其中所包含的词汇内容。

语音识别技术属于人工智能方向的一个重要分支,涉及许多学科,如信号处理、计算机科学、语言学、声学、生理学、心理学等,是人机自然交互技术中的关键环节。语音识别较语音合成而言,技术上要复杂,但应用却更加广泛。语音识别ASR的最大优势在于使得人机用户界面更加自然和容易使用。

对于自动语音识别的探索,实际是早于计算机的出现的,早期的声码器可以看作是语音合成和识别技术的雏形,20世纪20年代出现的“Radio Rex”玩具狗也许是人类历史上最早的语音识别机。现代自动语音识别技术可以追溯到上世纪50年代贝尔实验室的 研究员使用模拟元器件,提取分析元音的共振峰信息,实现了十个英文孤立数字的识别功能。到了50年代末,统计语法的概念被伦敦大学学院的研究者首次加入到语音识别中(Fry,1959),具有识别辅音和元音音素功能的识别器问世。在同一时期,用于特定环境中面向非特定人10个元音的音紊识别器也在麻省理工大学的林肯实验室被研制出来。概率在不确定性数据管理中扮演重要角色,但多重概率的出现也极大的加大了数据处理的繁杂度。

二、语音识别技术包含哪些

语音识别技术主要包括以下几个方面:

信号处理。对语音信号进行分析处理,包括静音处理、噪音处理、语音增强等,以消除外部环境对语音的影响,去除多余信息。

声学特征提取。从处理后的语音信号中提取关键信息和表达语言含义的特征信息。

声学模型处理。声学模型是语音识别技术中最关键的部分,它提取语音特征矢量序列,计算发音模板的距离,生成声学模型分数。

语音模型技术。语音模型对语音识别技术也非常重要,通常采用的是统计语法的语音模型、语义和语法结构命令语言模型,对语法和语义进行分析,减少搜索空间,提高系统识别率。

模式识别和机器学习算法。包括动态时间规整(DTW)、支持向量机(SVM)、矢量量化(VQ)、隐马尔可夫模型(HMM)、高斯混合模型(GMM)、人工神经网络(ANN/BP)、深度神经网络/深信度网络-隐马尔科夫(DNN/DBN-HMM)、循环神经网络(RNN)、长短时记忆模块(LSTM)和卷积神经网络(CNN)等。

自然语言处理技术。与其他自然语言处理技术如机器翻译及语音合成技术相结合,可以构建出更加复杂的应用,例如语音到语音的翻译。

语音识别技术的主要应用包括语音拨号、语音导航、室内设备控制、语音文档检索、简单的听写数据录入等。

完整的语音识别系统技术包含:

1、信号处理技术

对语音信号进行分析处理,通过静音处理、噪音处理、语音增强等方法,消除外部环境对语音的影响,去除多余信息。

2、声学特征提取技术

接收信号处理后等到的有效信号,对波形进行声学特征提取,提取关键信息和表达语言含义的特征信息。

3、声学模型处理技术

声学模型是语音识别技术中最关键的部分,它可以提取语音特征矢量序列,计算发音模板的距离,生成声学模型分数。

4、语音模型技术

语音模型对语音识别技术也非常的重要,通常采用的是统计语法的语音模型、语义和语法结构命令语言模型为主,对语法和语义进行分析,减少搜索空间,提高系统识别率。

上述所有信息便是小编这次为大家推荐的有关语音识别技术的内容,希望大家能够喜欢,想了解更多有关它的信息或者其它内容,请关注我们网站哦。

LOT物联网

iot产品 iot技术 iot应用 iot工程

Powered By LOT物联网  闽ICP备2024036174号-1

联系邮箱:support1012@126.com