本篇文章3356字,读完约8分钟
雷锋。作者牛建伟,地平线语音算法工程师。我毕业于西北工业大学,获得硕士学位。我曾经是百度语音技术部的高级工程师。主要工作方向是语音识别中声学模型的算法开发和优化,并负责声学模型和产品优化中深度学习技术的应用。参与百度最早的深度学习系统的研发,负责语音搜索、语音输入法等产品的优化;后来,他负责百度的嵌入式语音开发,他的离线语音识别性能超过了竞争产品。目前,地平线机器人语音识别算法工程师正深入参与地平线安徒生智能家居平台的研发。
声学模型
近年来,语音技术已经开始改变我们的生活和工作方式。对于一些嵌入式设备来说,语音已经成为人机交互的主要方式。这一趋势的原因首先是计算能力的不断提高,高计算能力设备如通用图形处理器的发展,这使得训练更复杂和更强大的声学模型(AM)成为可能,以及高性能嵌入式处理器的出现,这使得使用语音识别作为终端成为可能。
声学模型是人工智能领域的几种基本模型之一,基于深度学习的声学模型的发展对人工智能的拓展和交互模式的扩展具有重要意义。本期丹尼尔报告厅,我们邀请了算法工程师牛建伟,地平线的声音,给你做一个关于什么是声学模型的报告。
自动语音识别
自动语音识别作为一个研究领域已经发展了50多年。这项技术的目标是利用语音识别作为桥梁,使人和机器之间的交流更加顺畅。然而,语音识别技术在过去并没有真正成为人机交流的一种重要形式,部分原因是当时技术的落后,并且语音技术在大多数实际用户场景中并不可用;另一个原因是,在许多情况下,使用键盘和鼠标进行交流比语音更有效、更准确、限制更少。
近年来,语音技术已经开始改变我们的生活和工作方式。对于一些嵌入式设备来说,语音已经成为人机交互的主要方式。这一趋势的原因:
首先,计算能力的不断提高和高计算能力设备(如通用gpu)的发展使得训练更复杂和更强大的声学模型(AM)成为可能,而高性能嵌入式处理器的出现使得使用语音识别终端成为可能。
其次,借助几乎无处不在的互联网和不断发展的云计算,我们可以获得海量的语音数据资源,真实的场景数据使得语音识别系统更加健壮;
最后,移动设备、可穿戴设备、智能家居设备和车载信息娱乐系统越来越受欢迎。在这些设备上,语音交互已经成为一种不可避免的交互方式。
语音识别的基本组成部分
语音识别系统主要由四部分组成:信号处理和特征提取、声学模型、语言模型和解码器。
信号处理和特征提取部分将音频信号作为输入,通过消除噪声和信道失真来增强语音,将语音信号从时域转换到频域,并提取适合以下声学模型的特征。声学模型集成了声学和语音学知识,并将特征提取模块提取的特征作为输入,生成声学模型分数。
语言模型估计通过重新训练单词之间的相互概率来估计假设单词序列的概率,即语言模型得分。如果我们知道领域或任务的先验知识,通常可以更准确地估计语言模型的得分。解码器计算给定特征向量序列和几个假设单词序列的声学模型分数和语言模型分数,并将具有最高总输出分数的单词序列作为识别结果。
关于声学模型,主要存在两个问题,即特征向量序列的可变长度和音频信号的丰富可变性。在学术上,变长特征向量序列问题通常通过动态时间扭曲和隐马尔可夫模型来解决。
然而,音频信号的丰富可变性是由说话者的各种复杂特征或因素如说话风格和速度、环境噪声、通道干扰、方言差异等造成的。声学模型需要足够的鲁棒性来处理上述情况。
在过去,主流语音识别系统通常使用梅尔频率倒谱系数(MFCC)或感知线性预测(plp)作为特征,而gmm-hmm作为声学模型。近年来,判别模型,如深度神经网络,在声学特征建模方面显示出较好的效果。基于深层神经网络的声学模型,如上下文相关的深层神经网络-隐马尔可夫模型(cd-dnn-hmm),在语音识别领域已经大大超过了gmm-hmm模型。
首先介绍了传统的gmm-hmm声学模型,然后介绍了基于深层神经网络的声学模型。
传统声学模型
Hmm对时间序列信息进行建模,gmm对属于给定hmm状态的语音特征向量的概率分布进行建模。
1.高斯混合模型
如果连续随机变量服从混合高斯分布,其概率密度函数为:
高斯混合模型分布最明显的特性是它的多模性,这使得高斯混合模型可以描述许多具有多模特性的房屋数据,如语音数据,但单一的高斯分布是不合适的。数据的多模态特性可能来自许多潜在的因素,每一个因素都决定了分布中特定的混合成分。如果这些因素被识别,混合分布可以被分解成具有多个因素的独立分布的集合。
然后将上述公式推广到多元高斯混合分布,即语音识别中使用的高斯混合模型。其联合概率密度函数的形式如下:
在得到高斯混合模型的形式后,需要估计高斯混合模型的一系列参数变量:我们主要使用期望最大化算法进行参数估计,公式如下:
其中j是当前迭代循环的次数,是时间t的特征向量,Gmm参数由em算法估计,它可以最大化在训练数据上生成语音观察特征的概率。此外,只要有足够的高斯分布,gmm模型就能以任意精度拟合概率分布。
2.隐马尔可夫模型
为了描述语音数据,对马尔可夫链进行了扩展,用一个观察到的概率分布来对应马尔可夫链上的每个状态,这就引入了双重随机性,使得马尔可夫链不能被直接观察到,所以称之为隐马尔可夫模型。隐马尔可夫模型(HMM)可以描述不稳定但可以在语音信号中有规律地学习的空之间的变量。具体而言,隐马尔可夫模型具有按顺序排列的马尔可夫状态,这使得该模型能够分段处理短期平稳语音特征,并逼近全局非平稳语音特征序列。
隐马尔可夫模型主要由三部分组成。对于一系列状态
(1)转移概率矩阵,描述马尔可夫链状态之间的跳跃概率:
(2)马尔可夫链的初始概率,其中;
(3)各状态的观测概率分布。根据前一节的介绍,我们将使用gmm模型来描述每个状态的观测概率分布。在这种情况下,公式可以表示为:
隐马尔可夫模型的参数估计采用baum-welch算法(em算法在hmm上的扩展)。
cd-dnn-hmm
虽然gmm-hmm在过去已经取得了很大的成功,但是随着深度学习的发展,dnn模型在性能上已经明显超过了gmm模型,并取代了gmm用于hmm状态建模。与gmm模型不同,dnn模型引入上下文信息(即前后特征帧的信息)以获得更好的性能提升,因此被称为CD-DNN-HMM(上下文相关的DNN-HMM)。在许多测试集中,cd-dnn-hmm模型大大优于gmm-hmm模型。
首先,简要介绍了dnn模型。dnn模型是一个具有许多隐藏层的多层传感器。下图显示了具有五层的dnn。模型结构包括输入层、隐藏层和输出层。对于层,有一个公式:
其中,L层的输出向量、权重矩阵、输入向量和偏置向量分别表示;一般称为激活函数,常用的激活函数是sigmoid函数或整流器线性单元。通常,应用于语音识别的dnn模型使用softmax对模型的输出向量进行归一化。假设模型有L层,第一类的输出概率为:
与gmm模型相比,dnn模型有一些明显的优势:
首先,dnn是一个判别模型,它有自己的独特性,能更好地区分标签类别;
其次,dnn在大数据方面有着非常出色的表现。随着数据量的不断增加,gmm模型的性能将在2000小时左右达到饱和,而dnn模型在数据量增加到10000小时以上时仍能提高性能;
此外,dnn模型对环境噪声更加稳健。通过噪声训练,dnn模型在复杂环境下的识别性能甚至可以超过经过语音增强算法处理的gmm模型。
此外,dnn还有一些有趣的特性。例如,在一定程度上,随着dnn网络深度的增加,模型的性能会不断提高,这表明随着模型深度的增加,dnn可以提取更多的表达和分类特征;人们利用这一特性来提取dnn模型的瓶颈特征,然后训练gmm-hmm模型,可以达到与dnn模型相同的语音识别效果。
dnn在语音识别领域的应用取得了非常明显的效果。dnn技术的成功鼓励了业内人士不断将新的深度学习工具应用到语音识别中,从cnn到rnn,再到rnn和ctc的结合等等。通过这一过程,语音识别的性能不断提高,我们可以期待在未来与机器进行无障碍对话。
雷锋。搜索“雷锋”。注:本文由雷锋发表。如需转载,请联系原作者,注明作者和来源,不要删除内容。如果你感兴趣,你可以关注公共地平线机器人技术,并获得最新消息。