本篇文章10528字,读完约26分钟
雷锋网(搜索“雷锋网”(搜索“雷锋网”公共号码关注)“公共号码关注”)出版社:本文是从腾讯Youtu转来的,重点介绍主流的声纹识别技术。
声纹识别,也称为说话人识别,是一种通过声音识别说话人的技术。从直觉上讲,虽然声纹不如人脸和指纹的个体差异直观,但每个人的声道、口腔和鼻腔都有个体差异,所以声音也有差异。如果把口腔看作是声音的传递者,那么作为接受者的人耳也就天生具有辨别声音的能力。
最直观的事情是,当我们打电话回家时,我们会说“你好?”它能准确区分是父母还是兄弟姐妹接电话。这种声音所携带的说话人身份信息的独特性,使得声纹作为人脸和指纹等生物信息识别技术的新生力量,辅助甚至取代了传统的数字符号密码,在安全和个人信息加密领域发挥着重要作用。本文旨在与读者分享声纹识别的主流技术和Youtu Lab在声纹识别研究与开发方面取得的成果,希望读者对声纹识别有一个基本而全面的了解,声纹识别结合了语音信号处理和模式识别,具有理论研究和工程背景。
1.从云中看太阳——声波纹的基本“姿势”。我们经常用“甜言蜜语”来形容一个嘴巴不可靠的人,但事实上,这个成语也非常适合用来形容声音信号。人脸和指纹是基于图像的二维信号,而语音是时变的一维信号。言语首先承载语义信息,即我们所说的,而身份信息则反映在语义信息的背后。我们所说的可以对应数百个单词和信息,但背后只有一个不变的身份。
图1。对应于“四”的扬声器A的语音波形
图2。对应“四”的说话人乙的语音波形
图3。对应于“九”的扬声器A的语音波形
如果上面的时域波形不够直观,那么下面的短时谱图可以从二维图像的角度提供更直观的信息。图1和图2之间的相似性似乎更高。因为图3对应于不同的语义,所以图1和图2之间的区别更加明显。但事实上,图1和图3来自同一个扬声器。根据要求,1和3应该归入同一类别!这似乎有点困难,所以我们不要比较九,只比较四…
因此,从语音词典是否有限来看,声纹识别可以分为文本无关识别和文本相关识别。顾名思义,与文本无关意味着系统不限制输入语音的内容,识别系统应该能够克服语音中词典信息(或语义信息)的可变性和差异性,对语音背后的身份做出准确判断;文本相关识别意味着我们将预先限制语音词典集的规模。
有两种常用的应用场景:一种是固定密码,用户必须说“天王盖地虎”,系统就会识别出声纹。你说“宝塔镇河妖”,对不起,不管你是谁,都不会起作用;另一种是有限搭配的字典集,系统随机搭配一些数字或符号,用户需要正确阅读相应的内容才能识别声纹。随机性的引入使得文本相关识别中采集的声纹具有不同的时间序列。
与指纹、人脸等静态图像特征相比,数字序列的随机性无疑提高了安全性和防盗能力。Youtu Lab开发的随机数字声纹识别方案已应用于在线系统。通过自主研发的人脸识别、活体检测和语音+声纹多重验证方法,最大限度地保证了用户的安全,杜绝了伪造、窃取或复制用户自身生物信息的可能性。
图4:游图面核示意图
与文本相关的识别限制了可选的词典信息,因此其系统复杂度和识别精度远远优于与文本无关的系统,而声纹识别只能通过采集相对较短的语音来实现;然而,与文本无关的识别系统也将在一些领域发挥重要作用,如刑事侦查比对。我们可以收集嫌疑人的声音,但不能限制声音对应的内容。此时,与文本无关的识别将非常有用。
在过去的20年里,大部分学术研究都集中在更具挑战性的文本无关识别(科学家の精神…)上,围绕文本无关识别也取得了突破。自20世纪90年代以来,美国国家标准与技术研究所(nist)不定期地举行了speaker recognition evaluation(NIST sre)[1],它也评估文本无关的识别,吸引了许多来自学术界和工业界的重量级团队。
2014年,新加坡i2r实验室在语音领域的学术活动“散点”上发布了一套用于评估文本相关识别的标准数据集rsr2015,涵盖了文本相关领域的许多应用场景[2]。此后,与文本相关的识别研究逐渐增多,近年来的热门“深度学习”也是第一个在与文本相关的识别方面取得重大突破的[3]。这里没有必要扩展太多。感兴趣的读者可以参考主要学术数据库的资源或与我们的团队交流。
就识别场景而言,声纹识别可以分为两种不同的应用场景:说话人识别(si)和说话人验证(sv): si意味着我们有一个要测试的语音,我们需要将这个语音与我们知道的一组说话人进行比较,并选择最佳匹配的说话人。
这方面的应用案例是刑事侦查比较。需要将秘密收集的嫌疑人(其身份未知)的声音与几个可能的嫌疑人的身份进行比较。如果选择最相似的一个,我们可以认为收集到的声音很大程度上来自被锁定的嫌疑人,si是一对多的区分问题;Sv意味着我们只有一个目标身份。对于一个未知的语音,我们只需要判断这个语音是否来自这个目标用户。sv本质上是一个一对一的二元分类问题。这方面的典型应用是手机上的声纹锁定或声纹验证工具。对于经过验证的声音,系统只需回答“通过”或“拒绝”。然而,声纹可以被间接分解成多个支持向量机,因此声纹识别系统的性能评估大多是在支持向量机模式下进行的。
2.动中取静——从离散信号到特征
如前所述,声纹是可以识别的,因为每个人的嘴、鼻腔和声道的结构都有独特的差异,但这种差异既看不见也摸不着。更重要的是,它是一个一直在运动的器官结构。我们只能通过录音设备采集的离散语音信号间接分析发声器官的差异。
既然发音一直在变,我们怎么分析它呢?答案是:语音有一个很好的属性,叫做短期平稳性。在20-50毫秒的范围内,语音可以被视为良好的周期性信号。
图5:从图1中说话者“四”的话语中截取的长度为30毫秒的信号。
这种良好的平稳性为我们在信号处理层面分析语音提供了极大的便利。读者应该还记得,在音调、响度和音色的三个基本属性中(注意,这里我用声音代替声音),音色是最能反映一个人身份信息的属性(可以合理地说,当妻子对你大喊大叫时,响度和音色都可以迅速飙升,但妻子的音色不可能发生显著变化)。
在信号处理的层面上,音色的差异可以表示为频域中不同频段的能量差异。因此,通过提取不同频带的能量值,我们可以表达在这个短时语音范围内的频谱特性。一般来说,我们将综合考虑人耳的听觉属性(人耳的听觉属性之一在听觉频带中,其对低频的变化更敏感,但对高频的变化不太敏感),平衡不同频带的能量差(对于在8千赫采样的一段音频,尽管语音将分布在0-4千赫的范围内, 能量更集中在相对较低的频率区域)、噪声鲁棒性(我们希望特征仅对语音变化敏感,而其他噪声等无关信息不变,后续计算方便(系数之间的相关性应尽可能去除),设计合适的短时声学特征。 通过一系列复杂的信号处理变换,长度为20-50毫秒的语音(以8khz采样为例,该长度的语音对应于160-400个采样点)可以映射到39-60维的向量。为了在不增加计算负担的情况下完全保留语音中的原始信息,短期语音通常以15-20毫秒的间隔轮流进行,然后提取特征。
图6:短时声学特征的提取
在包括语音识别在内的声纹识别领域,传统的声学特征包括近年来逐渐引起人们关注的梅尔倒谱系数mfcc、感知线性预测系数plp、深度特征[4]和15年来发表的能量正则谱系数pncc[5]等。所有这些都可以用作特征提取中的可选声学特征,并且在声纹识别中表现良好。
总之,一个语音被映射到时间轴上的一系列向量集,并且这些向量集可以在一些规则操作之后变成反映语音特征的特征集。然而,仅靠这些特征集很难达到声纹识别的目的。声学特征可以理解为在时间轴上为声道拍摄的一系列快照,其直接映射语义内容。如何从一堆变化的特征中提取不变的身份特征?接下来,是时候让统计建模发挥它的威力了。
3.化繁为简——声纹模型的进化路径
既然我们想让计算机识别用户的声纹,我们必须首先让计算机“知道”用户的身份。下图显示了典型声纹识别系统的框架:
图7:典型的说话人验证系统流程图
声纹识别系统是模式识别的典型框架。为了让计算机识别用户的身份,目标用户需要首先提供一个训练语音。在诸如特征提取和模型训练的一系列操作之后,该语音将被映射到用户的声纹模型。在验证阶段,身份未知的语音经过一系列运算后将被映射到测试特征中,测试特征与目标模型经过一定的相似度计算后得到置信度得分。这个分数通常与我们手动设置的期望值进行比较。如果高于该期望值,我们认为测试语音对应的身份与目标用户的身份匹配,并通过验证;否则,拒绝测试标识。因此,识别性能的关键在于能够对语音中的身份信息进行建模和区分,同时对其他与身份无关的信息具有足够的抗干扰能力和鲁棒性。
虽然每个人的发音看起来都在不断变化,但并不是完全不规则的。虽然我们每天说很多话,但最多只有几千个常用词;此外,我们不能发出与国内富裕财富同样的声音。这也导致了声纹识别,这也是传统语音识别框架下的一个合理假设:将语音分割成音素,狭义的现代汉语只需要32个音素。
如果我们考虑到每部手机的形状会受到前后部手机的影响,构建一个三部手机模型,最多只会有几千个可供选择的三部手机(这不是简单的32立方,我们还会删除一些根本不会出现的罕见搭配),而不同扬声器的三部手机样本可能会出现在空,尽管有明显的差异。受这些语音特性和相应声学特征的启发,dareynolds于1995年首次成功地将gaussianmixturemodel (gmm)应用于文本无关的声纹识别任务。此后20多年,gmm奠定了其作为声纹识别基础的地位,声纹的后续发展和演变都是在gmm的基础上得到完善和拓展的。
在继续深入理解建模之前,我们有必要阐明声纹识别,或者缩小范围,阐明与文本无关的声纹识别任务。它的困难是什么?如上所述,声纹识别是一个既有理论研究价值又有工程应用背景的领域。声纹的难点主要在以下几个方面:
如何挖掘语音变异背后不变的身份信息?
在实际应用中,从用户体验和成本的角度来看,目标用户能够收集的语料极其有限(根据学术定义,实际可用的语音是稀疏的),因此如何在有限的数据中完成稳定的建模和识别。
对于同一个用户,即使采集到的两个语音内容相同,由于情感、语速、疲劳等原因,语音也会有所不同。如何补偿说话者自己的声音差异?
声音是由录音设备收集的。不同类型的录音设备会造成一定程度的失真。同时,由于背景环境和传输渠道的不同,也会对语音信息造成不同程度的破坏。一般来说,这些对声音的外部影响在研究中被称为通道可变性。对于我们来说,很难为每一个声道效果开发一个专门的声纹识别系统,那么如何补偿由声道可变性引起的干扰呢?
在澄清了需要解决的问题之后,让我们再来看看gmm。它有什么优点?首先,什么是gmm?它是大量形状不确定的高斯分量的加权组合。研究表明,当高斯混合模型中有足够多的高斯分量时,高斯混合模型可以模拟任意的概率分布。
图8:我们只用了七个葫芦娃娃来装一座山(画画太累了,你理解一下就好了_(| 3“;)_)
从模式识别的定义来看,gmm是一个参数化的生成模型,它对实际数据有很强的表示能力。另一方面,广义矩量法的规模越大,其代表性越强,其负面影响越明显:参数的规模将成比例地扩大,因此需要更多的数据来驱动广义矩量法的参数训练,以得到更一般(或广义)的广义矩量法模型。
假设对维度为50的声学特征进行建模,gmm包含1024个高斯分量,多维高斯的协方差简化为对角矩阵,gmm要估计的参数总数为1024(高斯分量的总权重数)+1024×50(高斯分量的总均值数)+1024×50(高斯分量的总方差数)=103424,超过100,000)!
这个尺度的变量,更不用说目标用户几分钟的训练数据,即使目标用户的训练数据增加到几个小时,也远远不能满足gmm的全部训练要求,数据的匮乏容易使gmm陷入过度拟合的陷阱,导致泛化能力急剧下降。因此,尽管gmm最初在小规模文本无关数据集上表现出超出传统技术框架的性能,但它远远不能满足实际场景的需要(毕竟,它已经有95年的历史了...)。
时间到了2000年左右,达伦约斯的团队仍然提出了一个改进方案:由于无法从目标用户那里收集到足够多的声音,我们可以用另一种思维方式从其他地方收集大量非目标用户的声音,许多事情加起来就是这样。我们混合这些非目标用户的数据(在声纹识别领域被称为背景数据)来完全训练gmm,它可以被认为是声音的表示,但是因为,
它有什么用?
学术界的人会告诉你:从贝叶斯框架的角度来看,四个不同的gmm可以看作是一个特定说话人模型的先验模型。例如,形象意味着你准备去相亲,媒人给你看小李的照片,小李所有可能的温柔声音都出现在你的耳边,而不是你家繁荣的哭喊声。
这种混合gmm扮演着类似的角色。它给出了空.语音特征分布概率模型的一个很好的预估计我们不必像过去那样从头开始计算gmm参数(gmm参数估计是一种称为em的迭代估计算法)。我们只需要根据目标用户的数据来微调这个混合gmm的参数,以估计实现目标用户的参数。这个混血儿
ubm的一个重要优点是通过最大似然估计(map)算法估计模型参数,避免了过拟合的发生。map算法的另一个优点是不需要调整目标用户的gmm的所有参数(权重、均值、方差),只需要估计每个高斯分量的均值参数,就可以达到最好的识别性能。现在,要估计的参数减少了一半以上(103424->51200)。更少的参数意味着更快的收敛,并且模型可以在没有这么多目标用户数据的情况下被很好地训练。(八卦时间:据说douglasa.reynolds因为提出了gmm-ubm的框架而被选为ieee的会员,如果是错的,请忽略它)
图10:基于ubm的地图用户模型训练算法
但是gmm-ubm框架够好吗?不(咳咳,大约2000 …),至少有两个问题是gmm-ubm框架仍然不能解决的:
还有太多的参数需要估计。在nistsre的标准测试中,目标用户的可用语音约为5分钟,静音部分和暂停部分被删除,有效长度只能保持在1分半钟到2分半钟左右,这似乎很短,但您能想象在实际产品中,用户可以通过在手机上连续阅读5分钟来注册吗?绝对不行。对于由1024个高斯分量组成的gmm模型来说,这个长度的有效语音仍然太短。map算法只能优化落在某些高斯分量上的某些特征的参数,而观测数据中的相当一部分高斯分量是无法获得的。那只能是老实呆在原地。这导致目标用户gmm的某些区域具有良好的目标用户身份表达能力,而其他gmm区域与ubm参数基本相同,这无疑降低了模型在文本无关识别应用中的表达能力;
Gmm-ubm缺乏与信道可变性相对应的补偿能力。说白了,这不是反干涉。你在云中用疯狂的手机注册这个模型,然后用另一部小米手机进行识别,但是失败了!现在我真的发烧了。然而,伟大的科学家总是有办法改进的。wmcampbell将支持向量机(svm)引入到gmm-ubm建模中,通过分别提取gmm各高斯分量的均值,构造高斯超向量(gsv)作为svm的样本。支持向量机核函数强大的非线性分类能力,使得基于原始gmm-ubm和基于gsv的正则化算法,如扰动属性投影(nap)、类内方差正则化(wccn)等的识别性能有了很大的提高。在某种程度上,它们补偿了通道变形对声纹建模的影响,这里没有什么可做的。感兴趣的读者也可以查阅相关文献或与我们讨论。
时间在流逝,为了解决广义矩量法中参数太多而无法估计的问题,学术界和工业界都尽了最大努力。突然有一天,学者们发现在map框架下,我们都是独立调整gmm的每个高斯分量,参数太多太累。有没有办法同时调整一系列高斯分量?当我们玩街头霸王时,我们不需要在每个关节上装备一个按钮。四个按钮仍然可以发出挥舞拳头的声音。
有没有一种方法可以用很少的参数来控制高斯混合模型中所有高斯分量的变化?答案当然是肯定的。借助于称为因子分析(fa)的算法框架,通过使用数百个基向量的线性组合来表示所有高斯超向量的变化就足够了(每个基向量的权重可以被视为该基坐标上的坐标点)。也就是说,我们只需要数百个变量(通常是400-600)来表示一个50,000维的高斯分量。
事实上,这种降维思想在过去已经广泛应用于图像、语音和数据压缩技术中。因为真实数据总是携带着大量的冗余信息,所以我们可以实现数据压缩和降维,而精度损失很小,甚至不会损失精度。基向量的估计是基于大量的背景,通过一个类似em的算法,称为概率主成分分析(ppca)伟大的,模型参数突然从50,000下降到500,这是相当于房价的趋势在梦里。这样,gmm高斯分量的整个参数估计可以用少量的数据来实现。随着数据的增加,gmm将很快趋于稳定的参数估计。在上述困难中,甲、乙、丙在很大程度上得到了解决。
图11:基于fa框架的特征声图用户模型训练算法
然而,不要忘记还有困难。我该怎么办?帕特里克肯尼是加拿大蒙特利尔研究所的科学家和公式推导专家,他在2005年左右提出了这个想法。由于声纹信息可以用低秩超方向性量子空来表示,噪声和其他信道效应也可以用不相关的超方向性quantum /き来表示吗
基于这一假设,kenny提出了jointfactoranalysis (jfa)的理论分析框架,在说话人所在的空和信道所在的空之间做了一个独立且不相关的假设,而且同一说话人的多段语音在这一特征声音空.中可以得到相同的参数映射实际gmm模型参数不同的原因是由于特征信道的干扰,即特征信道效应。我们只需要同时估计一段语音。
jfa的两个孩子空之间的联合演绎可以称为肯尼令人眼花缭乱的数学表演。感兴趣的读者可以参考[5]。我想pdf可以直接关闭,而不用翻声纹圈的第一页和最后一页。
05年后,Jfa成为在nist声纹竞争中拥有绝对优势的最佳识别系统,但jfa够好吗?声纹场中,空的天空中仍然飘着一朵小云彩。虽然jfa对特色声音空和特色频道空的独立假设似乎是合理的,但是世界上没有免费的午餐,但是你们都有一双眼睛和一张嘴巴...(也许他们都擅长吃东西)。这种独立性和分布性的假设通常为数学推导提供了便利,但它限制了模型的泛化能力。
肿胀怎么办?2009年,肯尼的学生n.dehak提出了一个更为宽松的假设:既然声纹信息和频道信息不能完全独立,最好使用超方向性量子空来同时模拟这两种信息!回想一下jfa的假设:
不管同一说话者收集了多少语音和多少语音片段,特征辅音空之间的参数映射应该是相同的;最终的gmm模型参数不同的原因是这个罐子被扔向了特征通道空;
特征音素空和特征通道空彼此独立。
jfa的这一“强”假设已经在实际应用中得到验证,不会得到满足。因此,n.dehak同志说:每个人都是战友,所以不要把他们分成你的和我的,分享快乐,分担困难。这个更宽松的假设是,由于不能满足正交独立性,我们简单地使用一个子空来描述说话人信息和信道信息。
此时,同一个说话人,无论如何采集语音,采集了多少段语音,在这个子空里都会有不同的映射坐标,这更符合实际情况。这个きだよきだよきだよきだよよききききだよよ きき 0被称为总因子,每个语音的映射坐标都在这个上面
读者们,这是什么概念?辗转反侧的声纹仍然在进行着gmm,但是一路走来,从最初95年采用的32高斯分量的gmm,已经飙升到1024、2048,甚至4096(那些敢这样玩的都是业内土豪)。gmm、模型改变、公式推进、掷到最后一个说话者的声纹模型只需要保存一个400×1的向量
太好了。事情就是这样,这就是为什么我用简化作为文章的副标题。i-vector是如此简单和优雅,这使得说话人识别的研究被简化和抽象成一个数值分析和数据分析的问题:任何一段音频,不管它的长度和内容,最终都将被映射到一个固定长度的低维i-vector。
我们只需要找到一些优化方法和度量方法,能够在海量数据中尽可能地对同一说话人的多个向量进行分类,并尽可能地分离不同说话人的向量。同时,dehak还发现i-vector在空.之间具有良好的方向辨别能力即使上层的支持向量机进行判别,它只需要选择一个简单的余弦核就可以达到很好的判别效果。到目前为止,在大多数情况下,i-vector仍然是与文本无关的声纹识别的最佳建模框架,学者们随后的改进是基于i-vector的优化,包括线性判别分析(lda)、概率线性预测判别分析(plda)甚至度量清除。
4.神话-文本相关性?文本无关?
由于i-vector非常擅长与文本无关的声纹识别,它一定非常擅长与文本相关的识别。不要。在看似简单的文本相关声纹识别任务上,i-vector并不比传统的gmm-ubm框架好多少。
为什么?因为i-vector的简单之处在于它抛弃了太多东西,包括文本差异。在与文本无关的识别中,由于注册和训练的声音在内容上有很大的差异,我们需要抑制这种差异;然而,在与文本相关的识别中,我们需要扩大训练和识别语音在内容上的相似性,所以i-vector并不太适合。
5.攻击:我们的尤图矢量
尽管学术界喜欢更为艰难的左思之战,但在许多情况下,工业界跟不上学术界。稳定、快速的识别和良好的用户体验是声纹系统的核心评价指标。因此,首先选择的仍然是文本相关识别的应用,而在文本相关识别的应用中,安全性最高的仍然是随机数字声纹识别。
虽然i-vector在识别文本相关性时似乎有点不舒服,但它在它擅长的领域显示了很强的性能。因此,如何将i-vector的优势应用到我们的任务中,使随机数字声纹识别也能充分发挥能量,是Uto实验室共同努力的目标。
鉴于i-vector语义建模属性的弱化,我们细化了i-vector的表示范围,即我们不再使用i-vector对整个语音进行建模,而是反汇编i-vector对每个数字进行建模,这样i-vector就可以从一个只表示说话人身份的向量细化为一个表示身份+数字内容的向量。
图12:传统的向量提取框架不区分文本差异
图13:针对数字内容差异的细粒度矢量提取
将这种更细粒度的I矢量应用于随机数字声纹识别带来了两个明显的改进:
为了驱动i-vector后面的ubm和全因子矩阵,我们不再需要海量数据,只需要关注特定的数字段分割,这大大降低了驱动系统所需的训练数据的规模;
因为每个I矢量只对数字建模,所以每个数字I矢量后面的数字ubm和数字全因子矩阵不需要像文本无关的那样大的模型规模。与文本无关的识别任务相比,该模型的复杂度降低了几十倍,在实际场景中仍能表现出同样好的性能。
模型简化带来的直接好处是压缩了计算复杂度和空.之间的复杂度同时,尽管需要提取的输入向量的数量比过去多(目标用户语音中包含数字的集合的数量是目标用户的输入向量的最终数量),在并行化提取过程之后,这种细化带来的额外计算和存储基本上可以忽略不计。
在识别性能方面,我们将数字i-vector与rsr2015一起发布的传统i-vector和hilam文本相关识别框架(包括数万个目标样本和数十万个攻击样本)进行了比较,在千分之一错误率下实现了等错误概率(eer)小于1%、召回率大于95%的识别性能。我们自行开发的数字i-vector比现有的声纹识别框架具有更好的性能。
6.对声纹的观察和思考虽然我们在适应矢量和文本相关识别的尝试和探索中取得了一些突破,但我们仍然需要看到声纹识别在应用中的局限性:动态变化的发声器官和声音,它们仍然不如人脸和图像那样稳定。除非有一天中风,否则很难想象什么原因会使人脸识别失败;但是感冒和发烧会改变我们的声道结构,我们自己的声音也会改变。
与人脸和图像相比,声纹的识别准确率有明显差距。在深度学习的浪潮中,声纹的演变似乎依然不温不火,声纹识别的“兄弟”语音识别已经在深度学习的航母上驰骋。原因是声纹固有的困难,如果我们想啃这块硬骨头,我们还有很多事情要做。
然而,乌托邦从未停止对声纹的深入学习。除了随机数识别之外,在文本无关识别的应用中,我们还开发了从基于dnn的说话人分类网络中提取的深度特征(也称为瓶颈特征),并辅助i-vector在评分水平上进行融合,这也使得i-vector的识别性能在过去的基础上向前迈出了坚实的一步。未来,Youtu团队有信心在这一人工智能浪潮中取得快速进步,贡献更多更好的产品服务大众,让每个人都能感受到科技给生活带来的便利。
参考
[1]http://www . ITL . NIST . gov/IAD/MIG/tests/spk/
[2]larcher,anthony,etal。" RSR 2015:databasefortext-dependent speakerveriationusing multiple pass-短语,"interspeech.2012。
[3]futianfan,etal ." tandem deepfeaturesfortext-dependent speakerverialization,"interspeech.2014。
[4]vasilakakis,vasileios,sandrocumani,andpietrolaface。“speaker recognition by means deep信念网络”(2013年)。
[5]肯尼,帕特里克。" joint factorsanalysis of peak andsession variability:theory and lgorighms . "crim,montreal,(report)crim-06/08-13(2005)。
[6]dehak,najim,etal。前端因子分析用于峰值验证。ieeetransactionsonaudio,speech,and language processing 19.4(2011):788-798 .
雷锋。注:这篇文章是雷锋发表的。如果您需要重印,请联系授权,保留来源和作者,不要删除内容。