本篇文章3674字,读完约9分钟
雷锋。凯文徐,地平线硬件音频工程师。2011年11月,他毕业于英国爱丁堡大学,主修通信和信号处理。他曾是诺基亚、联想和微软的高级音频工程师。目前,horizon-robotics负责语音相关硬件系统的设计,涉及远场高灵敏度麦克风阵列的设计、高精度音频硬件编解码器的评估和验证、远场语音预处理算法的评估和验证,以及声源定位、波束形成、盲信号分离、回声抑制和平滑降噪等相关技术算法。
麦克风阵列语音信号处理技术。熟悉人工智能的朋友必须理解语音交互对于人机对话交互的重要性。一个完整的语音交互涉及人的语音、语义、麦克风、处理器、核心算法和机器的其他部分,这是一个看似简单但实际上复杂的庞大工程!当然,这是基于对边肖的肤浅理解的总结,我们不得不依靠丹尼尔的技术解释!
前言随着人工智能越来越接近人们的生活,语音技术的发展引起了人们的广泛关注。传统的近场语音已经不能满足人们的需求,人们希望在更复杂的环境中远距离通过语音控制智能设备。因此,阵列技术已经成为远场语音技术的核心。
阵列麦克风对人工智能的意义1。空:之间的选择性声源的有效位置可以通过定位技术如电子扫描阵列等获得。智能设备正在获取准确的声源位置信息,这使得我们的语音更加智能化,并通过算法获得高质量的语音信号质量。
2.麦克风阵列可以自动检测声源位置并跟踪说话人,同时可以获得多声源和跟踪运动声源的优势。无论你走到哪里,智能设备都会在你的位置和方向上增强你的声音。
3.阵列麦克风增加了空域处理,弥补了单一信号在噪声抑制、回声抑制、混响抑制、声源定位和语音分离方面的不足,使我们的智能设备能够在复杂环境中获得高质量的语音信号
麦克风阵列技术的技术难点
传统的阵列信号处理技术直接应用于麦克风阵列处理系统时往往效果不佳,这是由于麦克风阵列处理的处理特性不同:
1.阵列模型的建立
麦克风主要用于处理语音信号,其拾取范围有限,且大多用于近场模型,这使得雷达、声纳等传统的阵列处理方法不再适用于平面波远场模型。在近场模型中,需要更精确的球面波,并且应该考虑由不同传播路径引起的不同振幅衰减。
2.宽带信号处理
通常的阵列信号处理大多是窄带的,即不同阵元的接收延迟和相位差主要反映在载波频率上,而语音信号没有调制,没有载波,高低频比大。不同阵元的相位延迟与声源本身的特性——频率密切相关,这使得传统的阵列信号处理方法不再完全适用。
3.非平稳信号处理
在传统的阵列处理中,大部分信号是平稳信号,而麦克风阵列处理的信号大多是非平稳信号或短时平稳信号。因此,麦克风阵列通常在短时-频域中处理信号,并且每个频域对应于一个相位差。宽带信号在频域被分成多个子带,每个子带经过窄带处理后合并成宽带频谱。
4.反射
声音传播受空.的影响很大由于空之间的反射和衍射,麦克风接收的信号不仅是直接信号,而且是多径信号叠加,这使得信号受到干扰,即混响。在室内环境中,由于房间边界或障碍物的绕射,声音继续,这极大地影响了语音的可懂度。
声源定位
声源定位技术广泛应用于人工智能领域。麦克风阵列用于在空.之间形成笛卡尔坐标系根据不同的线性阵列、平面阵列和空阵列,声源确定在空.智能设备首先可以进一步提高声源的位置。当智能设备获得您的位置信息时,它们可以与其他传感器结合,以获得进一步的智能体验。例如,机器人会听到你的呼叫并找到你,视频设备会聚焦并锁定扬声器。在了解声源定位技术之前,我们需要了解近场模型和远场模型。
近场模型和远场模型
通常,麦克风阵列的距离为1~3m,阵列处于近场模式。麦克风阵列接收球面波而不是平面波,衰减因子与传播距离成正比。因此,从声源到阵列元件的声波的振幅也不同。在远场模型中,声源和阵元之间的距离差相对较小,可以忽略不计。一般来说,我们定义2l2/λ为远场和近场的临界值,L为阵列孔径,λ为声波长,所以阵列单元接收的信号不仅有相位延迟,还有幅度衰减。
声源定位技术
声源定位方法包括电扫描阵列法、超分辨率谱估计法和时差法,它们分别将声源与阵列的关系转化为空波束、空谱和到达时间差,并通过相应的信息进行定位。
1.电扫描阵列
阵列形成的光束在空之间扫描,根据不同角度的不同抑制来判断方向。通过控制每个阵列元件的加权系数,控制阵列的输出方向并执行扫描。当系统以最大功率扫描输出信号时,相应的波束方向被认为是声源的波达方向,从而可以定位声源。电扫描阵列方式有一定的局限性,仅适用于单个声源。如果多个声源在阵列模式的同一个主波束中,则无法区分它们。定位精度与阵列宽度有关——在给定的频率下,波束宽度与阵列孔径成反比,因此在许多场合下很难实现大孔径麦克风阵列。
2.超分辨率频谱估计
例如,音乐,精神,等等。对其协方差矩阵(相关矩阵)进行特征分解,构造空谱。至于方向谱,对应于谱峰的方向是声源方向。它适用于多种声源,声源的分辨率与阵列大小无关,突破了物理限制,成为超分辨率频谱方案。这种方法可以扩展到宽带处理,但对误差非常敏感,如麦克风单元误差和信道误差,适用于远场模型,而且矩阵计算量大。
3 .时差
时差估计声源到达不同麦克风的时延差,通过时延计算距离差,然后利用距离差和麦克风阵列空之间的几何位置确定声源的位置。时差估计和时差定位有两个步骤:
(1)时差估计
常用的有广义互相关gcc、广义互相关和lms自适应滤波
(1)广义互相关
在基于时差的声源定位方法中,gcc主要用于时延估计。Gcc计算方法简单,延时小,跟踪能力强,适合实时应用。它在中等噪声强度和低混响噪声的情况下具有良好的性能,在噪声和不稳定噪声环境下定位精度会下降。
(2) lms自适应滤波
时差估计是在收敛状态下给出的,不需要噪声和信号的先验信息,但对混响敏感。该方法将两个麦克风信号作为目标信号和输入信号,利用输入信号逼近目标信号,通过调整滤波器系数获得时差。
(2)时差定位
时差估计用于声源定位。三个麦克风阵列可以确定空之间的声源位置,增加麦克风将提高数据精度。定位方法包括最大似然估计、最小方差、球面差和线性交。时差定位应用广泛,定位精度高,计算量小,实时性好,可用于实时跟踪。目前,在大多数智能定位产品中,时差技术被用作定位技术。
波束形成
波束形成可分为常规波束形成cbf、常规波束形成和自适应波束形成abf。Cbf是最简单的非自适应波束形成。麦克风的输出经过加权和求和得到波束。在cbf中,每个通道的权值是固定的,可以抑制阵列方向图的旁瓣电平,滤除旁瓣区的干扰和噪声。
在cbf的基础上,abf在空域自适应地滤除干扰和噪声。在abf中,通过使用不同的滤波器获得不同的算法,即根据一些最优准则来调整和优化不同信道的幅度权重。例如最小均方误差、最小均方误差、最大信噪比、最小均方误差(线性约束最小方差)。mvdr波束形成器(最小方差无失真响应)通过使用lcmv标准获得。lcmv的准则是在保持模式主瓣增益不变的情况下使阵列输出功率最小,这表明阵列输出的干扰加噪声功率最小,也可以理解为最大sinr准则,以便尽可能多地接收信号并抑制噪声和干扰。
Cbf-传统波束形成
延迟求和的波束形成方法用于语音增强,对麦克风接收信号进行延迟,补偿声源与每个麦克风之间的时间差,使每个通道的输出信号在某一方向同相,使该方向的入射信号获得最大增益,主波束方向的输出功率最大。形成空域滤波器,这使得阵列具有方向选择性。
自适应滤波器增强波束形成
为了提高语音增强的效果,结合维纳滤波,对噪声语音进行维纳滤波,得到基于最小均方误差准则的纯语音信号。滤波器系数可以连续更新和迭代。与传统的cbf相比,它能更有效地去除非平稳噪声。
自适应波束形成
Gslc是一种基于anc的有源噪声消除方法。噪声信号同时通过主信道和辅信道,辅信道的分块矩阵滤除语音信号,得到仅含多信道噪声的参考信号。每个信道根据噪声信号得到一个最佳信号估计,并得到纯语音信号估计。
阵列技术的未来发展
与单麦克风系统相比,麦克风阵列技术具有许多优点,已经成为语音增强和语音信号处理的重要组成部分。语音增强和声源定位已经成为视频会议、智能机器人、助听器、智能家用电器、通信、智能玩具和车载领域中不可缺少的阵列技术的一部分。各种信号处理技术和阵列信号处理技术相继被集成到麦克风阵列的语音处理系统中,并得到了逐步的改进和进一步的广泛应用。在复杂的噪声环境、混响环境和声学环境中,强大的硬件处理能力使得复杂的算法能够实时处理语音增强。未来,语音和图像的紧密结合将成为人工智能领域的新突破。在人工智能的尖端,谁能够将语音识别、语音理解、阵列信号处理、远场语音、图像识别、人脸识别、虹膜识别、声纹识别等技术巧妙有机地结合起来,并将技术的精髓与以人为本的宗旨完美地结合起来,还有待观察。
这就是凯文精彩的分享。让我们期待下一场演讲盛宴!
雷锋。搜索“雷锋”。注:本文由雷锋发表。如需转载,请联系原作者并注明作者和来源,内容不能删除。如果你感兴趣,你可以关注公共地平线机器人技术,并获得最新消息。