本篇文章1197字,读完约3分钟
据国外媒体报道,微软研究人员本周宣布,在人类语音识别领域,由微软工程师训练的神经网络的准确率已经达到了人类的最高水平。
微软介绍说,其人工智能实验室使nist 2000自动化系统与人类专业速记员竞争。在当地时间周一发表的一篇论文中,结果显示自动系统的单词错误率首次低于人工操作——仅为5.9%。
让我们来看看,5.9%的错误率是什么概念?
在行业标准总机语音识别任务测试中,由专业速记员组成的人类控制小组将对话语音转录成单词。目前,该记录的最低错词率为5.9%。这意味着微软语音识别系统的识别能力已经高于世界上大多数人,甚至达到速记员的水平。
上个月14日,微软的会话语音识别技术在总机语音识别基准测试中取得了6.3%的突破,创下了当时该领域的最低错误率纪录。令人高兴的是,从6.3%到5.9%,微软的人工智能和研究部门只花了一个多月的时间。这使人们有理由相信,计算机真正超越人类语音识别能力的日子不远了。
据了解,微软团队使用基于多年积累技术的本地化深度学习系统cntk。一年前,Cntk工具包在github上开放。目前,包括微软人工智能个人助理小娜和混合现实全息眼镜全息透镜在内的语音识别都是基于cntk实现的。
语音识别的这一里程碑式的突破将对消费者和商业产品产生深远的影响,因为语音识别技术可以显著提升人们的日常计算体验。
微软在其官方博客中表示:“这个里程碑将对用户和商业产品产生广泛的影响,语音识别技术将带来明显的增强。这些产品包括xbox等娱乐设备、微软小娜等生产力工具以及cortana等语音助理,它们可以实现实时语音到文本的转换。”
微软表示,该团队的下一步努力之一是确保语音识别技术能够在嘈杂的群体聚会、背景声音很大的高速公路以及其他更复杂的现实场景中做出准确的判断。R&D人员希望改进实现这一目标的方法,甚至帮助计算机在许多人说话时为每个说话者命名,并确保计算机能够准确识别各种声音而不受说话者年龄、口音和音量的影响。
微软本周发表的论文题为“在会话语音识别中实现人类平等”。以下是总结:
自20世纪90年代darpa总机语料库发表以来,会话语音识别技术已经成为语音识别领域的一个重要组成部分。在本文中,我们测试的nist 2000自动化系统的会话语音识别技术已经可以与人类的最高水平竞争。根据总机数据,专业速记员的错误率为5.9%,呼叫总部测试显示速记员的错误率为11.3%。在这两种情况下,我们的nist 2000系统建立了一个超越人类水平的新的尖端基准。这意味着在历史上第一次,机器在对话中达到了人类的水平。我们成功的关键在于系统地使用卷积和lstm神经网络、全新的空间平滑方法和无网格mmi声学训练。
这里是纸质pdf邮票。
推荐阅读:
五分钟后读完美国白皮书:政府为人工智能的未来做了哪些准备?
艾是一种新型的电能。百度如何将人工智能变成今天的“基础设施”?