本篇文章1368字,读完约3分钟
据国外媒体报道,亚马逊回音让人爱恨交加。一方面,它可以打车、订餐或检查十年级学生的数学作业。另一方面,用户必须对它说得非常清楚,否则它听不清楚。
在过去的几年里,语音识别取得了很大的进步,但是它在日常生活中仍然没有得到广泛的应用,这还不足以开启人机交互的新时代。许多人仍然需要操作电子设备。
什么因素影响语音识别的发展?部分原因是人工智能技术还需要更进一步,而缺乏数据,尤其是人类语言,是另一个原因。
因此,亚马逊、苹果、微软和百度正在全世界收集人类的声音。微软已经在世界各地的城市建立了机构来记录志愿者的声音;亚马逊每小时将alexa录制的用户音频上传到一个数据库;百度在中国收集语音数据。他们利用收集到的语音数据来训练计算机分析、理解和响应人们发出的语音命令。
挑战在于理解现实世界中的自然语言对话。位于加州桑尼维尔的百度人工智能实验室主任亚当·卢克兹(Adam Lukitz)表示,即使95%的准确率也不是很好。我们的目标是将错误率降低到1%。只有这样,人们才能相信机器能真正理解他们所说的话。
语音识别的发展得益于基于神经网络的人工智能的一个分支。人工智能的学习不是通过程序来完成的,而是需要大量的数据。语音识别引擎获得的数据越多,它理解不同声音的能力就越高,就越接近实现多语言和多背景自然语言对话的目标。
百度首席科学家吴恩达表示,我们向系统提供的数据越多,其性能就越好。这就是为什么语音识别技术需要大量投资:不是所有的组织都有大量的数据。
20世纪90年代,当技术行业开始重视语音识别技术时,微软和其他公司依赖于研究机构提供的语音数据。之后,科技公司开始收集他们自己的语音数据,其中一些来自志愿者。现在,由于语音控制产品和服务的大规模普及,他们通过自己的产品和服务收集了大量的语音数据。
当用户告诉手机搜索、播放音乐或导航时,相关公司可能会记录用户的声音。苹果、谷歌、微软和亚马逊强调他们将匿名用户数据以保护用户隐私。当用户向alexa询问天气情况或运动表现时,Alexa会利用用户的问题来提高他们对自然语言的理解。alexa项目的首席科学家Nikko strom说,从设计的角度来看,用户使用的越多,alexa就越聪明。
挑战之一是让语音识别技术精通多种语言、口音和方言,这在中国尤为明显。
另一个挑战是让语音识别技术从背景噪音中过滤掉命令。微软开发了一个名为voice studio的xbox应用程序,它收集用户在玩奇怪的东西或看电影的背景下的对话,并向参与的用户提供一定的奖励。该项目在巴西取得了成功,收集到的数据被用于在巴西开发葡萄牙语版的小娜。
尽管世界各地都在收集语音数据,但技术公司也在探索技术,以提高语音识别的准确性,而无需大量数据。微软首席语言学家黄表示,麦当劳正在测试的语音识别技术比使用更多数据的技术更准确,即使不使用最多数据也有可能取得突破。
谷歌通常奉行“少即是多”的理念,即使用不可理解的语音单位来构建单词和词汇,从而大大降低了对数据的需求。百度正在开发更高效的算法,使系统在学习一种语言后更容易学习其他语言。
即使像吴恩达这样的科学家也很难预测人们可以和语音助手自然交谈的时间。神经网络仍然是一个新的领域,许多未知的问题仍然没有解决。根据目前的技术和方法,自然人机对话至少需要几年才能实现。