本篇文章2356字,读完约6分钟
[语音技术作为人机交互的入口,是人工智能的重要组成部分。不仅蝙蝠,搜狗,科达讯飞(002230,BUY)等。也在加速智能语音的布局。许多围绕人工智能的创业团队,比如云之声,也用声音作为探索人工智能的方向]
情感合成、远场方案、唤醒第二阶段技术和长音方案...这些不熟悉的技术可能会改变我们未来的生活。
11月22日,百度公司首席科学家吴恩达在谈到百度语音技术的最新发展时,介绍了百度的四项语音技术,并宣布对用户和开发者免费。
"我们已经站在了人工智能的黎明明."吴恩达对包括CBN在内的记者做出了乐观的预测,他希望通过开放人工智能技术,每个人都可以更容易地开发“智能应用”。
然而,站在“黎明之明”的人工智能要有一个“质的”飞跃可能需要时间。一个细节是,在记者采访的会议室里,吴恩达仍然坐着一个实时校对单词的速记员。
智能语音:超出正常人的识别能力
事实上,开放语音应用编程接口已经成为一种行业趋势。
今年3月,谷歌在下一届云计算大会上为开发者发布了一个新的机器学习平台,并开通了语音识别的api,即谷歌语音搜索和语音输入支持技术。Googlecloudspeechapi最初是免费提供的,以后会收费。该应用包括80多种语言,适用于各种实时语音识别和翻译应用。
在开放的背后,互联网公司希望推动智能语音模式的进一步演进和智能语音技术的快速普及。
关于百度宣布的四项语音技术,吴恩达告诉第一财经记者,百度目前没有收费计划,这些技术旨在解决用户在使用语音交互时普遍遇到的一些关键问题。"目前的语音识别已经超过了正常人的语音识别能力."
以情感合成为例,基于深度学习和大数据处理技术,在数据采集、处理和建模方面进行了一系列创新,以达到更具表现力的自然阅读效果。
甘肃数字科技有限公司总经理金大石告诉记者,目前,“读者数字农村图书馆”已经在甘肃省庆阳市试点,图书的有声阅读已经根据百度的大数据实现,让很多不识字的老人和留守儿童享受到了读书的乐趣。
远场方案技术是百度自主开发的远场识别技术。它以麦克风阵列为基础,综合运用麦克风阵列波束形成、语音增强、回声消除、声源定位等技术,实现高精度的远场识别。
百度表示,通过这种新的技术界面,开发者可以将语音识别的距离提高到3~5米,将设备的语音唤醒率提高到95%以上,或者解决长期语音识别的准确性问题。这将为空的语音技术带来更多的想象,而不仅仅是遥控电视或解锁手机。
例如,在上海肯德基旗舰店投入使用的百度“小机器人(300024,买)人机语音互动点餐”,可以在任何时间远距离接听点餐。
百度语音唤醒技术主要通过通用唤醒词分析、大数据声学模型、双层解码等技术进行优化,唤醒率为95%,支持用户自定义唤醒词。唤醒阶段二增加了指令唤醒,以优化唤醒和识别性能。
长语音技术在lstm(longshort-termmemory)音频分割技术、预测停顿的深度学习、说话人自适应、智能纠错等方面取得了技术突破。这意味着它将在方便的语音输入、内容录制、智能客户服务、视频转录和其他应用场景中展现空的想象力。
这也让来到中国的斯坦福大学(Stanford University)人工智能专家詹姆斯兰道(jameslanday)感到:“近两年来,得益于大数据和深度学习技术的不断发展,语音识别技术突飞猛进,速度和精度都有了很大进步。”
智能语音近战
语音技术作为人机交互的入口,是人工智能的重要组成部分。不仅仅是英美烟草(百度、阿里巴巴、腾讯)、搜狗、iFlytek等。智能语音的布局正在加速,许多围绕人工智能的创业团队,比如云之声,也把语音作为探索人工智能的方向。
如果你想顺利进入这个领域,你需要多年积累的技术和经验。
吴恩达告诉第一财经记者,语音识别技术非常复杂。最困难的是核心技术的改进,比如识别率的提高。几年前,语音识别率只有80%以上,当时还很难使用;还有大数据语音合成等。现在的目标是如何远远超过人类的识别能力。另外,百度语音识别的准确率为97%,是在相对安静的环境下实现的。如何在噪声干扰的情况下提高识别率,百度还有工作要做。
除了百度,可以看到今年9月,腾讯云技术团队和微信艾团队开通了微信语音处理技术,推出了智能语音服务。它在语音识别、语音合成、声纹识别和其他功能的垂直领域提供定制语音产品。阿里的人工智能系统具有智能语音交互、图像识别、交通预测、情感分析等功能。
在语音识别领域,搜狗首席执行官王小川不久前在世界互联网会议上透露,搜狗输入法每天处理1.9亿个语音输入请求,产生超过16万小时的语音数据。经过庞大的用户群和数据积累,语音输入可以处于更极端的状态,如语音合成和声纹识别。
据公开信息显示,在技术指标方面,百度语音识别、搜狗输入法语音识别和讯飞输入法语音识别的准确率达到97%,腾讯云智能语音识别技术在一般领域的准确率达到95%。
在投资者眼中,聪明的声音仍然是一个很好的投资机会。此前,丰瑞资本早期项目负责人朱玉舟曾提到,虽然基于实验数据的语音识别准确率达到95%甚至更高,但在实际使用和前端语音/声学交互中的准确率并不高,如果很多问题没有解决,整体体验总是不够好;随着包括家庭、汽车、可穿戴设备和机器人在内的大量智能终端的出现,智能语音将变得更加友好和重要。
ibm前全球副总裁、赛博创投资集团总裁汪洋表示,人工智能将在医疗、无人驾驶、金融、零售、安全和个人助理等七个领域有强大的应用。他提到,人工智能个人助理目前广泛用于语音助理、语音输入和智能手机上的管家,最终收集消费者的消费习惯并提供各种服务。
根据researchandmarkets的研究报告,预计2016年全球智能语音产业将达到82.3亿美元以上,2020年全球语音市场将达到191.7亿美元。