本篇文章627字,读完约2分钟
alphago背后的谷歌人工智能部门Deepmind最近公布了最新的研究结果,它正试图开发一种更接近人类实际语言水平的机器语音合成系统。据说这种新的人工智能系统wavenet是一种深度神经网络,它可以通过对现实中的人类语言进行采样来形成原始的音频波形,最终达到生成语音的目的。
通过对英语和汉语听众的测试,发现wavenet的性能优于现有的语音合成系统,但其结果仍略低于人类的真实语言水平。
目前的语音合成系统只有两种工作模式:第一种是截取实际的语音记录,然后将其分解并重组为新的语音——有点像绑架手机的常用手段;另一种是依靠计算机合成通过编程产生语音,这意味着它不需要预先记录语音材料,但听起来不太好,很像机器人。
另一方面,wavenet仍然使用真实的语音输入,但是通过学习和模仿来合成语音,而不是破坏和重组它。该项目的研究人员写道:“一个单一的波网可以捕捉和记录不同扬声器的特征,具有相同的保真度,并可以随意切换声音。”
令人印象深刻的是,它可以使用嘴唇运动和人工呼吸来模拟语调、情绪和口音。如果这还不够,wavenet可能还会像钢琴一样演奏音乐。研究人员只需要提供一些经典片段,它就能创造出自己的作品。
Deepmind在twitter上写道:“让人类与机器对话是人机交互领域的一个长期梦想。”
viaslashgear
推荐阅读:
为iphone 8保留的大杀手?苹果无线充电专利曝光
在微软亚洲研究院工作的经历是什么?很难创建一个开放的类