本篇文章1724字,读完约4分钟
-你什么意思?
-没什么,意思是。
一位职场新人担心越来越强大的机器翻译会抢走他的工作,于是他在智虎上问道:“这个行业还有前途吗?”老司机纷纷上前安慰。其中一个说:“年轻人,你就像一只兔子。让机器翻译上面的对话,看看是否可以做到,然后再担心。”
我想知道“年轻人”是否尝试过。雷锋。谷歌翻译机和微软翻译机被认为是行业中最好的,但他们无法处理这种有中国特色的语音对话。但是两者的表现是不同的。
同样的声音,这是谷歌的结果:
这是微软的成果:
具体来说。使用语音翻译,谷歌将保持所有的单词不变;微软将在第一句中省略语气词“啊”,在第二句中省略一个“意思”(可以判断为意外伤害)。为什么?
删除“哼哼唧唧”
微软告诉雷锋。他们之所以省略“啊”而不小心伤害了“意义”,是因为他们在语音翻译中使用了一种独特的技巧——真实文本。在一份官方文件中,微软对图雷特的角色解释如下:
这个过程包括删除导致流畅的单词(如“啊”、“嗯”和重复的措辞),将文本分解成句子,添加标点符号和大小写识别。
这是微软语音翻译技术为“口语”所做的优化之一。奥利维尔·丰塔纳是微软研究院微软翻译部的产品策略总监。在8月中旬的一次交流中,他告诉雷锋。我们通常用不同的方式说话(口语和书面语)。truetext可以将语音识别的单词转换成机器更容易理解的有意义的内容。这项技术在微软全球范围内独一无二。
由于工作关系,本文作者每天都要处理大量的面试速记。尽管文本已经被速度记录器“手动优化”——许多语气词已经被删除,但在整个文档中几乎不可能找到几个连续完整的句子。除了事先准备好的演讲,很少有人能在演讲时用连贯的句子来表达他们的意思。当人们交谈时,他们会跌跌撞撞,说些什么,这是不言而喻的。机器更难理解人们的原始意图,然后将它们转换成另一种语言。Truetext技术相当于用机器完成口头文本内容。
语音翻译:优化对话
许多人认为语音翻译是先将语音识别为文本,然后将文本翻译成另一种语言的过程。实际上,不是这样的。
奥利维尔·丰塔纳告诉雷锋。搜索“雷锋”。微软尝试了这种简单的拼接方法,但翻译质量并不令人满意。最后,微软的计划是在语音识别阶段对口语识别进行特殊的输入优化。经过识别后,文本通过truetext技术进行处理,然后进入文本翻译阶段。文本翻译的输出也应该针对口语进行优化。最后,机器可以通过成熟的tts技术“读出”翻译结果。
Olivier fontana表示,在开发“实时对话场景”翻译模型的过程中,微软面临三个关键挑战:
收集口语数据。收集口语语料库数据需要大量的时间和金钱。
训练这些语料库。该项目的计算成本非常高,需要大量的计算能力和硬件加速系统。
发展口语模式。每种语言都有不同的口语表达和发音方法,同一种语言不同年级的人有不同的语音、俚语、速度和表达方式,所以很难用同一种模式来实现。
据微软称,在口语翻译优化方面,尤其是聊天对话内容优化和truetext技术方面,微软是业内唯一一家。
Olivier fontana说,传统的机器翻译是基于正式的文本翻译,而微软已经加入了大量基于口语对话的语料库。他透露,微软甚至付钱给很多人在skype上聊天,谈论他们的假期和日常生活,收集他们的口头数据。
“对话是一个平台”
Skype翻译器的实时语音翻译技术自问世以来就吸引了业界的关注。这是一种“黑色技术”,使两种不同语言的人能够通过他们的母语实时交流(见视频)。2012年,微软在天津的一次学术活动上首次展示了这项技术。2014年12月,这项技术在skype translator应用中实现商业化,随后又相继应用于桌面skype translator和微软translator移动应用。今年上半年,这项技术迎来了一个新的里程碑,微软向所有人开放了api,使开发人员可以方便地将其集成到自己的应用程序中。
微软翻译公司对语音“对话”做了各种优化,这让人们很容易联想到公司在年初的构建大会上宣布的“对话就是平台”的战略。他们还透露,在今年年底前,skype会议广播服务将提供给办公室的365个企业用户。通过这项服务,字幕可以自动添加到网络会议中,会议可以实时翻译成不同的语言。