本篇文章1423字,读完约4分钟
第一步。
从维基百科和新闻网站中,随机选择500个中文句子作为评估内容。
步骤二。
找一个人工翻译,把500个句子翻译成英语。
步骤三。
将旧的机器翻译结果、新的机器翻译结果(神经网络)、人工翻译结果和这三份“试卷”交给真正精通中英文的考官。
第四步。
精通使用中文和英文的现实生活中的考官,对每份试卷的每个句子进行评分。分数是从0到6的整数,其中0表示“无意义”,6表示“精彩”。
第五步。
旧机器翻译中每个句子的平均得分为3.694,新机器翻译为4.263,人工翻译为4.636。别忘了满分是6分。
第六步。分别计算与人工翻译水平相比的“错误率”(error rate)是多少。
旧机器翻译:(4.636-3.694)/4.636 = 20%
新机器翻译:(4.636-4.263)/4.636 = 8%
第七步。计算“错误率”降低了多少。
(20%-8%)/ 20% = 12% / 20%= 60%
第八步。计算“精确度”提高了多少。
(4.263-3.694)/3.694 = 15%
第九步。
为什么用户兴奋,媒体兴奋,专家不兴奋?翻译公司Shangque.com的首席技术官魏永鹏告诉雷锋网:
有两个主要的“陷阱”:
1.从3.6到4.2,从4.2到4.6,后者可能是前者的10倍以上,但谷歌通过简单的线性计算将差距缩小了60%。
2.汉英手工翻译的分数只有4.6,远远低于英语-西方人。这表明用作基准的“人”可能不可靠,并且基于它来评估它可能也不可靠。
实际上,还有第三点。不要忘记谷歌自己制作了这份报纸。
请注意用于评估的数据:从维基百科和新闻网站上随机抽取500个句子。这些是互联网上最丰富的内容类型。那是机器最擅长的。
第十步。
一个行业认可的机器翻译性能评估是wmt的bleu评分竞赛。谷歌这次发表的论文也使用了bleu score的分数。雷锋。搜索“雷锋”。com" public number)找不到汉英翻译,但有英语翻译数据,即从37分增加到41.16分。
第十一步。许多人患有“围棋”恐慌症。
谷歌首次成功将神经网络技术应用到翻译产品中,自上线以来,翻译质量有了显著提高。然而,媒体报道的标题“错误率降低60%”,甚至用某种语言来说是“85%”,使得普通人很容易认为蒸汽机革命即将到来...事实上,像微软和百度这样的大公司以前在翻译产品中使用过神经网络技术,但是它并没有引起很大的传播。
调查其原因。一位匿名评论员告诉雷锋。很多人以前在Go中看到过谷歌的电脑击败人类,他们受到了心理上的影响。自然,他们认为谷歌强大的人工智能技术会颠覆许多行业。
步骤12。北京时间9月29日上午,该论文作者之一谷歌大脑的陈质枫通过远程视频接受了三家中国媒体的采访。他说这次谷歌的特别之处在于训练过程使用了大量的分布式计算,所以语言模型可以被快速训练。“在一个方向上处理语言模型需要将近一周的时间。然而,谷歌大约有10,000种语言模型需要培训,这需要我们投入大量资源,并不断改进算法。”
至于用机器翻译代替人工翻译。陈质枫认为,常规文本,如医学论文和时事新闻,更注重信息的传递,在修辞或情感上可能被削弱。“机器翻译可以帮助你快速获取信息,这是目前机器翻译对人类的主要帮助。”
他说:“目前,我认为在通过机器翻译实现人与人之间的自然交流方面还有很多工作要做。要真正让你觉得是一个人,而不是一台机器在和你说话,还有很多年要努力。”