本篇文章3765字,读完约9分钟
雷锋。搜索“雷锋”。作者:陈,本文作者,工学博士,圣智科技创始人。雷锋的独家文章。请联系我们获得授权。
智能扬声器需要生态链抛光。功夫决定经验,任何细节都不能忽视。很多时候,我们对大数据和深度学习给予了太多的赞扬,这让许多研究者变得懒惰。数据永远无法理解这个世界。对物质世界的探索和人类哲学的思考是推动社会进步的力量。
随着谷歌主页(google home)的发布,智能扬声器的鼻祖亚马逊回声(amazon echo)再次成为人们关注的焦点,该产品也成为了新时代智能硬件的代表。当然,亚马逊echo确实不负众望,不仅销量攀升至数千万,而且R&D的实力也超过了1000人。几天前,它开始招聘400人。
一般来说,国外成功的模式或产品最多在一年左右的时间里就会在中国成功复制甚至迅速超越。然而,亚马逊回声是一个例外。自2014年发布以来,只有谷歌在国外花了近两年的时间推出像home这样的竞争产品。由于刚刚发布,我们还得等着看具体的销售情况。但是国内的情况如何呢?在中国复制几个产品花了两年多的时间,但没有一个复制了被公众普遍接受的亚马逊回声。
对于许多国内制造商来说,这也是一个令人困惑的问题。为什么花了很大力气,但生产的产品却没有被用户认可?类似产品在中国惨淡的销量也让许多国内互联网巨头无法下定决心投资像亚马逊回声这样的智能扬声器产品的研发。这到底是为什么?
|智能扬声器需要通过生态链进行抛光。功夫决定经验,不能忽略任何细节。作为语音智能助手的家庭入口,它远远超出了扬声器的定义。这是硬件吗?软件?还是站台?这很难定义,因为智能扬声器包含了完整的声音互动生态链。如果这种产品不作为战略产品投入研发,估计生产的产品将不可避免地令人不满意。虽然许多国内制造商认为他们的投资是巨大的,但与亚马逊的回声相比,这有点小巫见大巫。亚马逊不仅在研发上投入了数千人,还在超级碗上做了回声广告。这与手机之间的竞争非常相似。一些国产品牌的手机也认为它们很好,但是当用户接触到它们时,他们心中自然会有一个衡量标准。事实上,公司之间的竞争不在于20%的投资获得80%,而在于80%的投资获得20%。大多数时候,正是这20%决定了公司竞争的成败。然而,毕竟,那些愿意在中国投资80%的人仍然是少数,尤其是那些面向新兴市场的产品。如果他们不能获得精致的用户体验并付出足够的努力,那么他们没有得到用户的认可是合理的。
事实上,亚马逊回声的诞生并不总是一帆风顺的。
亚马逊126负责亚马逊echo的研发,该公司成立于2004年,主要承担亚马逊硬件产品的研发。亚马逊126同时开发了四种产品。回声是继kindle、fire phone和ar之后的一个D级R&D任务。甚至它的R&D成员也主要由ar项目组成。当它在2010年末推出时,没有人会对它感到乐观。亚马逊回声不是最初的名字,而是亚马逊闪存,甚至在2014年发货前夕。Echo也很幸运,因为消防电话的故障,ar项目停止了,这直接使echo受益。经过短暂的内部调整,R&D的实力大大增强。然而,即便如此,仍然有许多内部纠纷,使得刚刚出现的回声公司不敢公开出售,而是通过邀请购买来尝试水市场。
虽然亚马逊echo已经研发了很多年,它对技术的追求也是终极的,但这并没有挽回echo在2014年发布时的尴尬。当时,用户体验只是一个演示模型,从算法到内容都有很多问题。当然,随着用户的不断扩大和R&D实力的不断增强,echo也取得了很大的进步,其内容聚合也因其开放策略而发展迅速,为echo多次赢得100多美元的销售冠军奠定了基础。
亚马逊回声的本质属性仍然是说话者。尽管回声的音质不尽如人意,但在当前高保真扬声器日渐衰落、蓝牙扬声器日益普及的时代,音质并不是大多数消费者的首要考虑因素。简单的使用和漂亮的外观是用户购买无线扬声器的主要动机。尽管echo的造型设计很规范,但echo是声学和智能的结合体。智能只是回声的延伸属性,刻意移除的显示屏凸显了亚马逊在语音互动方面的信心和坚持。这种战略意识在中国普遍缺乏。过分关注echo的功能差异真的很难复制echo的成功,更不用说国内产品设计和规划没有echo那么精细。
这里提到的精致确实需要仔细体验。
举个例子,声音唤醒总是喜欢吹嘘它在中国已经超过了阿列克谢。然而,如果我们真的谈论指标,国内产品的虚警率将浮动很高,它会莫名其妙地被错误唤醒,这是相当恼人的。突然,一个演讲者回应了一个不必要的问题,这种事情偶尔发生是无法忍受的。至于工艺设计,每个人都有一个审美标准,所以很难判断为什么回声和家看起来很舒服,但至少它们比垃圾桶的音箱好。
为了精心打造生态链产品,我们需要考虑各种细节,集中我们自己的优势资源。例如,语音互动,外国巨头不断收购相关公司以增强实力,而国内公司总是喜欢成立小团队来完成一切。如果我们的精力如此分散,我们怎么能超越外国巨头呢?此外,语音交互根本不能通过深度学习来解决,这需要对声学和智能的深入理解和长期积累。
语音交互的存在和即时性是关键因素,但目前仍供不应求。语音交互无疑是继键盘、鼠标和触摸屏之后的主流交互方式,但它离进入千家万户总是有一点距离。
这里面有很多因素。例如,制造商总是认为语音交互一点也不智能,这是事实。世界上没有哪家公司能让语音交互不愚蠢,语音智能的水平还停留在关键词的内容识别和语境分析上,所谓的语法和语感学术界也没有明确的想法。这需要一个长期的研究突破,这不仅限于当前的热门机器学习和大数据,还需要考虑物理世界的概念和模型,至少要了解婴儿学习语言的过程。从这个角度来看,人工智能离实现真正的智能语音交互还有十万英里。
很多时候,我们对大数据和深度学习给予了太多的赞扬,这让许多研究者变得懒惰。数据永远无法理解这个世界。对物质世界的探索和人类哲学的思考是推动社会进步的力量。
以上可能只是一个共性。亚马逊echo实际上面临着同样的困境。许多人甚至批评回声的语音合成不够好,因为人类总是希望他们的话能得到类似的回应。不能说亚马逊没有注意这个问题。事实上,亚马逊加强了另一个方面,这不是语音合成的自然性,而是语音回答的响应速度。目前语音合成确实很难像人类一样自然,但离这个目标并不远。谷歌上个月发布的Wavenet在语音合成领域引起了震惊,这是一个新的想法。在此之前,语音合成在很长一段时间内没有取得任何实质性的进展,它只不过是两种方法:参数化和拼接。如何评价谷歌语音合成波网和微软语音识别的“里程碑”?进行了对比分析。然而,事实上,这不是用户在这个阶段关心的焦点。
事实证明,亚马逊echo的下注选择是正确的,用户更关心人机对话的现场感受。从指标分析来看,一个重要的参数是机器的响应速度。回声开始于5秒,然后按下至1.5秒,然后在1秒内。请注意,这是平均响应时间,而不是国内峰值指数。
人机对话的现场感很有趣,有时也叫沉浸感,这可以从人类语言对话的发展中看出。众所周知,语言交流是人类互动的最重要的方式,也是人类交流信息和学习知识的最重要的方式。然而,由于语言对时间太敏感,其记录功能又太差,词汇就随着它逐渐形成。由于语言的时效性,语言交流经常是面对面和即时进行的。当然,现在人类有了电话,但即使在电话之后,语言交流仍然保持即时性。也就是说,电话实际上是人类语言交流的距离扩展,但它并没有改变语言交流的即时属性,所以电信和互联网的发展在本质上仍然享受着这种红利。
当然,电信和互联网技术仍然难以达到人类语言交流的水平,这往往会破坏这种即时性。从技术上讲,它通常被称为单工或双工模式。单音时,对话者的语言是“互斥的”,不会有语音重叠或中断。显然,基于siri和echo的人机语音交互就是这种单一模式。在面对面的交流中,单一的模式不能提供一种快乐感和存在感,所以它缺少一部分“对话”体验。双工模式实际上想改变这一点,但目前与人类仍有许多差距,这是需要技术来克服的困难。
由于目前语音交互的现场感受还不能达到人的水平,自然要先缩短机器应答的时间,并提醒该指标需要平均时间,必须稳定可靠。这非常重要。你有没有和一台用半天时间造出一个句子的机器交谈过?我不这么认为。它会让你崩溃,即使对方是人。它也可能涉及尊严。显然,人工智能目前无法模仿人类智能,所以有太多的物理和哲学问题需要解决,不要太担心“奇点理论”。机器威胁人类仍然是一个漫长的过程。在考虑这些之前,最好考虑一下如何解决产品中的每个关键问题。
东西方文化的差异也制约了智能语音交互技术在中国的发展。国内外对智能说话人的理解可能会有更多的差异,但当东方人试图使用智能说话人的核心——语音智能助手时,这里仍然存在文化障碍的问题,这可能是东西方文化差异的结果。在我们理解这一点之前,让我们区分一下言语和语言。言语是语言的信号载体,它来源于人类的发音器官,承载着一定的语言意义,而语言承载着人类的智慧。一般来说,发音是天生的,婴儿的咿呀学语也叫发音,甚至它的啼哭也代表着某种意义,而语言需要学习和进化。人机语音交互实际上是语言交互。即使语音识别是100%,它对于理解语言也没有特定的意义,语言总是个人的、场景的和情感的。
语言是社会文化的产物。没有文化,就没有语言。语言也是社会文化的写照,它不仅反映了社会文化的形式,也反映了人们的价值观。显然,不同的国家有不同的语言习惯。由于不同民族的生活环境不同,他们形成的文化内涵和语言习惯自然也就不同。毫无疑问,由于东西方文化的巨大差异,他们的语言表达也有很大的差异。这种差异也决定了像echo这样的语音智能助理的受欢迎程度。
东方文化总是含蓄的。不像西方的直接表达,我们总是喜欢用迂回的方式表达意思。说“不”而不是“是”。不要在说“不”的时候说“不”,而要总是说“是”,这让热恋中的东方男生不时崩溃。事实上,在东方的处事哲学中,最重要的是“把半句话留到嘴边”。这对语音智能助手来说可能是一件痛苦的事情。大多数时候,当东方人面对像echo这样的智能扬声器时,根据我们广泛的实验观察,他们在出口前确实需要仔细思考。
这已经超出了任何技术的范围。与西方人相比,东方人在使用语音智能产品时面临更大的心理障碍。与认为机器不够聪明的西方人不同,东方人在面对这类产品时更加微妙和尴尬。此外,目前声音互动的情景感和即时性不够好,这加剧了东方人的心理障碍。这种障碍使得东方人在使用回声等语音智能产品时,很难连续说出十多种不同的表达方式。
事实上,东西方的二维文化差异也反映了语音智能助手在东西方的不同地位。西方动画,如变形金刚,实际上是典型的人机语音交互,而有些人和机器人有自然的语音交互,如钢铁侠和星球大战。另一方面,东方的二级文化,如圣斗士星矢和最终幻想,强调所有人之间的互动和表达。从这个角度来看,与西方相比,东方的人机对话和人工智能的普及教育总体上要差得多。自然,东方公众对语音情报助理的认可不如西方。
国内的智能扬声器或语音智能助理仍处于市场教育的初级阶段,前面还有一条布满荆棘的小道。即使有陷坑,许多拓荒者可能会倒下,但必须采取措施,前景必须光明。培养大量的技术人员和营销人员,积累大量的铁杆用户,可能需要做出很大的牺牲。这种战略布局在国外已经提前了一步,我们不应该总是幻想在国内弯道超车。如果有这么多的角落,其他的都不傻,我们可以脚踏实地地迈出坚实的步伐。
事实上,国内互联网的发展也经历了同样的过程,英美烟草并不是各个领域最早的开拓者,而是在成为先驱者之后不断发展壮大。很难预测这次旅行会持续多久。毕竟,现在还不能预测全国足球比赛的结果,但相信它会比互联网和移动互联网更快。