本篇文章2825字,读完约7分钟
11月17日,facebook副总裁石峰在2016年世界互联网大会上表示,人工智能已经融入facebook产品的方方面面。他们希望人工智能能帮助所有人在facebook上制作更好的视频,而不仅仅是专业人士。最重要的技术之一是视频稳定技术,这样即使是普通人也可以变得更加专业。
史风说,如果有人试图愚弄镜头,不管他移动多快或不断改变自己的体形,他都能快速识别和跟踪这个人的活动。就像当照片识别第一次被引入时,(系统)已经达到了97%的人脸识别准确率,现在它在人脸识别方面比人类更好,在视频中,它也是从人脸识别开始的。
他还提到,facebook两周前刚刚开始在爱尔兰测试新技术,而手机将能够运行人工智能,也就是说,神经网络已经被引入facebook应用程序,并且所有操作都由手机完成。
他说,这些都超出了现有的人工智能在图像和视频识别和自动翻译领域的应用。“训练人工智能需要很长时间,就像教孩子打棒球一样。一方面,我们有超过十亿的人在寻找内容,另一方面,我们有上亿的内容发布给他们。他们能理解如何平衡两者,所以我们每天都做很多预测,最令人兴奋的是我们能得到很多反馈。”
以下是史风的讲话记录:
大家早上好!我很高兴第三次参加世界互联网大会。我每年都来,但是我的中文仍然很差,所以我不会让每个人尴尬。我最好用英语发表演讲。在我们的工作中,我们认为最重要的是人工智能。接下来,我将介绍人工智能在脸书上的发展。可以说,人工智能已经融入到我们产品的各个方面。今天,我将给你们举许多例子。例如,人工智能支持我们的硬件和软件。最后一部分介绍了我们最近的研究成果,即如何教机器阅读文本。
例如,当我们谈论新闻推送时,让我简单介绍一下。每天有12亿用户访问脸书。可以说他们在这里花了很多时间。就我们公司而言,我们的工作是为这12亿人服务。我们为他们提供了许多故事和许多内容。就我们而言,我们的工作是了解用户真正想要的故事,并将这些内容推给他们。
例如,我们知道每个用户的兴趣,并向他们提供相关内容。例如,当我在乌镇的时候,如果我的妻子和孩子发照片显示他们正在爬黄山,我绝对希望他们是我新闻宣传的第一个人,因为他们是我最关心的人,他们的登山活动也是我的兴趣所在。今天我很高兴再次来到乌镇。我还记得去年乌镇也很棒。
从人工智能的角度来看,我想这里的每个人都知道人工智能不同于传统的计算机。这更像是一个孩子学习世界,而不是预先编程,所以我们需要很长时间来训练人工智能,就像教孩子打棒球一样。一方面,我们有超过十亿的人在寻找内容,另一方面,我们有上亿的内容发布给他们。他们能理解如何平衡两者,所以我们每天都做很多预测,最令人兴奋的是我们能得到很多反馈。
一旦我们向用户发布内容,我们就知道他们喜欢什么,他们和朋友分享什么,他们点击什么,他们看什么视频等等。所以我们每天都可以得到很多反馈,这也可以帮助我们在这个过程中训练系统。因此,如果你正在做人工智能,你必须认为这是一个理想的情况。另外,现在有两件事可以帮助我们成功。我们回到1992年,那时我刚刚完成博士学位,我的部分研究是人工智能。就我个人而言,我认为1992年指日可待,但实际上我们已经看到在这个过程中计算机资源的飞跃。
可以说,如果我们离开这个飞跃,我们今天肯定无法处理如此大量的数据。可以说,更令人兴奋的是,我们在这一领域取得了真正的进展。如果你看这个ppt,你可以在这个图表上看到智能竞赛的结果。在左边,你可以看到系统的准确性,内容是图像识别。你可以看到在四年内准确率从55%提高到了80%,这是一个很大的进步。当你看这些圆圈时,你可以看到计算能力。尤其令人兴奋的是最近的系统。你可以看到计算能力与四年前相比有了很大的提高。在下一部分,我们将讨论这些技术如何影响我们的日常活动。你可以看到这里有一些例子,告诉我们如何分析脸书上的图像,所有的内容都已经与人工智能结合在一起了。
接下来,我将向你介绍一些图片和视频。我认为这是一项尖端技术。我认为很多脸书用户,其中一些有视觉障碍,以前不能识别图片。现在我们可以帮助他们了。例如,看这里的视频,我们也可以让人们分析这些图片。所以如果你是盲人,这无疑是一个巨大的发展和进步。此外,我们知道脸书上的内容增长迅速,即视频。在这里我们不释放声音,但在这里我们可以看到我们的自动翻译。您可以在底部看到文本,这意味着声音材料。所以即使你不打开声音,你仍然可以通过阅读字幕来知道下面的内容是什么。
我们希望帮助所有人在Facebook上创建更好的视频,而不仅仅是专业人士,所以一项非常重要的技术是视频稳定技术,我们使用人工智能技术,这样即使是普通人也可以更专业,在这个领域快速发展。我们一直以人为本,受技术驱动,所以我们的技术最关心人。这是一个开发商,他试图愚弄这里的摄像机。他们的运动速度很快,R&D人员的运动速度也很快,而且他们还在不断地改变自己的身体姿势和穿着衣服。我们知道衣服的运动姿势与人的不同,有时颜色和背景颜色会被调整,但即使如此,系统也能快速识别和跟踪这个人的活动。就像我们第一次引入照片识别一样。在过去的两年半时间里,我们已经实现了97%的人脸识别准确率。现在我们比人类更擅长人脸识别,我们从视频中的人脸识别开始。
这是一些其他的例子和我们的突破。这是一项新技术,我们两周前刚刚在爱尔兰开始测试。如你所见,在历史上第一次,你可以带着手机运行人工智能。这项技术是什么样的?我们在脸书应用中引入了神经网络。你只需要用手机拍一张照片,然后你可以选择一个著名的艺术学校过滤器,然后添加照片,形成最终的结果,这是实时的。说起来很有趣,因为所有的过程和计算都是在手机上进行的。一般来说,在过去,有必要访问云以获得计算能力。我们仍然在用原来的方式训练我们的系统,但是我们现在更快了,我们只需要手机的硬件来完成原来的计算。
为了进一步发展技术和促进人工智能,我们不断发明新的硬件,这可以帮助我们以更快的速度处理更多的数据。我也很高兴我们都是开源设计。最近,我们还向9个不同的国家和19个金融机构提供了支持,从而使这些行业取得更快的进展。我们为他们提供专门设计的硬件,我们也很乐意帮助各方面取得进步。
刚才,我分享了一些具体的例子,并向大家介绍了我们产品中的技术。接下来,我将向你介绍我最感兴趣的研究领域。我们的系统可以有效地告诉你,左边是一个比萨饼,右边是一个戴眼镜的人手中的香蕉。但是有两件事电脑做不好,一是理解场景和文本,二是制作。例如,在左边,我们问电脑这是不是素食披萨,但是电脑很难回答。在右边,问这个人是否有2.0的视力,电脑不能回答。人们可以回答这些问题。因为在这个问题上,你很快就会知道素食不是肉,你也会知道它绝对不是素食。当你看着这个戴眼镜的人的右边,你会知道这个人的视力绝对不是2.0,但是机器做不到。我们能做些什么让机器理解这些文本?我们必须解决这个问题。