本篇文章1753字,读完约4分钟
雷锋网(搜索“雷锋网”公众关注号)出版社:
田元东,博士,卡内基梅隆大学机器人系,硕士和学士学位,前谷歌无人驾驶飞行器项目组成员,现为facebook人工智能集团研究员,主要负责facebook智能Go项目黑森林。
贾杨青拥有加州大学柏克莱分校的计算机科学博士学位、清华大学硕士学位和学士学位。他曾在新加坡国立大学、微软亚洲研究院、nec美国实验室和谷歌大脑工作。他目前是facebook的研究科学家,主要负责尖端人工智能平台的开发和尖端深度学习研究。
最近,谷歌的人工智能部门deepmind开发了一种称为微分神经计算机(dnc)的神经网络模型,相关论文发表在10月12日在线出版的《自然》(Nature)杂志上,题为“具有神经网络和外部动态记忆的混合计算”。这种新模型将神经网络与能够读写的外部存储器相结合。它不仅可以像神经网络一样通过试错和样本训练进行深入学习,还可以像传统计算机一样处理数据。即使没有先验知识,dnc也能解决小规模问题,如规划最佳路线和拼图。
德国研究员赫伯特·耶格评论说,这是目前最接近数字计算机的神经计算系统,这一成果有望解决神经系统中的符号处理问题。
斯坦福大学思维、大脑和计算中心主任杰伊·麦克莱伦说,这项研究将成为人工智能领域的一个“有趣而重要的里程碑”。
那么,我们应该如何看待由谷歌深度思维团队发布的微分神经计算机dnc呢?果然,这个问题已经在智湖提出来了。
编者按:智虎问题中的“谷歌深度学习团队”实际上应该指的是“谷歌深度思维团队”。
截至发稿时,这个问题有两个答案,facebook人工智能集团研究员田元东给出的答案得到了44人的认可。
他认为“革命性的突破”被夸大了,总体上不如自然的前两篇文章。本文模型复杂,手工设计过多,实验相对简单。它还没有在大规模数据集上测试性能,可以成功地应用于小规模搜索,但推广需要很长时间。
田元东的回答在智湖,贾做了回复(链接)
贾认为,在过去,功能主要是手动调整,但这个dnc实际上是一个手动调整的网络。他在评论中提到的吉登德拉应该是加州大学伯克利分校电气工程和计算机科学系的教授吉登德拉·马利克。
在田元东的英语博客上,我们可以看到更多他对这篇论文的看法。让我们先来看看这篇题为《深度思维第三自然》的文章。
以下是博文内容:
最近,deepmind在《自然》杂志上发表了他们的第三篇论文“神经网络和外部动态记忆的混合计算”。他们设计了一种递归神经网络结构(Deep lstm),该结构反复向外部存储器发送新的读/写命令,并基于先前的读存储器和当前输入输出动作。他们称之为微分神经计算机。在这里,我们希望网络能够根据给定的信息进行推理。他们使用实验模型来处理babi推理任务、网络遍历/最短路径预测、家谱关系推理和拼图推理,其性能远远优于没有外部记忆的lstm。
以下是一些评论:
1.一般来说,他们隐式学习基于搜索推理的启发式函数。正如他们在文章中提到的:“基于最短路径训练的dnc的可视化结果显示,它将从开始到结束逐渐探索每个节点辐射的关系,直到找到整个连接路径(补充视频1)。”我们也可以在伦敦地铁任务中看到类似的情况(图3)。这在小规模搜索实验中可能是有效的,但在处理实际问题时,这不一定是一个好策略。
2.网络中似乎有很多手动调整设计。网络是外部存储器的下一组操作。对外部记忆的操作有多种类型,它们结合了不同类型的注意机制(基于内容的注意模型,其次是写注意模型,以及基于读写的“使用”机制)。不确定哪个组件更重要。理想情况下,应该有一个更自动化或更常规的方法。
3.几个有趣的细节:
(1)直接用实际情况的答案来训练连续结构预测模型不是很好,因为当预测偏离实际观测时,模型很容易失败。在本文中,他们使用了一个混合了实际观测分布和当前预测分布的Dag来进行结构预测。这使得预测更加可靠。
(2)对于拼图游戏,他们使用类似演员的模型。在这种情况下,dnc的输出策略和价值函数依赖于游戏规则作为开始时的输入。这与我们在训练末日人工智能方面的经验是一致的,类似于演员批判的模型的收敛速度比q学习的快。
(3)课程培训(例如,从简单的任务开始)起着重要的作用。这也符合我们训练末日人工智能的经验(我们将很快发表相关论文)。
来源:罗盘报中文网
标题:谷歌 DeepMind 的可微分神经计算机 DNC 怎么样?看 Facebook AI 研究员田渊栋、贾扬
地址:http://www.lzn4.com/lpbxw/12582.html