本篇文章2904字,读完约7分钟
【编者按】这篇文章是雷锋发表的一篇老文章。com 9月,由王鹏主编,学术圈的志社。最初的标题是“深度学习机自学象棋72小时,相当于国际大师”。资料来源:麻省理工学院技术评论。
谷歌“深层思维”的创始人宣布,谷歌在人工智能领域取得了重要进展:它开发了一个程序,可以在围棋(Go-alphago)中击败专业玩家。《自然》杂志还以封面纸的形式介绍了AlphaGo击败欧洲围棋冠军范辉的情况,并将于3月迎战世界冠军李时珍。除了alphago,一些专家早些时候提到了人工智能机器——“长颈鹿”,它可以通过自学下棋,并像人类一样评估情况,这完全颠覆了传统的象棋程序。
自ibm开发的超级计算机深蓝(Deep Blue)在标准锦标赛规则下首次击败世界象棋冠军加里·卡斯帕罗夫以来,已经过去了近20年。从那以后,电脑棋手“不断改进”变得如此强大,以至于顶尖的人类棋手在面对运行现代象棋程序的智能手机时几乎没有机会。
虽然电脑运行得越来越快,但象棋程序的工作模式并没有改变。他们的力量总是依赖于穷尽的方法,也就是说,穿越所有未来可能性的过程来选择最好的棋路。
当然,没有人能做到这一点,即使离它很近。当深蓝以每秒2亿步的速度搜索和计算时,卡斯帕罗夫每秒最多只能思考5步。但是他仍然可以打同样的水平。显然,人类已经掌握了计算机尚未掌握的秘密。
问题的关键在于评估盘的情况,减少对最佳棋路的搜索。这将大大简化计算工作,就像代表象棋可能性的茂盛的树被修剪成只有几个分支一样。
计算机从来就不擅长这种工作,但是今天,在帝国理工学院的马修·赖的努力下,事情发生了变化。
赖发明了一种人工智能机器,并将其命名为长颈鹿。它可以自学下棋,像人一样评估形势,彻底颠覆了传统的象棋程序。
作为直接应用的结果,这种新机器已经达到了与顶级传统象棋程序相同的水平,这些程序已经优化了很多年。当与真人对弈时,相当于国际象棋联合会的国际大师水平,在国际象棋锦标赛选手中排名前2.2%。
赖的新机器背后的技术是神经网络系统。这是一个基于人脑的信息处理模型。它包含多层节点,这些节点相互连接,可以通过训练对系统变化进行反馈。在训练过程中,大量的例子被用来微调节点连接,使神经网络能够根据特定的输入产生特定的输出。例如,人脸识别是在图片中进行的。
近年来,神经网络的快速发展得益于两个方面的进步。首先,通过学习神经网络,我们对如何微调有了更好的理解。这部分是由于更快的计算机;第二是大量注释数据集的出现,这使得神经网络能够更好地学习。
这些成就使计算机科学家能够训练分成多个层次的更大的神经网络。这些所谓的深层神经网络非常强大,它们在日常模式识别方面比人类更有能力,比如人脸识别和手写识别。
因此,深层神经网络能够探索象棋中的模式也就不足为奇了,这也正是赖所采用的方法。他的网络系统由四个层次组成,棋盘上的每个状态都有三种判断方法:
首先,系统会观察游戏的整体情况,如双方棋子的数量和类型,哪一方移动,以及王车的右移位等。此外,系统会检查棋子的相关信息,如每一方的每一个棋子的位置;最后,画出每个棋子的进攻和防守模式。
赖的神经网络系统的训练数据材料是从真正的国际象棋比赛中精心挑选出来的。此数据集必须具有正确的象棋布局。他说:“例如,训练系统掌握每边有三个皇后的象棋比赛是没有意义的,因为这种布局永远不会出现在实战中。”
除了在高水平国际象棋比赛中经常看到的情况外,它还必须包括大量不平衡的国际象棋比赛。因为尽管在真正的国际象棋比赛中实力相差不大,但它们仍然经常出现在电脑内部进行的搜索中。
这个数据集需要有相当大的规模。在训练过程中,神经网络中大量环节的微调只能在大量数据集的基础上完成。如果使用小数据集,神经网络将无法识别现实世界中不断变化的模式。
赖从计算机象棋比赛的数据库中随机选择了500万个磁盘状态来生成他的数据集。然后,他在每个州随机增加一个合理的步行来创造更多的变化,最后将其应用到训练中。这样,他总共生成了1.75亿个磁盘状态。
训练机器的通常做法是手动评估每个磁盘的情况,并将这些信息输入计算机,以便它能够识别游戏的强度。
对于1.75亿个磁盘来说,这是一个巨大的工作负载。虽然这可以通过另一个象棋程序来完成,赖却有更大的期望。他希望这台机器能独立学习。
因此,他采用了一种引导技术,使长颈鹿能够通过与自己对抗来提高自己预测未来国际象棋比赛评价的能力。这种方法是可行的,因为每一次行走都有其相应的参考分数来确定其价值——无论游戏是赢、输还是平。
通过这种方式,计算机可以掌握哪些情况是有利的,哪些是不利的。
训练长颈鹿后,最后一步是测试它们,结果非常有趣。赖使用一个名为“战略测试套件”的标准数据库来测试他的机器,其中包含1500个预设的象棋游戏,以测试象棋程序识别各种战略思想的能力。他说:“例如,有一个设置可以测试对开放线控制的理解,另一个设置可以测试对象和马的值在不同情况下如何变化,以及它们对各自影响的理解,还有一个设置可以测试对中央控制的理解。”
测试结果是满分15,000分。
赖用这种方法在不同的学习阶段测试了机器。在自举过程的开始,长颈鹿很快达到了6000点,72小时后攀升至9700点。赖说,这可以媲美世界上最强的象棋程序。
”(这一成就)是伟大的,因为那些评估函数是由人们精心设计的巨量函数,包含数百个参数。在过去的几年里,它们一直是手动和自动调试的,其中许多都是由国际象棋大师们完成的。”他补充道。
Lai继续使用同样的机器学习方法来确定某个步骤值得执行的概率。这一点非常重要,因为它将避免对无用分支进行不必要的深度搜索,从而大大提高计算效率。
赖说,这种概率方法有46%的机会预测最佳步行方法,有70%的机会列出前三个选择中的最佳步行方法。所以电脑不需要检测其他方式。
这项有趣的工作标志着国际象棋程序运行模式的巨大变化。当然,这并不完美。长颈鹿的一个缺点是神经网络比其他类型的数据处理要慢得多。赖说,为了搜索同样数量的象棋游戏,长颈鹿花的时间是传统象棋程序的10倍。
然而,即使有一些缺点,它仍然是非常有竞争力的。赖介绍说:“长颈鹿在现代主流电脑上运行时,可以达到真正的国际象棋大师的水平。”相比之下,顶级象棋程序可以达到超级大师的水平。
这已经很棒了。
“与今天的许多国际象棋项目不同,长颈鹿的国际象棋技能不是来自对未来可能性的探索,而是来自对当前复杂形势的准确评估和对复杂国际象棋概念的理解。”这些概念对人们来说是非常直观的,但它们长期以来一直难以理解象棋程序。”赖说:“这在比赛的开始和结束都非常重要,在这里尤其突出。”
这只是开始。赖说,这种方法应该直接应用于其他游戏。最明显的例子是传统的中国围棋。目前,人类仍然比他们的硅对手拥有绝对优势。也许莱将来能有所突破。
[作者简介]致仕学术圈是海归发起的公益性学术交流平台,旨在共享学术信息,整合学术资源,加强学术交流,促进学术进步。
推荐阅读:
1.谷歌人工智能击败了欧洲围棋冠军。阿尔法戈是怎么做到的?
2.智慧的智慧,过去30年来人工智能大师们的事情