夜狼猎奇网(www.goyelang.net)- 给你图文的世界

李世石首战阿尔法狗告败 AlphaGo究竟是什么(3)

来源:夜狼猎奇网 | 2016-09-07 |    

猎奇网:围棋从未像现在这样得到来自棋界内外、横跨体育界科技界的全球瞩目。人机大战才比了第一场,但好多人似乎觉得已成定局。因为李世石开局第一盘就输了,人类输给了机器。...

AlphaGo 是在这个神经网络系统上,专为下围棋 (Go) 而开发出的一个实例。然而,虽然名字已经介绍了它的功能,AlphaGo 背后的神经网络系统却适合用于任何智力竞技类项目。

这个系统的基础名叫卷积神经网络 (Convolutional Neural Network, CNN) ,这是一种过去在大型图像处理上有着优秀表现的神经网络,经常被用于人工智能图像识别,比如 Google 的图片搜索、百度的识图功能都对卷积神经网络有所运用。这也解释了为什么 AlphaGo 是基于卷积神经网络的,毕竟围棋里胜利的原理是:

对弈双方在棋盘网格的交叉点上交替放置黑色和白色的棋子。落子完毕后,棋子不能移动。对弈過程中围地吃子,以所围“地”的大小决定胜负。

不仅如此,AlphaGo 背后的系统还借鉴了一种名为深度强化学习 (Deep Q-Learning, DQN)的技巧。强化学习的灵感来源于心理学中的行为主义理论,即有机体如何在环境给予的奖励或惩罚的刺激下,逐步形成对刺激的预期,产生能获得最大利益的习惯性行为。

AlphaGo 所采用的 DQN 是一种具有广泛适应性的强化学习模型,说白了就是不用修改代码,你让它下围棋它能下围棋,你让它在红白机上玩超级玛丽和太空侵略者,它也不会手生。作为一个基于卷积神经网络、采用了强化学习模型的人工智能,AlphaGo 的学习能力很强,往往新上手一个项目,玩上几局就能获得比世界上最厉害的选手还强的实力。

2014 年,已经被 Google 收购的 DeepMind,用五款雅达利 (Atari) 游戏 Pong、打砖块、太空侵略者、海底救人、Beam Rider 分别测试了自己开发的人工智能的性能,结果发现:在两三盘游戏后,神经网络的操控能力已经远超世界上任何一位已知的游戏高手。

DeepMind 用同样的一套人工智能,不调整代码就去测试各种各样的智力竞技项目,取得了优异的战绩,足以证明今天坐在李世石面前的 AlphaGo ,拥有多强的学习能力。

在此之前,DeepMind 进行过的无数虚拟棋局训练,以及去年击败欧洲围棋冠军樊麾二段的经验让 AlphaGo 已经训练出了顶尖的奕技,极有可能高于世界上任何已知的围棋高手。

(转载请标注出处:夜狼猎奇网 www.goyelang.net)

相关推荐

退避三舍的主人公是谁?晋文公带领晋国成为霸主 退避三舍的主人公是谁?晋文

在春秋战国时期,晋国的重耳成功跑到了楚国。楚王对重耳很好,当做贵宾招待。重耳很感恩就告诉楚国等以后我重掌大权的时候,如果楚晋两...

 

编辑推荐

特别头条