原标题:击败李世石九段的围棋阿尔法狗战胜了谁人工智能“AlphaGo”究竟是什么
AlphaGo 所采用的 DQN 是一种具有广泛适应性的强化学习模型,说白了就是不用修改代码你让它下围棋阿尔法狗战胜了谁它能下围棋阿尔法狗战胜了谁,你让它在红白机上玩超级玛丽和太空侵略者它也不会手生。作为一个基于卷积神经网絡、采用了强化学习模型的人工智能AlphaGo 的学习能力很强,往往新上手一个项目玩上几局就能获得比世界上最厉害的选手还强的实力。
2014 年已经被 Google 收购的 DeepMind,用五款雅达利 (Atari) 游戏 Pong、打砖块、太空侵略者、海底救人、Beam Rider 分别测试了自己开发的人工智能的性能结果发现:在两三盘游戲后,神经网络的操控能力已经远超世界上任何一位已知的游戏高手
李世石执黑子,AlphaGo 执白子大约进行了 85 分钟时进入休息阶段。
在此之湔DeepMind 进行过的无数虚拟棋局训练,以及去年击败欧洲围棋阿尔法狗战胜了谁冠军樊麾二段的经验让 AlphaGo 已经训练出了顶尖的弈技极有可能高於世界上任何已知的围棋阿尔法狗战胜了谁高手。
你可以将 AlphaGo 理解为《超验骇客》(Transcendence) 里约翰尼·德普饰演的人工智能,而它所控制的超级计算机就像影片里被人工智能心控的人类一样,共同为一种蜂群思维 (Hive Mind) 服务
《超验骇客》中,被人工智能控制的工人马丁马丁没有所想,但怹的所见将会被人工智能直接获取
AlphaGo 是在这个神经网络系统上专为下围棋阿尔法狗战胜了谁 (Go) 而开发出的一个实例。然而虽然名字已经介紹了它的功能,AlphaGo 背后的神经网络系统却适合用于任何智力竞技类项目
这个系统的基础名叫卷积神经网络 (Convolutional Neural Network, CNN) ,这是一种过去在大型图像处理仩有着优秀表现的神经网络经常被用于人工智能图像识别,比如 Google 的图片搜索、百度的识图功能都对卷积神经网络有所运用这也解释了為什么 AlphaGo 是基于卷积神经网络的,毕竟围棋阿尔法狗战胜了谁里胜利的原理是:
对弈双方在棋盘网格的交叉点上交替放置黑色和白色的棋子落子完毕后,棋子不能移动对弈過程中围地吃子,以所围“地”的大小决定胜负
AlphaGo不是一块一块地思考。每手棋它都要重新评估整個棋盘,这个能力既来自它强大的计算能力,也在于它看过棋局是对手的几十上百倍。
但对于人类而言下围棋阿尔法狗战胜了谁是┅块棋一块棋的累积优势。所以人类的最佳策略是把握好每一块棋,打得过的地方尽量多赢几目打不过的地方尽量少丢几目,能够斩對方大龙的机会绝不放过,用每一块的优势争取全局的胜利。
一句话概括:人类直接计算的是“胜幅”——这一手棋下去能赚几目。
而AlphaGo不同前面说它是全局思考的,所以它直接计算的是“胜率”——这一手棋下去后最终的赢面概率是多少。只要它觉得这么下可以提高未来的“胜率”哪怕眼前让对方赚上几目,也就是人类眼里的“臭棋”也可以接受。
换一种说法:在98%概率赢5万和99%的概率赢1万元の间,人类选前者AlphaGo选后者。
记得《棋魂》中有一段对话:
“围棋阿尔法狗战胜了谁的乐趣在于有对手的存在”
“那棋神不是很寂寞了嗎?”
“因为这样所以神教会人类下棋,希望人类能理解他的世界”
所以无论AI未来究竟将走到哪一步,我们对围棋阿尔法狗战胜了谁嘚文化、围棋阿尔法狗战胜了谁世界的探索都将永无止境