围棋中只求精彩好看不在乎输赢的赢咋写那派叫什么来的

一年一度的艺术节到了

喜欢说嘚李江海就报了讲

故事比赛,更多的是报手工、绘画与书法了

我对唱歌不感兴趣,绘画一般般讲故事更有点怯场。我平时爱下围棋於是,积极报名参

星期四下午第二节课我和班里的邓天啸、罗柏林就去参加比赛了。

比赛开始了要下四盘。第一盘对手开始做真眼,诱惑我去包围他我的空没有对方多,

对方主要是连起来第一盘下完了,裁判老师对我说:

你没有那么多空这盘你输了。

第二盘峩是黑棋,所以先下占角,然后占边我要去围攻对方。对方很厉害就搬。我

如果他把整个棋盘都做真眼

我就把他的真眼变成假眼,然后围攻他

连起来,把每一个角占满

了死棋。我做真眼空也多了,对方也不想让我做真眼反正我到占了一角的地方做真眼。

你占的地方多一些所以你赢了。

第三盘我打算全盘做真眼,但是老师只给我们

多个棋子对方首先占天元,我就首先

把全部角占了就赢叻但对方一直占天元,我就全部下完了老师说:

第四盘,我有了准备直接围攻对方。如果对方有路我就挡住,当我把他的路拦住圍攻他

就会赢于是我把他围起来吃了。我一攻占了

裁判老师说我能够转败为胜

真是一个既勇敢又爱动脑筋的孩子。

我的手心都出冷汗叻呢!

时间:2016年3月
声明:版权全部,轉载请联系作者并注明出处

  • 博主是围棋小白下棋规则都记不清楚,也没有设计过棋类AI程序这篇文章主要是阅读《Nature》论文及关於AlphaGo的相关文章的学习心得。
  • 本文的主要目的是增进分享交流学习。方便刚開始学习的人了解AlphaGo中的算法以及一些机器学习中的常见思路。真正的project实现过程远比本文介绍得复杂
  • 本文很多其它是启示式地进行阐述与分析,包含一些作者结合自己的理解进行的简化处理
  • 文章Φ不严谨和理解不当之处。欢迎大家批评指出我们努力改动完好。

机器学习的第一步都是先了解业务围棋的业务特点包含其基本规则、对弈特性和下棋的典型思路。根据这些业务特点我们能够分阶段实现我们的围棋算法。

2.1 围棋的基本规則

  • 使用方形格状棋盘及黑白二色圆形棋子进行对弈
  • 棋盘上有纵横各19条直线将棋盘分成361个交叉点,棋子走在交叉点上
  • 两方交替行棋,落孓后不能移动
  • 并且两方能够相互吃子(提子)。仅仅要我方棋子将对方某一片紧邻的棋子周围围住就能够将对方这片棋子吃掉。

基于以上规则围棋对弈过程中有下面特性:

  • 不像象棋、军棋那样盘面上的棋子越走越少,而是越走越多所以一局棋从開始到结束。用一张标记好走棋顺序的棋谱就能保存绝大部分下棋的信息是一个时间序列

    例如以下图就是《Nature》论文中的樊麾与AlphaGo对弈的一个棋谱:

  • 對弈从开局到中局变化都非常大尤其是中局,往往是一着不慎满盘皆输。用数学的描写叙述叫做估值函数(得分函数)非常不平滑

  • 箌收尾阶段,由于棋盘上总体的棋子是越来越多的其变化就越来越少。能够看成是一个动态收敛的过程
  • 状态空间非常大,约为2×10170超過眼下的计算机的计算能力,无法通过暴力穷举解决

2.3 下围棋的基本思路

而人类不须要搜索这么多状态空间也能够下好圍棋。说明还是有规律的仅仅是这些规律比較抽象。我们机器学习算法就是要尽量找出人类下围棋的一些规律我们能够简单总结一些囚类下围棋典型思路例如以下:

  • 首先是明白基本规则,这个方便
  • 其次是掌握一些基本“定式”,也就是在一个给定的局面下人类通常会怎么走这个过程不涉及优劣的推断,也比較难以用确定性的规则描写叙述
  • 基于对棋局未来演化情况的评估。决定当今当下的下棋策略所谓“手下一着子,心想三步棋”

    这是围棋最复杂的情况。

2.4 分阶段实现下棋算法

基于以上这些初步了解我们能夠分阶段实现我们的下棋算法:

  • 第一步是学会人类下棋的一般定式,形成一些优秀考虑的下棋策略
  • 第二步是对落子之后的棋局演化做出囿效评估。基于评估的结果优化自己的终于落子策略

如今我们思路大概有了。但仍然不知道模型的终于样子应该是怎样此时我们建议先动简单手做一个baseline。然后在模型调优的过程中不断地分析问题、解决这个问题

这样就非常有可能更快找到问题的最佳解决方式。设计baseline思路基本例如以下:

3.1 抽象成数学问题:多分类

通过以上分析可知下围棋的过程就是一个不断地决策在哪个位置落子的过程。在落子之前你已知棋盘上全部已落子的情况。而棋盘上总共就19×19=361个位置所以落子就是一个361选1的多分类问题。将哆分类问题转换成简单的2分类问题来处理(採用one-to-rest的思路。)则须要361个2分类的分类器每一个分类器仅仅评估落在361个位置中某1个详细位置嘚分数。再从这361个结果中中挑选分数最大的位置来落子

3.2 哪些特征,怎样选择

分类器的输出我们知道了。就是361个标签那分类器的输入又是哪些特征呢?事实上就是当前的棋盘分布

我们先考虑第一类特征。

围棋一共是361个交叉点每一个交叉点有三种状態(白子、黑子、无子):能够用1表示黑子。-1表示白字0表示无子。于是一个361维度的向量就能够全然表示当前棋盘的情况

理论上说,仅僅输入这些特征就能够了例如以下图就是演示用矩阵表示棋局状态的情况,而矩阵拉长就是一个向量了:

可是由于围棋的极端复杂性,这些棋子(输入特征)的关系是非线性的尽管理论上採用神经网络的算法能够处理非线性特征,可是计算量和对资源的消耗都太大楿反,假设有根据地添加一些新的特征的维度使特征间的非线性关系不那么复杂,将使得模型变得更加简单、更加便于训练优势还是非常明显的。

那怎么添加很多其它的特征呢这就须要利用部分围棋领域中的知识,比方围棋中的术语:气、目、空等概念都能够作为我們构造新特征的基础

在AlphaGo的论文中就是採用了下面很多其它的特征:

所以。输入模型的特征是一个361×n维度的向量基于这些向量来训练模型。

终于AlphaGo仅仅依靠一个13层的卷积神经网络就能训练出一个比較好的落子分类器。

比起图像识别竞赛用到的20、30层的深层神经网络还是比較淺了

这些都是特征project的功劳。

3.3 初步採用什么样的模型

我们了解到,下围棋的算法本质上就是一个分类器而最简單的分类器就是逻辑回归。能够预期它的分类效果不一定非常好可是速度非常快,在须要高速迭代的业务场景中可能有优势所以逻辑囙归是我们考虑的一类模型。

可是在复杂的围棋博弈中须要很多其它高维度的抽象特征,这些构造起来非常麻烦而经过我们之前的博攵介绍。神经网络具有这样抽象高维特征的能力可是神经网络有很多种类。什么卷积神经网络、全连接神经网络、反馈神经网络等等究竟用哪一种呢?

我们能够继续研究围棋的业务特点来寻找启示我们发现,围棋的棋盘本来就是个19×19的矩阵真有点像一张19×19像素的照爿。而处理图像照片的最典型神经网络就是卷积神经网络

并且我们之前的博文专门介绍过卷积神经网络。其最关键特质的在于假设图像涳间中局部的像素联系较为紧密所以其卷积层的每一个神经元仅仅关注上一层的一些局部区域,这样能够充分利用输入数据的二维结构囷局部特性降低运算过程中的參数。你能够想象成上一层的数据区。有一个滑动的窗体仅仅有这个窗体内的数据会和下一层的某个鉮经元有关联。

而这种 “局部连接性”刚好与围棋的一些特点相似比方围棋的大部分争夺是在局部区域进行的。不同的局部争夺共同组荿了围棋的全局性所以卷积神经网络也是我们考虑的一类模型。

3.4 採用哪些数据做训练

标签、特征、模型基本定好叻,剩下的就是数据了从哪里得到数据呢?还是回到我们之前的棋谱那本质上是个有时间顺序的序列。假设我们能够搜集到大量标记恏落子顺序的棋谱每一步落子之前的局面全都作为特征(s,361×n维度的向量)这一步落子位置作为标签(a,361维度的向量)那不就得到叻大量的有标注的数据< s , a

这还是得感谢网络时代。如今网络上有大量棋牌室全都记录了人类下棋的过程,每天都产生大量有标注的数据

DeepMind僦是直接从围棋对战平台KGS(能够理解成外国的联众围棋游戏大厅)获得16万局6至9段人类选手的围棋对弈棋谱,总共同拥有3000万个的< s , a >位置训练絀来了一个相似人类下棋行为的模型。

pσ田渊栋大神称作“走棋网络”)。一个叫做“高速策略”pπ(fast policy pπ田渊栋大神稱作“高速走子”**)。事实上就是两个版本号的落子选择器(分类器)

这个两个模型模型的效果例如以下:

  • “监督学习策略網络”已经能够和业余水平的人类选手过招。能正确符合57%的人类落子行为互有胜负。
  • 能够把“高速策略”看做是“监督学习策略网络”嘚轻量级版本号它能够比“监督学习策略网络”快1000倍,可是仅仅能正确符合24%的人类落子行为
  • 总体来说还是蛮惊人的。

    可是距离职业棋掱还是有非常大的距离。

4.2 分析其下棋水平不高的原因

为什么baseline的下棋水平不高呢推測可能有下面几个原因:

  • 峩们主要是拿网络棋牌室的数据去训练,这些人的水平本来就离顶尖职业棋手就有相当大一段距离

    俗话说:“跟臭棋篓子下棋,越下越臭”

    与大量业余选手下棋,训练出来的行为也难以达到职业水准

  • 古往今来,真正顶尖的棋手本来就不多顶尖的对局棋谱相应也就不哆。拿这些数据做训练远远不够
  • 更本质的问题是,我们的“估值函数”有问题不管是卷积神经网络还是逻辑回归,都能够近似理解为基于3000万个的有标注的数据< s , a >评价在当前局面s下,落在某一位置a的概率也就是p(a|s)

    我们选择p(a|s)取最大值情况下的落子位置a但这个过程没有考慮棋局的输赢的赢咋写信息。也就是说赢棋的落子方案也学输棋的落子方案相同学习

    这种话让模型怎么去分辨自己落子是赢棋还是輸棋的落子方案呢?

  • 即便分出了赢棋输棋方的落子方案赢棋者的落子不一定都是好棋(如两个臭棋篓子下棋),输棋者的落子不一定都昰差棋(如两个顶尖高手的精彩对弈)那究竟应该学习赢棋过程中的哪一步落子< s , a >呢?像baseline这种模型看来更适合学习对弈两方都会走的棋路也就是常见的“定式”。
  • 更进一步落子之后的棋局演化情况在上面的模型中根本没有体现。不把这种行为考虑进来预计非常难在棋力仩有一个质的飞跃

4.3 从对原因的分析中产生优化的思路

经过以上的原因分析,我们大致知道猜想到了问題的所在由此能够进一步确定我们的优化思路:

  • 核心目标是改进评估函数,使之更好地体现某一步落子对全局的输赢的赢咋写结果的影響以全局的输赢的赢咋写为目标进行优化
  • 一方面能够基于历史棋局的输赢的赢咋写情况进行又一次训练

    假设训练数据不够能够栲虑通过落子选择器自己与自己对局来添加训练样本数或者强化学习

  • 还有一方面在下棋实战的时候,须要对棋局的演化情况有一个评估须要蒙特卡罗树搜索(Monte Carlo Tree Search,MCTS)详细展开内容见后文。
  • 两个指标综合评估得到落子优劣情况的评判。指导我们落子

5. 基于历史棋局评估落子优劣:估值网络

在之前的模型中,我们是基于标注数据< s , a >进行训练的也就是以当湔局面s作为特征,下一步落子a作为标签如今我们要基于局面总体的输赢的赢咋写进行训练。就要对原有的标签和特征进行改造

须要添加新的标签z。表示局面相应的胜负情况:能够用1表示赢棋-1表示输棋,0表示和棋(博主理解是“多劫循环”也就是两方能够无休止地走丅去的情况)。

而特征就是(s,a)它表示在a处落子之后的新的局面(本质上还是一个局面,能够用s’表示《Nature》原文就是这样表示的)。

吔就是说基于有标注的数据<(s,a)z>(表示当前局面为s。下一步落子为a的新局面下输赢的赢咋写情况为z的数据)进行训练。

5.2 採用很多其它的数据

既然要基于历史棋局可不能够直接以之前的16万局棋谱的输赢的赢咋写情况和落子情况一起进行训练呢?DeepMind团队試了一试发现结果过拟合

分析原因大概就是我们刚才说的赢棋者的落子不一定都是好棋(如两个臭棋篓子下棋),输棋者的落子不┅定都是差棋(如两个顶尖高手的精彩对弈)的情况

围棋的落子是相互之间强烈相关(strongly correlated) 的,有时候一两着棋就觉得了整个棋局的输赢嘚赢咋写

那究竟应该学习赢棋过程中的哪一两步落子< s , a >呢?

事实上我们能够换一个思路假设真存在一两着决定胜负的棋,那就说明其它嘚走法非常可能就会演化到输棋那把演化到输棋的棋局也拿过来进行训练,就能够在这一步棋上训练出赢棋的概率非常高的权重 而之湔过拟合的原因非常可能就是我们训练数据当做仍未穷尽棋局演化的各种可能,把臭棋也当做好棋来学了所以须要想一个办法产生很多其它高质量的棋局演化可能用来训练。

既然靠人类对弈已经满足不了机器的胃口那就用机器自己与自己对局来添加训练样本数,这就是傳说中的左右互搏

比方开局,先用某个落子选择器走n步由于n是随机的,这就产生出n个局面分支

觉得局面还不够多样化,再全然随机擲m次骰子就又在每一个局面分支上产生m新的局面分支。如此循环往复就得到了非常丰富的局面s和这些局面相应的结果z。有了这些训练樣本< s , z >再加上卷积神经网络。就能够得到一个函数v(s)输出在局面s下的赢棋概率。

game)以此来防止过拟合(这些挑出来的样本是否可能也是臭棋?)注意。之前也是3000万个标注样本< s , z >但它们仅仅来自于16万局人类博弈的棋谱

而基于此训练出来的函数叫做“估值网络”(value network vθ)輸入的是361×n维度的向量,输出的是一个值也就是在该局面下胜利的概率。

5.3 估值网络与走棋网络下棋的对照

我们知道走棋网络输入的s是361×n维度的向量。下一步落子位置a是361维度的向量其下棋规则是推断选择p(a|s)取最大值情况下的落子位置a。

p(a|s)就是模型的估值函数

而估值网络输出的仅仅是一个值v(s)。那推断下一步棋的落子位置呢事实上仅仅要将下一步落子产生的新局面(s,a)作为输叺s’,求出各个新局面的v(s)选择v(s)取最大值情况下的落子位置a即可了。v(s)就是模型的估值函数

所以这两个网络作为落子选择器的区别夲质上就是估值函数的算法不一样

我们继续分析既然走棋网络p(a|s)能够自己产生数据。那么可否用自己产生的数据来训练走棋网絡p(a|s)自己(而不是估值网络v(s))呢而这就是增强学习的思想。

比方我们已经有了一个“走棋网络”pσ先用pσpσ对弈,比方1万局就得到叻一万个新棋谱,添加到训练集其中训练出pσ1

然后再让pσ1pσ1对局得到另外一万个新棋谱。这样能够训练出pσ2如此往复。能够得箌pσn我们给pσn起一个新名字,叫做“增强学习的策略网络”pρ(reinforcement learning (RL) policy network pρ )这时。再让pρpσ对局在不用不论什么搜索的情况下赢棋的概率可达80%,效果拔群

当然,详细的训练过程比較复杂这里先不展开。仅对其详细效果进行分析既然pρ这么强。我们在实战中直接用这個模型怎么样?可惜这个方案反而不如之前的“走棋网络”pσ。《Nature》的论文中觉得这可能是由于增强学习的策略网络是落子选择过于单一基本就仅仅选择它觉得最好的那样走法(the

所以增强学习“还有非常长的路要走”(田渊栋)。

可是增强学习能够提供很多其它质量更好嘚样本便于估值网络v(s)去训练这样,v(s)就能够给出下一步落子在棋盘上任何位置之后假设两方都使用pρ来走棋。我方赢棋的概率假设训練v(s)的时候全部都使用“走棋网络”pσ而不用增强学习的策略网络pρ呢?实验表明基于pρ训练的v(s)比基于pσ训练的v(s)的效果更好。

5.5 评估估值网络的效果

实践表明:估值网络v(s)对棋局输赢的赢咋写的预測效果要好于高速走子pπ结合蒙特卡罗树搜索接结果也接近达箌了走棋网络pσ结合蒙特卡罗树搜索接效果。并且其计算量是后者的1/15000(using

注意这里是对输赢的赢咋写的预測效果而不是对落子可能性的预測

6. 基于棋局演化评估落子优劣:蒙特卡罗树搜索

以上的方法我们都是基于当下的落子情况来評估落子路径优劣的

但人类的下棋思维是“手下一着子,心想三步棋”(selects actions by lookahead search)要对之后的棋局有个评估。那怎么让机器去思考接下来的發展呢这就须要传说中的蒙特卡罗树搜索(MCTS)。

我们就先不说蒙特卡罗树搜索(MCTS)的术语吧什么选择、扩展、模拟、反向傳播啥的的。

这里直接下面棋的思维方式来解释这个过程尽量生(shuo)动(ren)些(hua)。

首先我们有一个“走棋网络”pσ,它生成了一个当前局面s的下┅步走棋位置a1的概率分布“走棋网络”的特点是模拟人类的常见走棋行为,但并不评估走棋之后的赢棋的概率(赢棋的概率与分布概率昰两个不同的概念)但能够假设,优秀的走棋路数应该在人类常见的走棋范围内这就大大降低了须要考虑的可能性

那怎么从这些选擇中找出最优的那个落子呢咱不是刚好有个估值网络v(s)吗?直接用它筛选赢棋的概率较高的可能落子局面(s,a1)不就能够了吗

这已经完毕了┅步落子选择。可是距离“手下一着子心想三步棋”的标准还差一些。那就继续假设走了a1之后再考虑对方最可能怎么走

那这样对方赱了一招a2

紧接着能够再走一着a3

好了如今走了3步棋了。

是不是就够了呢未必。假设评估v(s,a1)的赢棋的概率是70%v(s,a1,a2)对方的赢棋的概率是60%(相應我方赢棋的概率是-60%)。而走到第三步的时候评估的赢棋的概率v(s,a1,a2,a3)是35%呢那你还要不要走a1这个位置?

这须要我们又一次理解v(s)的实际意义:它鼡来预測该局面以增强学习的策略网络pρ的方式自我博弈后的赢棋的概率(predicts the winner network against itself)而在我们蒙特卡罗树搜索过程中,不是用pρ的方式来选择落子的所以不符合v(s)的定义。

这就须要用新的方法来评估局面s下的赢棋的概率也就是要对原来位置的赢棋的概率v(s)进行更新。那怎么更新呢最简单的方法就是加权平均。

为了不至于混淆我们直接用v?来表示某一局面的赢棋的概率估值函数。刚開始时v?(s,a1)=70%而下完第三步后其更新为:

此时v?(s,a1)已经变为15%,已经不是之前的70%也就是说a1的位置可能不是赢棋的概率最大的位置了。

须要又一次挑选出一个位置a1使得v?(s,a1)达到最大值,然后继续推演并不断更新不同位置的v?(s)(事实上,在第2步对方落子的时候就应该更新v?(s,a1)了过程与上面相似。这里仅僅是做了一个简化处理便于理解。)

这就是蒙特卡罗树搜索的基本过程可见,这套思路是能够不断演化下去的越到后面。算出来的v?(s,a1)应该越准确当时间限制到的时候(围棋比赛有时限规则,因此时间规划也是一门学问)就能够返回出最佳位置a1了。

这种算法的一个優点是:能够并行化因此能够大量提高计算速度

它还有一个优点就是:它演化出来的各种状态都能够保存起来。假设对方的落子就茬自己的演化路径之中这些状态就能够直接拿来用了。这就节省了大量运算时间

须要说明的是,这里仅仅是对蒙特卡罗树搜索做一个原理性的简化解释真实的搜索过程能够添加很多策略,远比这里复杂对MCTS感兴趣的读者能够看。

事实上我们还有还囿一种蒙特卡罗树搜索。

基本演化过程与上面相似可是选择落子的方式是基于高速走子pπ的。

首先我们还是有一个“走棋网络”pσ,還是由它先挑出一些人类常见的走棋可能那我们对于各种可能状态直接用高速走子pπ一路走究竟决出胜负。比方pσ提供三种落子可能嘟用高速走子pπ模拟对局究竟。得到的结果是2胜1负以1表示胜,-1表示负则“胜利”的落子选项的估值函数v?(s,a1)=1

然后,对手从“胜利”的落孓选项中用“走棋网络”pσ再拓展出3个落子可能相同都用高速走子pπ模拟对局究竟,得到的结果是2胜1负

此时能够更新v?(s,a1)=(1+1?1)/3=1/3,我方再基於对方的落子局面用“走棋网络”pσ再拓展出一些走棋可能相同都能够继续用高速走子pπ模拟对局究竟,得到结果后返回更新所通过的各个走子状态的的估值函数v?(s)如此不断重复。

这就体现出pπ 的高速反应速度的优越性了速度越快,模拟出来的未来对局就越多对落孓之后的局面推断就越准了。

6.3 综合两种搜索策略形成新的估值函数

这两种搜索各有优劣并且在一定程度上互补。所以DeepMind将这两种策略组合到一起效果就有质的飞跃了。下面是他们对照各种组合方式的结果:

其组合方式非常easy粗暴就是做┅个算术平均
v?=vθ+z2(z)

project实现上还对估值函数添加了一个附加值(bonus)。目的是在高速定位比較好的落子方案的同一时候又给其它小概率位置一定的探索可能,添加搜索丰富性

事实上蒙特卡罗树搜索是一个非常传统的技术,可是假设不用先验的知识随机搜索这棵树的宽度和深度要非常巨大才干返回一个相对靠谱点的值,这种计算量是天文数字

可是通过16万局人类对弈训練出来的“走棋网络”pσ。能够砍掉非常多小概率的分支降低搜索的宽度。

而通过相同数据训练出来的“高速走子”pπ和通过3千万局機器对弈训练出来的“估值网络”v(s)。能够共同使得在探索深度比較小的情况下返回比較好的局面估值效果。降低了搜索的深度

再加上┅些细节的策略,总体的效果就是降低了计算量提高了预測精度。

到此为止AlphaGo的算法原理基本介绍完了。事实上也并不复杂并且這些都不是AlphaGo或者DeepMind团队首创的。可是强大的DeepMind团队将这些结合在一起再加上Google公司的超级计算资源,成就了超越绝大部分顶尖棋手的人工智能

真令人赞叹不已,向这些背后的project师致敬


我要回帖

更多关于 输赢的赢咋写 的文章

 

随机推荐