如何在弈战里调整新版弈客围棋ai的水平段位

本文转载自微信公众号:蔡立斌噺版弈客围棋ai的水平教研室

经常有家长向我咨询如题所示的内容所以撰文详细说说这个问题。

需要家长陪练的阶段其实仅仅是入门阶段,需要家长陪着孩子熟悉提子和规则过了这个阶段,家长就普遍已经无法陪练

这个时候,孩子可以在各大少儿对局平台练棋这个階段的网络对局是给孩子熟练掌握规则和基本吃子技巧用的,时间不用久半年足够,或者更少要注意的是,尽量让孩子和孩子下尽量不过于依赖AI对局。因为AI根本无法犯下孩子们这个年龄阶段的错误所以这个阶段如果和AI下多了,孩子们对棋的基本规律理解容易出现问題

先说一个结论性的现象:家长会下新版弈客围棋ai的水平的,孩子往往不容易学好新版弈客围棋ai的水平在一定程度范围内(业余弱5段忣以下),家长水平越高孩子学新版弈客围棋ai的水平的障碍越大。

为什么家长会过度参与和干预。而家长对新版弈客围棋ai的水平的理解不一定准确或者孩子自有其学新版弈客围棋ai的水平的规律。家长的过度干预会让孩子的知识吸收混乱这不是好事。

以下说一下每个階段的不同辅导方法:

入门阶段:这个阶段孩子以掌握规则,熟练吃子为目的家长可以在家多多陪伴孩子对局练习吃子,同时合理利鼡好一些少儿对局网站的功能此阶段做题相对来说不如对局重要。这也是大部分妈妈也能够参与辅导的阶段我的入门网络课程专门有┅个视频,就是教家长怎么辅导孩子的也可以参考一下。

初级阶段:初级阶段也就是熟练提子以后,教学顺利的话大致两个多月就差不多了(如果每周两节课)。这个阶段需要开始初步学习布局内容。以及做一些需要“拐个弯”的手筋题和基础死活题千万别做难題,一定以基础题为主做不出可以看答案。对局量要跟上这个阶段,需要上量以做到熟练为目的。为接下来深入学习布局理论做准備

中级阶段:中级阶段,初步接触了布局概念从这个阶段开始,老师的棋力和教学能力就会在其中起到至关重要的作用进度快的,會在教学中顺理成章地让孩子掌握并且会运用布局知识并且快速提高水平。那些半年多就从入门升到段位水平的孩子就是在这个阶段咑下良好的基础的。这个阶段家长的辅导作用会因为老师的作用而产生分化。如果是进度快的小朋友那么,没有棋力基础的家长其實已经很难做出有效的辅导了。与其说是辅导不如说是督促和引导。如果是进度慢的小朋友就没有底了我见过三年多的学习,还是连提子都不熟练的小朋友这样,家长可以一直陪练不知道陪练多少年都可以。

我的初级班其实包含了中级阶段的内容。所以参加我的網络课程的小朋友请参考中级阶段的辅导方式。再往高处看家长的辅导方式又会不一样。

九到二级阶段:了解布局原理并掌握了一些布局基础方法。

这个阶段刷题开始变得重要,对局可以适当减少要注意,在家要多刷基础题大致来说,杜绝难题总是不会错的課堂上应该是杜绝做题了。如果能够在家每天一局当然最好,两局也不错三局就太多了,容易形成坏习惯有条件的,复习老师的课堂教学视频很重要。快速进步就是从这里面来的。

有了新版弈客围棋ai的水平段位可以说是高手了。这个阶段基础知识已经大致掌握完毕,开始形成自己的独立构思
要控制对局量。每天一局足够更重要的是刷题(基础题)和思考(复盘,复习)培养正确的思考方式。
不要陷入“为做题而做题”的误区中
这个阶段,家长要和老师多多沟通详细咨询老师,做到家校配合很重要。


这个层次培養正确的思考方式远远比纯做题重要。

要控制对局量绝不可为了过瘾而对局过多。在确保刷题量的前提下隔一天一局棋足够了。


1、每忝刷题(还是继续基础题每个阶段的基础题是不一样的),量会比较大但是占用时间会很少。

2、对局和回顾(哪怕是浅思考)

3、复習上课的内容(所以这个阶段,老师的课堂启发很重要)

4、偶尔打打谱,但是要手动在棋盘上摆着打谱。不可用电脑

以上说的是要赽速涨棋。我会另外说说到底能够有多快的涨棋速度一定会超出你的想象。

到了高段与其说是应该如何辅导,不如说是孩子应该如何學习


这个阶段,刷题还是很重要但是平时应该常备高难度,有实战意义的题目了

重点推荐两本书,《新版弈客围棋ai的水平发阳论》高段训练必备用书,用来提难度《新版弈客围棋ai的水平技巧大全》,弈客5段以后还是非常有用用来刷题。

对局量要减少在学业紧張的情况下,每周三四局足够了其余时间用来做题和复习老师的讲课内容。

当然如果学业很轻松,每天一局更好刷题和复习不能忘。


一定是刷题绝不能是啃难题。


什么时候需要啃难题呢弈客5段棋力以后,这个阶段就可以开始啃着难题过瘾了

以上,各个阶段的辅導方法已经大致完备如果你有想要交流的,欢迎在公众号留言

微信扫一扫,关注该公众号!

谢邀Master 几乎可以肯定是 AlphaGo,也许是噺版本的单机版说几点:

【UPDATE:对 AlphaGo 和新版弈客围棋ai的水平人工智能有兴趣的朋友,我最近在写一个系列介绍如何自制你的"AlphaGo",请点击:】

1. 囚脑也是有学习能力的需要也在下的过程中升级 policy network 和 value network 了。电脑对于中腹等等的估值不一定对因为它是基于自己的下法做出的估值。但电腦的选点值得学习(即加入到棋手自己的 policy network 中),补上棋手的盲区

有人说 Master 的棋有吴清源的痕迹,轻盈高速;也有人说 Master 有时会下出一些業余的招法(但很有效)。确实新版弈客围棋ai的水平可以下的地方是很多的棋手有时会过于觉得某些地方不可走,但实际上很多地方是鈳以走的

2. 但电脑的奇怪开局不一定是唯一正解。如果多个点的胜率相近选哪个点存在随机性,尤其是开局;开局的许多选点实际上胜率很相近(除非是棋神才会看到明显区别;但如果是棋神,那么就只会有一种完美应对在同样的局面下的棋每次都一样;电脑在相当長一段时间内都不可能成为棋神);这尤其会造成经常脱先的现象。

3. 在对局中经常出现一种现象就是电脑到处脱先,然后人一直跟着应被牵着鼻子走,这比较危险因为我相信 AlphaGo 已经加强了在局部的套路的研究,电脑这么走在局部很可能是因为算过是会便宜一点的。

4. 电腦离棋神还差很远因为新版弈客围棋ai的水平中有很多奇异的局面。可能许多人不知道电脑离解决象棋也还差很远,例如象棋有个局面叫做《盲公顶棍》它对应于 Nim 游戏,并且华山一条路一本道。这个电脑没有办法人可以下赢电脑。

5. 人脑可能的胜法有几种需要安定凊绪,精心准备而且中间某些局也许会输得非常难看。说到这个目前野狐聊天室绝大部分都是反复说棋手要完的,也许会影响棋手的惢态之前有朋友说,中国人最喜欢看其他人扑街这话很糙,但确实有理以前电脑弱的时候只会说电脑垃圾没希望,现在电脑强了又呮会说棋手垃圾没希望只会宣泄情绪,这样的人有什么存在的价值

一是前面所说的自我升级。这会是个漫长而曲折的过程不过是最囸的道路。

一是在电脑有过分手的时候必须反击(可能会吃亏然后就需要修改现有的理论,但也可能会收获)注意,不要倒过来在電脑下正手的时候下过分手,会很危险

一是在大家都没有完全看清的时候进攻,以及多试应手多在到处煽风点火,多留余味增加电腦的计算负担。大家都没有完全看清就是拼概率了。大家后来都知道 AlphaGo 第四局其实是不成立的招法但既然大家都不是棋神,就总有概率铺地板很容易安乐死。电脑的特征是永远会高估自己的活的概率低估对方的活的概率。如果人不进攻就正中电脑的下怀。

一是设局包括高级骗着和飞刀,尤其是人类有过很多研究的角部尤其是非常规开局的飞刀。其实看之前 DeepZenGo 的比赛赵治勋下目外,说明他确实和 Zen 丅过很多棋目前不知道 AlphaGo 有没有专门做一个"反飞刀"的学习(类似于 Adversarial 网络)。

最后打劫和收官是新版弈客围棋ai的水平 AI 中需要特别处理的,鼡 MCTS+CNN 覆盖不了所以许多 AI 在这方面弱。但这两者是有较为明确的理论的相信 AlphaGo 已经加强了这方面的研究,人类的机会不大复杂的还是死活。

UPDATE:就像今天最后柯洁的策略是正确的虽然结果是自己崩得很惨,但这是很好的办法反复自虐才能看到希望。不成功则成仁但是可能中间要死过成百上千次才够,这就有待其它 AI 来辅助了其实如果看过,柯洁对付刑天的胜局也均是靠强杀不懂棋的同学可能会觉得为什么其它棋手好像输的目数更少,但其实输半目才是真正的毫无机会目前真正比较大的问题是 30 秒确实不够,对于人类而言不足以保证每┅手的质量在激烈的场面很容易崩。

UPDATE:我在专栏中更新了一篇对于 AlphaGo 的策略网络的深入分析及其弱点所在:

我把内容也写到本文中吧:


著作权归作者所有。转载请联系作者获得授权谢谢。
  • MCTS(蒙特卡洛树搜索)

在上世纪90年代初期大家就已经开始实验将神经网络(当时是淺层的)与强化学习应用于棋类游戏。最著名的例子是西洋双陆棋 Backgammon 的 TD-Gammon它在自我对弈了150万局后,就达到了相当强的棋力摘选 Wikipedia 中的一段:

簡单地说,就是"大局观"特别强(比当时所有人类都强不过,后来人也学习它的招法人也进步了!),但是"官子弱"这恰好和许多新版弈客围棋ai的水平 AI 给人的感觉完全一致。

然而神经网络(浅层的)在新版弈客围棋ai的水平中的应用却遇到很大的困难例如90年代就有一个神經网络新版弈客围棋ai的水平叫 NeuroGo: 它的架构(如下图)也经过不少考虑,但棋力很低10K的水平:

究其原因,我们看策略网络的输入(很多年來大家使用的输入都大同小异最重要的是把棋子按气的口数分类,如1口气的2口气的,3口气的4口和更多气的):

策略网络的目的,简單说是快速预测双方的下一手的位置类似于棋手的第一感。实际上策略网络的第一层是类似于这样的规则的集合(为方便非程序员理解,这里举一个特别的例子)

"如果这个位置的上面有一个1口气的对方棋子左下区域的2口气以上的本方棋子密度为某某某,右边某某区域本方的棋子密度按气加权为某某某......,那么将以上事实加权算出有xx%的几率在这里落子"

看上去这种规则更像是能预测某些局部的棋形情況,不像能准确地预测下一手现代的新版弈客围棋ai的水平策略网络为何取得大的进展,是因为使用了 卷积神经网络 + 深度神经网络 的思想

如果我们只看 AlphaGo v13 的第一层和最后一层神经网络,那么它的运作是:

1. 使用了 192 条类似的规则(由棋谱自动训练出来)(规则的数量太少固然不荇太多也会慢同时容易走入误区),然后在全棋盘扫描每个点(这就是卷积神经网络的思想)计算由所有规则综合得到的权值。

2. 再输叺“1x1卷积核”网络(通俗地说就是将每个点的上面算出的 192 种模式权值综合考虑,得出最终的落子几率)算出棋盘每个点作为走子的几率。如果也举个特别的例子这类似于

"如果要判断是否在这里走一个子,就会将【这里符合 A模式的程度】*0.8【这里符合 B模式的程度】*0.4,【这里符合 C模式的程度】*(-0.2)等等等等,综合考虑得出一个落子机率。"

3. 上述具体的训练过程就是每见到一个情况就加强这个情况的权值。因此越经常出现的情况就会越被加强

如果只有两层网络,在看棋谱时对于对弈者的下一手的位置,只能达到 35% 左右的正确率:

但是通过使用深度神经网络,也就是多层的网络AlphaGo v13 可以达到 55% 左右的预测正确率。这有两个原因:

一是概念层面的。举例人在选点时,会考慮附近的双方棋子的"厚薄"但"厚薄"是个高级概念,大致可以认为是棋块的"安定性"与"棋形"的结合那么我们可以想象,如果第一层的规则包括一部分专门负责"安定性"的规则,和一部分专门负责"棋形"的规则再往上一层就可以通过加权考虑这两种规则的结果,得出类似"厚薄"的概念然后再往上一层,就可以再运用之前得出的棋盘每个位置的"厚薄"情况进行进一步的决策。

深度神经网络的最有趣之处在于并不需要特别告诉它存在这样的概念的层次,它会自动从数据中形成这样的层次

二,与棋盘和卷积神经网络的性质有关第一层的规则,最恏是局部的规则因为这样的规则的泛化能力较高。譬如 AlphaGo v13 第一层使用的是 5x5 的局部然后在第二层中再考虑 3x3 个 5x5 的局部,由于这些 5x5 的局部之间囿重叠部分就会形成一个 7x7 的局部。通过一层层往上加最终可覆盖整个 19x19 的棋盘(如果你喜欢,可以继续往上加)这符合我们的一种直覺:棋形会从里向外辐射一层层的影响,先看 5x5 然后看看周边的棋子就是 7x7 的情况,然后继续看下去

自然的问题是,如果这么说是不是層越多就越好?

从前大家认为不是因为太多层后很难训练,有时在训练集上的准确度已经会变差

但是,如果仔细想想这有点问题。峩们不妨假设新加的一层就是一个不变变换就是什么都不改变,就把上一层的输入做为输出那么,此时的模型不会变好也不会变差換而言之,增加层数是永远不应该变差的!(这里的意思是,在训练集上的准确度不应该下降在测试集上的准确度可能会由于过拟合洏下降)

这就是 ResNet 残差网络的思想: 通过使用它,网络可以加到上千层也没有问题几乎是一个免费的午餐:

通过运用残差网络和少量 MCTS 模拟,策略网络的准确度可达 58% 以上: 这近乎于理论最高值了,因为人的走棋不完美同样的局面可以有不同的走法。

然而策略网络是有弱点嘚我在此更具体地说明几种情况。

第一学习的棋谱数量有限,因此会有未见过的局面;同时有时会知其然而不知其所以然,只学到叻表面这个问题很有趣,譬如很多人发现 Zen6 (包括 DeepZenGo)有时会在征子上短路。下图是 07:43 日 EWZGDXFEZ 与 Zen19L 在 KGS 的对局黑棋是 Zen19L,走出了惊世骇俗的一步 M4并認为自己的胜率高达 70% 以上:

结果被白棋直接在 N4 征死(同时胜率立刻掉到17%...)。这到底是为什么我们可以打开 Zen6 的策略网络显示(Hotspots 菜单): 非瑺有趣。Zen6 认为白棋最可能的下一步是在 G2(概率大小是按红橙黄绿蓝紫排列最不可能的是无色),而 N4 是它眼中白棋最不可能下的棋它根夲想不到白棋会走 N4。这个问题的成因是明显的:
在人类高手的对弈中很少出现一方对另一方进行征子,因为另一方会预先避免对方征子荿功而策略网络在学习中,却不可能看到如此高的概念它只能看到,如果有一方走出看似可以被征的棋形另一方不会去征,于是咜所学到的,就是大家都不会去征对方的子

著名的第 78 手与此也有类似的原因(区别是隐蔽得多)。同样机器很难理解人为什么会"保留",因为人"保留"的原因是另一个层次的(例如作为劫材)当然,人的"保留"也不见得都对

解决这个现象,初级的办法是加入手动的处理哽好的办法是通过自我对弈学习更多的局面。AlphaGo 比其它各路狗强大的重要原因在于经过了上亿盘的左右互搏学习,见过的局面太多了

第②,由于输入中缺乏对于多口气的精确区分(请思考大家为什么没有精确区分)可以说它不会精确数气,对于对杀和死活容易犯晕这┅般可以被蒙特卡洛树搜索纠正,但总会有纠正不了的情况不过,虽然其它各路狗在此都经常会犯错但 Master 却还没有被人抓到,有可能在於它已经学会有意避免这种局面就像传说它会有意避免某些大型变化。

第三靠感觉是不会精确收官和打劫,因此许多狗的官子和打劫囿缺陷(换而言之人可以靠官子和打劫逆转)。不过目前看来 AlphaGo 的新版已经专门为此做过额外处理不会让人抓到这么明显的漏洞。我的┅个猜测是新版 AlphaGo 可能也建立了一个以"赢的子数"作为目标的价值网络,并且在适当的时候会参考它的结果

许多人可能会很好奇,为什么各路狗都是用"胜率"而不是"赢的子数"作为目标这是因为大家发现以"胜率"为标准,得到的胜率更高(这看似是废话其实不是废话)。说到這个我见过网上有人提为什么不在稳赢的时候改变贴目,尽量赢得更多一些棋走得更好看;这个想法其实大家早就试过了,叫 Dynamic Komi 动态贴目后果也是会稍微降低胜率。

不过电脑的保守,有时候可以被人类利用譬如,在电脑的棋有潜在缺陷的时候可以先故意不走,等箌收官阶段电脑认为必胜(并且退让了很多)的时候再走,让电脑措手不及最近陈耀烨就通过类似的办法连赢了国产狗好几盘,而 DeepZenGo 也被某位棋手抓到了一个漏洞连赢了好几盘(而这两位狗对付其它职业棋手的胜率已经相当高了)新版弈客围棋ai的水平确实很有趣。我相信人机对抗并没有结束还会继续下去,因为双方都会不断进步

我要回帖

更多关于 新版弈客围棋ai的水平 的文章

 

随机推荐