下围棋最边上一条线最简面建模用不用

谷歌人工智能为何能连赢人类围棋冠军5局?
[摘要]如果李世石让AlphaGo陷入到不熟悉的战略情形下,他可能就赢。
腾讯科技精选优质自媒体文章,文中所述为作者独立观点,不代表腾讯科技立场。文/董飞(微信公众号:董老师在硅谷)在象棋和国际象棋中,电脑软件都非常厉害,只有围棋是唯一“电脑下不过人类”的项目。而今年1月份有个爆炸性新闻:()DeepMind开发的人工智能围棋程序AlphaGo以5:0的压倒性优势击败了欧洲围棋冠军、专业二段棋手。那么3月份AlphaGo会和韩国九段、世界冠军李世石进行对弈。如果此役AlphaGo获胜,这意味着人工智能真正里程碑式的胜利。这也引起了笔者好奇心,在春节期间,跟的田渊栋(他的背景无可挑剔,卡耐基梅隆大学机器人系博士,Google X 无人车核心团队,Facebook人工智能组研究员)交流,他做的也是计算机围棋AI--黑暗森林(熟悉三体的朋友知道怎么回事),今年1月份他的文章被机器学习顶级会议ICLR 2016接受(表达学习亦被江湖称作深度学习或者特征学,已经在机器学习社区开辟了自己的江山,成为学术界的一个新宠)。他聊天中谈到自从谷歌收购了DeepMind,投入大量资源去做好人工智能项目,不为别的,就是要向世界证明谷歌智能的强大。发表在顶级期刊《Nature》的论文光看作者就20个,明显是下了血本,前两位都是计算机围棋界的大牛,一作David Silver是计算机围棋和强化学习的顶级专家,整个博士论文就是做的围棋; 二作Aja Huang以前写过多年围棋软件,自己又是AGA 6D的水平。还是不多说废话,下面是SpinPunch CTO 对AlphaGo的工作原理解读:谷歌DeepMind宣布他们研发的神经网络围棋AI,AlphaGo,战胜了人类职业选手。这篇论文由David Silver等完成。里面的技术是出于意料的简单却又强大。为了方便不熟悉技术的小白理解,这里是我对系统工作原理的解读。深度学习“深度学习”是指多层的人工神经网络和训练它的方法。一层神经网络会把大量矩阵数字作为输入,通过非线性激活方法取权重,再产生另一个数据集合作为输出。这就像神经大脑的工作机理一样,通过合适的矩阵数量,多层组织链接一起,形成神经网络“大脑”进行精准复杂的处理,就像人们识别物体标注图片一样。虽然神经网络在几十年前就有了,直到最近才形势明朗。这是因为他们需要大量的“训练”去发现矩阵中的数字价值。对早期研究者来说,想要获得不错效果的最小量训练都远远超过计算能力和能提供的数据的大小。但最近几年,一些能获取海量资源的团队重现挖掘神经网络,就是通过“大数据”技术来高效训练。两个大脑AlphaGo是通过两个不同神经网络“大脑”合作来改进下棋。这些大脑是多层神经网络跟那些Google图片搜索引擎识别图片在结构上是相似的。它们从多层启发式二维过滤器开始,去处理围棋棋盘的定位,就像图片分类器网络处理图片一样。经过过滤,13 个完全连接的神经网络层产生对它们看到的局面判断。这些层能够做分类和逻辑推理。这些网络通过反复训练来检查结果,再去校对调整参数,去让下次执行更好。这个处理器有大量的随机性元素,所以我们是不可能精确知道网络是如何“思考”的,但更多的训练后能让它进化到更好。第一大脑:落子选择器 (Move Picker)AlphaGo的第一个神经网络大脑是“监督学习的策略网络(Policy Network)” ,观察棋盘布局企图找到最佳的下一步。事实上,它预测每一个合法下一步的最佳概率,那么最前面猜测的就是那个概率最高的。你可以理解成“落子选择器”。落子选择器是怎么看到棋盘的?数字表示最强人类选手会下在哪些地方的可能。团队通过在KGS(网络围棋对战平台)上最强人类对手,百万级的对弈落子去训练大脑。这就是AlphaGo最像人的地方,目标是去学习那些顶尖高手的妙手。这个不是为了去下赢,而是去找一个跟人类高手同样的下一步落子。AlphaGo落子选择器能正确符合57%的人类高手。(不符合的不是意味着错误,有可能人类自己犯的失误)-更强的落子选择器AlphaGo系统事实上需要两个额外落子选择器的大脑。一个是“强化学习的策略网络(Policy Network)”,通过百万级额外的模拟局来完成。你可以称之为更强的。比起基本的训练,只是教网络去模仿单一人类的落子,高级的训练会与每一个模拟棋局下到底,教网络最可能赢的下一手。Sliver团队通过更强的落子选择器总结了百万级训练棋局,比他们之前版本又迭代了不少。单单用这种落子选择器就已经是强大的对手了,可以到业余棋手的水平,或者说跟之前最强的围棋AI媲美。这里重点是这种落子选择器不会去“读”。它就是简单审视从单一棋盘位置,再提出从那个位置分析出来的落子。它不会去模拟任何未来的走法。这展示了简单的深度神经网络学习的力量。-更快的落子选择器AlphaGo当然团队没有在这里止步。下面我会阐述是如何将阅读能力赋予AI的。为了做到这一点,他们需要更快版本的落子选择器大脑。越强的版本在耗时上越久-为了产生一个不错的落子也足够快了,但“阅读结构”需要去检查几千种落子可能性才能做决定。Silver团队建立简单的落子选择器去做出“快速阅读”的版本,他们称之为“滚动网络”。简单版本是不会看整个19*19的棋盘,但会在对手之前下的和新下的棋子中考虑,观察一个更小的窗口。去掉部分落子选择器大脑会损失一些实力,但轻量级版本能够比之前快1000倍,这让“阅读结构”成了可能。第二大脑:棋局评估器 (Position Evaluator)AlphaGo的第二个大脑相对于落子选择器是回答另一个问题。不是去猜测具体下一步,它预测每一个棋手赢棋的可能,在给定棋子位置情况下。这“局面评估器”就是论文中提到的“价值网络(Value Network)”,通过整体局面判断来辅助落子选择器。这个判断仅仅是大概的,但对于阅读速度提高很有帮助。通过分类潜在的未来局面的“好”与“坏”,AlphaGo能够决定是否通过特殊变种去深入阅读。如果局面评估器说这个特殊变种不行,那么AI就跳过阅读在这一条线上的任何更多落子。局面评估器是怎么看这个棋盘的。深蓝色表示下一步有利于赢棋的位置。局面评估器也通过百万级别的棋局做训练。Silver团队通过 复制两个AlphaGo的最强落子选择器,精心挑选随机样本创造了这些局面。这里AI 落子选择器在高效创建大规模数据集去训练局面评估器是非常有价值的。这种落子选择器让大家去模拟继续往下走的很多可能,从任意给定棋盘局面去猜测大致的双方赢棋概率。而人类的棋局还不够多恐怕难以完成这种训练。增加阅读这里做了三个版本的落子选择大脑,加上局面评估大脑,AlphaGo可以有效去阅读未来走法和步骤了。阅读跟大多数围棋AI一样,通过蒙特卡洛树搜索(MCTS)算法来完成。但AlphaGo 比其他AI都要聪明,能够更加智能的猜测哪个变种去探测,需要多深去探测。蒙特卡洛树搜索算法如果拥有无限的计算能力,MCTS可以理论上去计算最佳落子通过探索每一局的可能步骤。但未来走法的搜索空间对于围棋来说太大了(大到比我们认知里的粒子还多),实际上AI没有办法探索每一个可能的变种。MCTS做法比其他AI有多好的原因是在识别有利的变种,这样可以跳过一些不利的。Silver团队让AlphaGo装上MCTS系统的模块,这种框架让设计者去嵌入不同的功能去评估变种。最后马力全开的AlphaGo系统按如下方式使用了所有这些大脑。1、从当前的棋盘布局,选择哪些下一步的可能性。他们用基础的落子选择器大脑(他们尝试使用更强的版本,但事实上让AlphaGo更弱,因为这没有让MCTS提供更广阔的选择空间)。它集中在“明显最好”的落子而不是阅读很多,而不是再去选择也许对后来有利的下法。2、 对于每一个可能的落子,评估质量有两种方式:要么用棋盘上局面评估器在落子后,要么运行更深入蒙特卡罗模拟器(滚动)去思考未来的落子,使用快速阅读的落子选择器去提高搜索速度。AlphaGo使用简单参数,“混合相关系数”,将每一个猜测取权重。最大马力的AlphaGo使用 50/50的混合比,使用局面评估器和模拟化滚动去做平衡判断。这篇论文包含一个随着他们使用插件的不同,AlphaGo的能力变化和上述步骤的模拟。仅使用独立大脑,AlphaGo跟最好的计算机围棋AI差不多强,但当使用这些综合手段,就可能到达职业人类选手水平。AlphaGo的能力变化与MCTS的插件是否使用有关。这篇论文还详细讲了一些工程优化:分布式计算,网络计算机去提升MCTS速度,但这些都没有改变基础算法。这些算法部中分精确,部分近似。在特别情况下,AlphaGo通过更强的计算能力变的更强,但计算单元的提升率随着性能变强而减缓。优势和劣势我认为AlphaGo在小规模战术上会非常厉害。它知道通过很多位置和类型找到人类最好的下法,所以不会在给定小范围的战术条件下犯明显错误。但是,AlphaGo有个弱点在全局判断上。它看到棋盘式通过5*5金字塔似的过滤,这样对于集成战术小块变成战略整体上带来麻烦,同样道理,图片分类神经网络往往对包含一个东西和另一个的搞不清。比如说围棋在角落上一个定式造成一个墙或者引征,这会剧烈改变另一个角上的位置估值。就像其他的基于MCTS的AI, AlphaGo对于需要很深入阅读才能解决的大势判断上,还是麻烦重重的,比如说大龙生死劫。AlphaGo 对一些故意看起来正常的局也会失去判断,天元开盘或者少见的定式,因为很多训练是基于人类的棋局库。我还是很期待看到AlphaGo和李世石9段的对决!我预测是:如果李使用直(straight)式,就像跟其他职业棋手的对决,他可能会输,但如果他让AlphaGo陷入到不熟悉的战略情形下,他可能就赢。结语这里我还想到另一个人,中国最强大脑选手鲍橒,当时看了他走出蜂巢迷宫,被他的超强的空间记忆和想象能力深深震撼了,而他的职业就是围棋选手,并且是盲棋。他能完成1对5的围棋盲棋,实在是很不可思议的事情。在围棋圈内,几乎没有棋手能完成盲棋,因为确实太难了。笔者也向他询问了对这个事情看法,他说,欧洲冠军没能摸到程序的底,但从棋谱来说,对谷歌程序我也难以取胜,确实下的不错。虽然围棋圈一致看好李世石,不过我不敢确定谷歌的程序3月份进展到什么地步。再说到Facebook田博士,跟谷歌DeepMind超豪华团队长期投入不同,他就在半年多前从立项到实现,直到最近才有一个实习生加入帮他,而背后是他付出的心血,为了抢时间,在圣诞新年都是加班加点,按他所说,每日工作10+小时,自己搭机器,写代码,调参数,单枪匹马做出成绩。谈到跟谷歌团队的较量,田博士说:“这是一场必败的战斗”,但我还是很佩服他,他让我想到三国时代赵子龙,单枪匹马大战曹军,力拔山兮气盖世!因为他是真正的勇士。正是有了这些英勇无畏的家,一次次打破常规,挑战极限,我们才知道人类如此大的潜力。最近短短几年的发展,从大数据,深度学习人工智能到虚拟现实,从发现了类地球行星,证实引力波,从Hyperloop,无人驾驶,量子计算,这些魅力无穷的科技让我们对世界的认识上升到新的高度。面对这个激动人心的时代,我想说,天空是我们的极限,宇宙是我们的极限,未来才是我们的极限!最后允许我拿田博士的话来结束。我有时候会问自己:“我是不是背弃了梦想?”我想除了我自己,任何人都不会给我答案,任何评论也不具效力。我记得有人问过,如果梦想从践行的一开始,就在不自觉地向现实妥协,那样的梦想还是最初的梦想么?其实,这样的问题没什么可纠结的,因为世界从来就不是二元的,梦想和现实,如同高悬的日月,日月之间,有一条灰色的路,在自己脚下蜿蜒曲折,绕过各种险阻,一直向前。“而我能做的,只是要在奔跑时,不停提醒自己,还记得“梦想”这个词的含义。”
[责任编辑:jupiterli]
您认为这篇文章与"新一网(08008.HK)"相关度高吗?
Copyright & 1998 - 2017 Tencent. All Rights Reserved
还能输入140字孩子下围棋的好处_工作技巧_【达客网】.cn
孩子下围棋的好处
有人会问,为什么那小的孩子就让他去学习围棋,因为大家都知道玩围棋需要有很高超的记忆力而且还要有耐力,没错就是因为这样,才要从小就开始培养孩子高这种高超的东西,现在我把孩子下围棋的好处分享给大家。
孩子下围棋的好处如下:
第一点:训练幼儿集中注意力
下一盘棋,往往要静坐一两个小时,为驾驭一盘棋少失子,幼儿必须长时间集中精力,否则就赢不了对方,而注意力能否集中,是一个人学习、做事高效率的先决条件。
大雄聪明好动,上课时只要他听懂了就不再认真听讲,不是玩玩手指,就是晃晃椅子。但是自从学习了围棋,他注意力保持的时间有了明显变化,有时下起棋来两小时都不休息。随着围棋的学习,他上课时集中注意力的时间也逐渐延长,学习围棋使他养成了专注的好习惯,上课时也能保持专注听讲了。
第二点:拓宽幼儿注意的广度
注意的广度也叫注意的范围。儿童年龄越小,注意的广度越差。下棋能训练幼儿提高注意的广度。&千古无同局&道出了围棋创新的真谛。每下一局棋,都需要孩子展开想象的翅膀。每走动一个棋子前幼儿都要看到棋子的落点,周围几步棋是否会被对方&吃&掉。当要&吃&对方的棋子时,他要注意到利害得失,当被 &吃&时,他要注意调整自己的子力。下棋时每走一步,都不仅要考虑每一个点、每一条战线发生或将要发生的&战况&,还要考虑全局,一步出错就会招来满盘皆输的后果。实践证明,学棋孩子的创新能力、独立解决问题的能力和思维能力都比较强。
第三点:锻练幼儿的意志力
学习围棋能使幼儿意志更加坚强,面对困难更加勇敢。幼儿都爱竞争,他们都喜欢争第一。要想成功,必须脚踏实地有条不紊地学习,把想象力、控制力发挥到最佳境界。还要正确估计自己和对手,正确认识双方的力量和存在的问题。过高估计对方的实力,会使自己胆怯;低估对方会被杀得片甲不留。胆小者需要提高自信,自大者需要谨慎行事。
现在的幼儿需要经历一些失败,锻炼坚强的意志,而围棋就是一个很好的磨练器。要敢于面对成功与失败,要具备良好的意志力,无论遇到什么样的困难,都要泰然处之,持之以恒,这样才能达到预期的目的。
第四点:在学棋中学会做人
下棋能培养孩子脚踏实地、深思熟虑、正确估计自己和对待别人的习惯,严格的棋规能帮助孩子形成落子无悔、遵守规范的棋风。为了围更多的地盘,必须要有很多棋子的配合,有时又必须要舍小取大。围棋不是一个点或一条线上的活动,而是在一个面上下棋。所以下棋者不能把每个棋子孤立起来,而是要把盘面上所有棋子联系起来思考问题,不但要考虑到单个棋子的得失,还要考虑到全局的得失。
更多【孩子下围棋的好处】相关内容

我要回帖

更多关于 一条线最简面建模 的文章

 

随机推荐