从围棋角度看柯洁 李世石第二局与 AlphaGo 的第二局比赛有哪些关键之处

人机大战前 我们采访了那位输给机器的围棋冠军
[摘要]樊麾详细描述了自己是怎么一步步输给AlphaGo,又为什么在受到争议时还愿意出任裁判,以及在他眼中,人工智能会给围棋、给人类社会带来什么样的变化。
樊麾腾讯科技 俞斯译 3月8日报道樊麾已经在首尔待了4天了。他是这一次() AlphaGo和李世石“人机大战”的裁判。从3月4日开始,他就已经住进了比赛地四季酒店,帮助谷歌筹备明天即将开始的比赛。就在几十天前,1月28日,全球最具声望的杂志《自然》(Nature)通过一篇封面论文,介绍了谷歌公司DeepMind团队研发的人工智能围棋程序AlphaGo。抛开那些枯燥的计算机和神经科学术语,这篇文章最大的噱头便是:AlphaGo击败了欧洲围棋冠军樊麾。19年前,的超级计算机“深蓝”(Deep Blue)击败了国际象棋大师加里•卡斯帕罗夫。从那天起,围棋就被当成了人类智力最后的堡垒,同样的也就成了人工智能研究者们最想要攻克的难题。所以你可以想象,当“一台计算机击败了围棋冠军”(还是以5:0的悬殊比分)这样的消息传出时,它的能量有多么巨大。还没等所有人反应过来,谷歌又借势宣布,AlphaGo将在今年3月挑战世界围棋冠军,韩国棋手李世石。一片哗然之后,大家突然想起了那个关键人物,那个唯一了解发生了什么的人。樊麾1981年出生在陕西西安,从小学棋,也算是“年少成名”,曾入选过中国国少队,围棋职业二段。2000年左右没有去当时的围棋圣地日本,而是搬到了法国,一直生活到现在。这位自称棋艺“不怎么样”的选手,现在是法国围棋队的教练,也是过去三年欧洲围棋冠军。这些背景和title让他成为了AlphaGo理想的测验对手:有一定实力,但并没有那么高不可攀。同时又有名气,如果赢了将会是很好的宣传噱头。当去年9月初樊麾第一次收到一封来自DeepMind的邮件时,他刚刚和太太在东欧度完一个小假,回到位于法国波尔图的家中。而他也完全料不到,这封陌生的电子邮件会给他接下去的生活带来多大的改变。“我现在也算是个网红了。”半年之后,在接受腾讯科技采访时,樊麾在电话那头自我调侃道。《自然》杂志的文章发表的第二天,樊麾的指数就呈直线上升,还有人替他建了百度百科。接下来的一个多月时间里,他的采访邀约就没有停过,“每天都在接受采访,国内的国外的,报纸、电视台。”樊麾说,这些人有的是想亲口听他说自己是真的输了,有的是想让他谈谈比赛的感受,预测一下李世石和AlphaGo谁会赢,被问到最多的是,是人工智能出现对围棋的影响。对于这些采访请求,樊麾尽量都会答应下来,除非真的是因为比赛或是别的什么事无法配合。显然,他还没有学会如何拒绝别人,也没有太多接受采访的训练。这让他一方面看起来十分真诚,同时也容易被“不安好心的人”抓住说话的漏洞作文章。在所有针对他的指责当中,他最无法接受的是说他被谷歌收买,整个事件就是炒作,是一个局。“对这些人我真的无话可说。”在整个采访过程中都笑哈哈的樊麾,在说这句话的时候既严肃又无奈。抛开这些恶毒的攻击,樊麾觉得自己还是挺幸运的。在半年前,他根本没有在意过任何关于人工智能的事,在无意间卷入了这场“人机大战”,而且是作为一个最重要的角色:他不仅是现在唯一一个和AlphaGo直接交过手的人,而且也将作为它与李世石交手的裁判。他说自己正在见证历史。去年11月13日晚间,恐怖组织袭击了巴黎。那天樊麾正好在巴黎。整个晚上,不断有家人和朋友来电发微信寻问樊麾的安危,因为太累,他与妻子待在了市郊的宾馆没有出门。这是他过去半年另一段有意思的经历。在樊麾飞去韩国为这次“人机大战”做准备的前一天,他接受了腾讯科技的专访。他与我们详细描述了自己是怎么进入到这一事件中,是怎么一步步输给AlphaGo,又为什么在受到争议时还愿意出任裁判,以及在他眼中,人工智能会给围棋、给人类社会带来什么样的变化。“他们说现在有一个很好的项目,他们感到很兴奋”腾讯科技:跟我们说说,最初你是怎么被“卷”进这件事里来的。樊麾:是在去年9月初,我刚比完欧洲围棋赛,拿了冠军,和太太在东欧那边玩了一圈。回到家发现DeepMind,就是开发了AlphaGo的那家公司给我发了封邮件,就问我有没有兴趣去他们公司访问。当时他们什么也没说,没说是程序,更没说是和围棋有关。我虽然也不知道是什么,但在欧洲这种事也比较平常,不会觉得人要骗我什么的,出于好奇,我就给他们回了邮件。接着就是约我网上视频会议。第一次用Skple连线,也没有说是和围棋相关的项目。只是说很高兴我能过去访问,他们现在有一个很好的项目(Project),他们自己很兴奋(exciting),不过在让我了解这个项目之前,需要签一个保密协议。然后他们传过来这个协议,我签完传回去。等到第二次视频会议,才开始告诉我具体是什么。腾讯科技:所以你是在一无所知的情况下就签了保密协议?没有什么疑惑吗?樊麾:(笑)其实签之前我有去查过。第一次视频完了之后,我上了它们公司官网,找到了一篇之前的围棋相关的论文。那个论文写的是一个最初的概念,当然里面有很多技术我是看不懂的,不过猜到了应该是和围棋有关的,所以会找到我。当时想的应该是一个围棋程序,让我帮忙测试一下,出出点子。觉得挺好玩的。腾讯科技:那个时候你还不知道DeepMind这家公司的背景?樊麾:是的。第二次视频会议,DeepMind才告诉我说他们背后其实是谷歌投资的,我这才知道它们的背景比较大。我觉得它们一开始没有说一个是出于保密,第二个估计也是怕把我吓跑,不接受他们的邀约。接下来就是敲定行程。9月底第一次去他们公司参观。那个时候纯粹就是抱着旅游的心态,去英国玩一趟。第一次就是纯聊,没有接触AlphaGo,也没有下棋。只是把比赛时间,比赛方式等等确定。比如他们会问我希望和电脑下,还是用实体的棋盘对面坐个人摆子。他们问了我很多东西,我发现他们对于人工智能方面可能很擅长。但是对于这个比赛要怎么弄,一点经验都没有;对于围棋世界,也不是很了解。腾讯科技:为什么会觉得他们对围棋世界不了解?樊麾:因为他们提出了很多顾及。比如他们问我,万一机器赢了,下围棋的人会不会恨他们。会不会因此伤害到很多人的利益等等。通过这些你会发现,他们是那些很纯粹的技术人员,不是商业世界里那种很油的人。腾讯科技:你有问过他们为什么选择围棋这个课题吗?樊麾:我也是通过和他们接触,才对人工智能这块也慢慢有了了解。人工智能里有一个共识,围棋是人类最后的一个堡垒,是最难的,所以这方面的研究人员很早以前就对人工智能下围棋有很大的兴趣。我记得2005年的时候法国就开发了一个围棋程序MoGo,第一次用了现在流行的蒙特卡洛树搜索。我还跟这个程序下过,是9乘9那种,当时并没有觉得它厉害。后来我才知道,做这个程序的不少研究人员,后来被吸纳到了DeepMind公司来了。所以其实Goolge关注围棋不是一天两天了,只不过一直没有找到那个核心的可以带来突破的东西。之前的围棋程序,包括Zen,CrazyStone我都跟他们下过,其实还是之前的模式,就是死算,纯计算机的方式。而AlphaGo最厉害的,是除了算的部分,还有一个另外的“判断”的部分,这就往前迈了一大步。腾讯科技:能用普通人能听懂的话,跟我们解释一下AlphaGo和之前围棋程序最大的区别吗?樊麾:之前所有(围棋)软件最大的毛病,就是会下一些“电脑棋”,电脑棋就是那些毫无理由的奇怪的招,跟短路了一样,可以简单理解成“昏招”。只要它下了电脑棋,和它对垒的你顺间就会充满自信,觉得不过如此,你就放松了。之前所有的围棋程序,都会下一些电脑棋。AlphaGo最厉害之处,就是不下电脑棋,不下特别奇怪的愚蠢的棋。如果你不提前告诉我,我完全感觉不出来对面是一个程序,它下棋的方式,很像真正的人类棋手。这还不是说我升级的概念,而是提升了一个层次。很多人看到那篇论文来找我,问我是不是真的输了。我说我虽然下的不好,但是我尽力了,是真的输了。AlphaGo的水平超出了我的想象。“我之前从来没有输给过电脑,去之前我根本没想到自己会输”腾讯科技:跟我们分享一下具体的比赛过程吧,是跟我想象的那种,在小黑屋里关几个小时对着机器下棋吗?樊麾:比赛是10月初,5号到9号五天,其实是一天两场,一共10盘。5盘正式的,还有5盘非正式的快棋。正式的全输了,但非正式的快棋我赢了两盘。就是在一个他们公司大的会议室里面,摆好了各种摄像头,其它人在外面。他们当时问我是想对着电脑下还是有棋盘,我不习惯对电脑,所以有一个技术人员跟我在里面,坐在我对面来负责下棋,就是来替AlphaGo摆子。腾讯科技:你从什么时候发现,情况和你预想的不太一样?樊麾:输完第一盘,我就发现(情况)不对了。按我原来的设想,第一盘是想慢慢下,你围一点,我围一点,没有什么相互的战斗,希望可以稳稳地取胜。但结果就是,这么下我下不过。所以从第二盘开始,我就完全改变了策略和棋风,开始主动出击与它展开攻杀,说不定它会出现失误,就会变成我的机会。没想到反而输得更多。腾讯科技:那个时候你是什么心情?樊麾:那对我来说也是一个历史时刻,因为我之前从来没有输给过电脑,去之前我根本没想到自己会输,觉得就是一个机器的测试嘛。第一天输完,当然是不服。第二天继续,等到第三盘之后,我已经服了。但是它规则要求你下完五盘嘛,知道下不过,但是还想着说也许我能赢一盘。最后就是0比5。腾讯科技:你自己也说,其实当时发挥也不是很好。是什么原因造成的?太紧张了吗?樊麾:就像咱们前面说的,如果你不告诉我对面是一个程序,从它下棋的方式上我是感觉不到的。但是之前人家又明明告诉你了,对面和你下棋的不是人。这个就很别扭。两个人下棋的时候,你常常会观察和琢磨对方的情感和心理。它是紧张了,害怕了,你在想象对方的同时,这种作用对方也会感到到,折射回来。但是现在对面是电脑,就是你面对一堵墙,你所有的感觉全部都被打了回来,你知道它没有心态的波动。腾讯科技:你接收不到来自对手的任何信息。樊麾:是的。直接影响就是,你无时无刻不在怀疑自己。这个棋它这么下对吗,真的对吗,我有这么多问题吗,因为下了两盘你发现它不会出错,它的错只是它那个水平上的错,不会有其它原因的错。我的心理波动就大了,下到后来我觉得,即使我优势再大最后也会输。如果我们再下10盘,我会输得更多。腾讯科技:但其实一开始你下的还是挺自信的吧?樊麾:对。第一盘是我唯一不怀疑自己的,因为那时候我还什么都不知道呢。随着比赛进行,加上后来和DeepMind的人聊天,对AlphaGo了解加深,从最初的模型,到不断测试,包括技术人员中间的讲解,知道这个程序是怎么回事了,发现这个东西不可限量。终于感受到了当初他们联系我时说的那种兴奋(exciting)。腾讯科技:但你确实是被虐了,不会很郁闷吗?樊麾:这个事情曝出来今年1月27号,已经离比赛过去好几个月了,心态早就平和了(笑)。腾讯科技:但是这个消息一出来,大家就都来轰炸你了。樊麾:就消息出来第二天,所有朋友都在微信上问我,“樊麾,这事儿真的假的”,我说是真的。接着就是媒体找上来,从那个时候开始媒体采访就没有停过。国内的,国外的,这两天比赛近了嘛,韩国的媒体,包括最大的报纸、电视台也都找过来。我开玩笑说现在真成“网红”了。腾讯科技:大家一方面都想要采访你,但其中不少的报道,都是把你放在AlphaGo垫脚石这样一个位置,你会不高兴吗?樊麾:这到没什么,我本来就不是围棋水平特别高的人。输了就是输了,对我水平的那些质疑我都接受。最让我没法接受的是说我被谷歌收买了,到现在还有人说,这整个事情就是一个炒作。这我就没法说了。还有一个有意思的事,DeepMind公司的人看到网上各种各样的话,还特地给我发了一封邮件慰问我。他们都知道,其中有一些话,已经算是带有人身攻击了。“如果AlphaGo停留在半年前跟我比赛那个水平,那它对李世石毫无胜算。”腾讯科技:既然已经有这些压力,为什么还答应来当这次人机大战的裁判?樊麾:当然答应,我很爽愉就答应了。这都是见证历史的时刻。你知道,围棋比赛当中会发生很多细节,如果我不在现场,就错过这些细节了。围棋里面有一种叫“观战记者”的,里头最有名的是川端康成,就是拿诺贝尔文学奖那位,他之间做过这个。围棋比赛里面这些细节,都是很有故事的事情,我一定不会错过的。腾讯科技:这次作为裁判主要任务是什么?樊麾:主要就是下完了数棋吧(笑)。当然,如果中间李世石有什么疑问也可以马上问我。腾讯科技:你觉得李世石能为你“报仇”吗?樊麾:我没法预测,我对媒体都这么说。这是真的。如果AlphaGo停留在半年前跟我比赛那个水平,那它对李世石毫无胜算。但是它最强大的地方就是学习能力,DeepMind过去这几个月都在努力让它变得更强大。腾讯科技:你应该有参与到其中吧?能跟我们透露一些吗?樊麾:我们签了保密协议,所以这个没法回答了。(那你中间见过DeepMind的人吗?)见过,只能说这么多了(大笑)。腾讯科技:好的我们换个问题,从输了比赛到消息曝出来中间隔了三个月,你都没法跟任何人说这件事,这段时间是怎么度过的?樊麾:这种感觉是挺难受的,就是全世界,就你一个人知道了这个惊天秘密,你又没法跟别人分享。中间还碰到一个挺有意思的事。11月份在法国有一个围棋的冬令营,其中有一个韩国老师,吃饭的时候兴高采烈地跟我们说,我最近跟CrazyStone打,让三个子我还赢了。我在那里心里是偷笑,心想你们都没见识过AlphaGo呢,但是什么也不能说啊,只能低头吃饭。另外我在网上查了很多关于人工智能的东西,进一步了解吧,然后基本上该怎么过怎么过。腾讯科技:有一种说法是,即便这次AlphaGo赢不了李世石,下一次,下下次,或许几年后人类棋手就完全不是它的对手了,就像当初的IBM深蓝一样,作为一个靠围棋吃饭的人,你会有这方面的担忧吗?樊麾:不会。我觉得现在人类对围棋的理解不超过10%,咱们自己都不了解什么是围棋。围棋是一个典型的东方的东西,最简单,但是最有力量。如果人工智能能帮助我们更好地理解围棋,我不觉得是一种威胁。而且往近里说,自从这个事情出来之外,整个欧洲国家,基本上每家的官网,当月的访问量都是前一个月的10倍。这对围棋运动的推广来说绝对是一件好事啊。腾讯科技:所以你对人工智能的发展也是抱着一种乐观态度?樊麾:可以这么说吧,我觉得我们不会让人工智能的发展威胁到人类。你现在反过头来看历史上的那些发明,照相机、火车、轮船,照相机刚发明的时候被当成的巫术,现在想想多么可笑啊,我觉得人工智能也和这些也没有区别。你想想,我们每年发生的自然灾害有多少。人类面对这些灾害有多无助,这还只是局部的灾难,如果某一天有了全球性的灾难怎么办?也许到时候人工智能真的能帮助到我们。你说有没有可能发展成为《黑客帝国》里那样的,当然有可能,可能性多大,谁也不知道。但你不能因为这个就止步不前。而且人工智能和人不一样,它对权威没有任何概念。它的脑子里没有生存,权力,金钱这些概念。它为什么要跟人搞事?我觉得人工智能只会是保护人的利益,一起建造更好的文明。
[责任编辑:honestsun]
您认为这篇文章与"新一网(08008.HK)"相关度高吗?
Copyright & 1998 - 2016 Tencent. All Rights Reserved
还能输入140字从围棋角度看李世石与 AlphaGo 的第二局比赛有哪些关键之处?
本题已收录至知乎圆桌 >> ,更多关于李世石对战人工智能的解读欢迎关注讨论。----AlphaGo 有哪些违背围棋常规的操作?李世石在策略上有哪些改变?如何看待整局比赛?相关问题:
按时间排序
217 个回答
狗的计算力是很强,但是他还是不能做到穷举和绝对的暴力计算,也就是说他的选择还未必是最优的,假设穷举以后得出的结论是最优的,那么也就是说越接近穷举则选择的变化更优。在我和一些职业棋手看来,狗的布局思路确实很强,人不可能看到那么多变化图,能选择的点就会少很多,自然狗能做出比我们更优的判断。我觉得从目前的棋谱看来,狗让李世石一先,李世石也很难下。这对于我们人类棋手来说,其实并不可耻,就像我们不会和汽车比谁速度快一样,只是我们以前对于围棋棋手能战胜电脑有有一种特别的骄傲,但是现在智能能占据上风不仅不会给围棋行业打击,还会给我们新的一种研究围棋的思路
我的看法是既然现在阿法狗这么强,将来可能有很多棋手会用阿法狗来陪练。阿法狗的特点是避免不必要的纷争,尽量简明,所以也很少选择打劫。人们会判断,简明务实的下法应该是更实用的,所以会造成人类棋风上的大改变,像以前棋界小林光一扎实稳打,大竹英雄注重棋形美感,加藤正夫力战型,武宫正树宇宙流,马晓春轻灵飘逸,林海峰两枚妖等等各式的棋风多样性已经不太可能再现了,这对围棋本身来说并非是好事,因为他会把围棋逐渐变得枯燥,变得更功利。第二种是这样的情况:本次是李世石赢了一盘,靠一个鬼手而赢,这可能会使人类下棋时,更多的去注重鬼手,而可能会因此忽视正手和本手,这对提高棋力也不是什么好现象。
我觉得给alphago计算的时间太多了。分布式版的alphago至少拥有1000多个cpu和200多个gpu,其算数能力至少是人的1200倍。但是比赛给alphago的时间跟人一样,这就使得alphago能够搜索更多的下棋方案,评估更多的局面。在外部条件不对等的情况下,我觉得无法评估alphago背后算法的实际能力。
看了直播,从李世石的路数来看,明显很混乱,从心态来说,与我差的不是一点。从29手开始,就已经决定棒子不行了,而不是柯洁说的46手。大家可以仔细看看,29手、85手,随便哪一手下面再下一手黑子,就已经连成五个了,他妈的却偏偏不下
于被我发现阿法狗的秘密了!怕被灭口,冒死公布!这根本不是一个下围棋的软件!它是一款可以和冥界交流的软件,在冥界客户端的那边坐着黄龙士、秀策和吴清源~看到坐在李世石对面的人了吗?那根本不是程序猿,他是个职业巫师,俗称问米婆者是也
最近在播放的央视纪录片《围棋》第一集中导演田壮壮说吴清源说自己要活到100岁,人家祝他活到一百多岁,他说:“不,就是一百岁。那边很忙,我要赶快过去。”简直神一样的人物。吴清源也取得了神一样的战绩,把同时代的所有顶尖高手都十番棋打到降格。这次难道是逝世不久的吴清源化身阿法狗又来五番棋挑战天下高手了,所以他说:“那边很忙?”第二局那步让李世石长考十分钟的天外飞仙般的五路尖冲,有人评价很像吴清源自由奔放的棋风。
我只能说,这场比赛是谷歌做的最成功的广告,仅此而已,就是个广告。所谓的把人工智能和人对立起来的说法全是煽动人心,毕竟和谷歌那个机器下棋的是他的测试工程师,他也代表不了人,谷歌机器代表不了人工智能,如果这样的宣传达到了谷歌的人工智能代表了最前沿的话,那谷歌这钱就没白花!
Alphago成为了围棋上帝之后的上限会是——两台Alphago博弈,谁先开局,谁一定能赢(或输)
讲真的第二局我觉得说AlphaGo吊打有点夸张,压制还算比较中肯一些,毕竟AlphaGo先手,压制很正常。黑子刚进中盘时在左下下得就比较狼狈,很难相信AlphaGO才下了40多步就开始主动放水,如果它真的有这种程度的计算力,那么这跟它穷举了所有可能也没有什么区别。最后中间的白棋被杀掉其实也是小李主动放弃而去脱先进攻右上角,从结果来看显然亏了不少目,职业棋手们预判的白棋打入可以求活并没有什么错误。而小李之所以需要冒险进攻右上角,也可以追溯到自己之前主动补子放弃了先手进攻的机会。相比之下AlphaGo几乎总是抓住先手不放过时机。直到中盘后面,小李的棋一直很稳,几乎没有什么破绽。如果看了直播就会发现,真正的决定性的转折是在小李超时之后,很快只剩一次60秒的读秒机会了,之后好几次压着最后几秒钟走子,这本来也不算什么,最大化利用时间嘛,但是可惜不久AlphaGo走出妙招,一分钟内想出应对方案显然太困难了,于是失误输了。那么问题在于,AlphaGo是否早就预见到会以这种方式获胜呢?这就不知道了。或许它算出了不管怎样都会获胜,胜多少无所谓。不过要做出这样的判断,胜率的计算必须要达到一个比较高的值。可能跟AlphaGo这种级别的AI对抗,人必须要做到下棋没有波动,没有失误。有时可能仅仅丢了一个先手,就会导致最终输掉。纯粹的智力上的差距到底有多大其实很难衡量。第一局小李还剩30多分钟没用完,这局小李花了十几分钟跑出去不知道是抽烟还是干嘛,都说明他不能说在最佳状态。所以第三局我觉得值得期待。
现在回想棋局,定式中白12这手棋完全不应该走,因为白棋局部已经安全了,再走就是画蛇添足啊。我认为是历史的错误。宁失数子,不失一先。何况得到的仅仅是一点地。是我们检讨现成的定式的时候了
关注围棋AI很久了,很奇怪为什么AlphaGo执黑居然没有首先下天元……
做为一个围棋的爱好者,看了2局,特别是第2局我是真的很开心,为围棋开心,我国几千年的古人创造的这项神奇的技艺真的有终点吗?我以前一直觉的不可能有所谓围棋之神的存在,现在人工智能带来的这个希望,终极的围棋技艺到底是这么样的?我觉的我在有生之年也许真的能看到。
你听说过发阳论吗
我是在youtube看麦克雷蒙做直播解说的学了十多年棋 我自己最大的感觉就是 一块厚势 or一块孤棋 怎么判断它的价值 留几步走的机会 在局面发展potential很大的情况下取舍哪一块呢。每次自己下棋算这些都很蛋疼 看到厚势如果是自己的一时爽 (噗)。但每次输给别人基本上也是这种错。也许Alphago在这方面的算法是非常成功的。第二局alphago对定式的创新不知道是不是最优选择。但是至少是不亏的。我认为Alphago在110步+的时候已经奠定了盘面12目左右的优势了。人和机器比收官。实在是比不来。没有指望差距能小于这个数值。心里为偶像感到心疼。除了二次读秒的那一步 小飞 放弃了右边靠中间的那一子 偶像走的有点慌张。其他我觉得真的没什么好挑剔的。比第一局好。但是这种稳扎稳打的感觉有点像安乐死。说一句题外话了。希望不要老是有一些朋友说。 人类的尊严在这里被严重的打击了。以后该怎么看待自己…blahblah尊严是自己给自己的 不是Sedol给的。明天继续看直播。加油。
上面大家讨论还是基于“机器”讨论,而且是仅仅站在机器的一方讨论。我在想,alfago是不是能加入对手分析啊,加上去就真的无敌了。每一步在生成搜索树的时候,根据不同的选手生成不同的权重,预测对手怎么走。这样可以大大降低计算量,还有可能出现故意布陷阱的方法。也就是说,alfago现在还是把李世石当成另一个alfago去进行搜索的。如果有了李世石的模式,alfago会更厉害。分析对手会难一点,因为李世石公开的对弈并不多。细思极恐。另外一个好玩的是,如果下半中间alfago和李世石互换黑白,会不会疯掉啊。。。。。
跟人下棋,你得揣测对手可能的意图.跟狗下棋,你得揣测狗可能的意图.也就是狗的决策思路.所以,小李应该学习一下狗的决策算法及价值算法,至少要有个了解.人下棋,是要做局,要看破对手设的局.狗下棋,不做局,也不管你的局.狗的想法很简单。狗每下一步棋,是考虑到20步以后的情况并计算了胜率,选的最佳解,然后等小李下完一步,狗再计算一遍.从这个意义上来说,狗下每一步是跟前面没关系的,而是跟后面有关系的.就算小李能做局做到20步以后.但是20步能取得的优势是不是决定性的胜利,又难说了.从这个意义上来说,除非狗的时间不够,不然,小李注定是会被能算到20步的狗,日的.简单点说,人算不如狗算啊。
我觉得现在需要有人来解释狗的硬件条件和程序设计思路.
我算是来说一下我从两盘棋里看到的东西吧,算是在微信群里讨论了半天的一个总结。0.
AlphaGo工作原理简介还是简单回顾一下我对alphago工作原理的理解,这有利于解释很多现象。整个alphago还是建立在MCTS基础之上的,但是因为两个深度网络大幅改进了MCTS的效率和准确率。之前的MCTS因为缺乏好的Prior(肯定也有,但是效果都不太好),可以认为几乎是随机扔棋子到终局判断胜负,这样扔例如10000次然后来判断胜率(请忽略我的简化,事实上还是一个tree的展开,怎么平衡深度和广度都是大问题,请参考, )。而alphago首先训练了第一个网络用来走子,且这个走子网络在围棋上非常靠谱,光靠这个网络已经达到了不俗的水平。然后用这个走子网络(快速版),作为MCTS节点展开的Prior,这样就大幅减小了搜索树的规模。根据论文,走子网络加上MCTS已经超越了之前所有AI,而田博士的darkforest也是这样做的()第二个网络是叫价值网络,它是用来进行形势判断的(并不同于人类点目这种手段),也就是说我们不是完全靠MCTS跑完终局才来判断一次胜负,而是直接以当前局面给出一个胜率,这样又大幅提高了搜索的效率。在10月份时,这个网络的能力还并不算出色,而田博士猜测这里可能是alphago会大幅进步之处。简单说就是,两个深度网络有效控制了MCTS展开的深度和广度,所以大大提高了MCTS搜索的效率和准确度。而最终AI将在一个目前已探索到的节点里挑选一个胜率最高的作为下一个落子。但是有一个关键因素在论文里没有给出,就是用时策略,因为更长用时肯定会更大概率找到真正最好的解。知道了原理就可以很好解释为什么之前的MCTS虽然已经进步斐然,但是比AlphaGo的差距巨大;而MCTS又是AlphaGo和darkforest的基础,所以有很多MCTS的特点依然可以被观察到。1.
AlphaGo更擅长大局还是局部计算有一个误区是认为电脑更擅长计算,而人类大局出色,经过这两日比赛已经可以宣布是错误的了。AI在形势判断上全面强于人类毫无疑问。原因如下:从原理上看,电脑始终是以终局作为criteria来判断的,无论是MCTS还是价值网络,所以电脑的走棋真得是不以一地得失来选择下一手,这样的例子例如两局的左下都非常典型。而最终的结果也说明了问题,AI那些最初让人大跌眼镜的着法事后冷静分析(基于职业棋手的评估)也都颇有道理而人类反倒是靠基于逻辑推理的直线计算,可以对局部手段做到尽善尽美。但人类在对整体局面的评估,其实是基于点目(参考)的一种替代手法,而且有很多关于厚薄等无法量化的因素,现在来看是有缺陷的,最关键的证据是职业高手群体许多时候的判断也是不一致的,差异还可能很大。2.
AlphaGo为什么会犯低级错误典型如例如第一局的142,这样的例子很多,经过人脑的逻辑分析都可以找到局部更优的着法,但无一例外的是这些小失误都是在(几乎)胜定时发生的。原因也要从AI工作原理来分析。因为AI追求的唯一目标是终局的胜率,而另一方面又有用时的限制,所以AI一定会在搜索精度和耗时上有个tradeoff。当局面优势最够明显时,会有许多下法都能保证最终的胜利,而胜率评价上可能差不太多。这时会出现的可能有两种:一是最优和次优的胜率很接近,但是因为蒙特卡罗的随机性在一次仿真里次优的得分会更高,所以选择了次优(这个将来可以很好被验证:就是每一次同样局面电脑的选择会不同)。二是,当寻找了一些节点后发现胜率都很高,根据用时的trade-off就不再继续搜索了,因此可能会漏掉搜索一些更好的点。3.
Alphago打劫会是弱点吗李世石昨天数度放弃了打劫的选择让人遗憾,为此围棋界差不多吵翻了天,而相对客观的分析来自李喆()。另外就是来自本次比赛的裁判,第一个被alphago战胜的职业棋手樊麾对现场李世石的描述:当时李世石已经心理压力极大,手在发抖,而樊麾是最理解这种心态的人。但大家争论的另一个焦点是AlphaGo打劫弱吗?有学术代表给出了Aja Huang前些年专门研究打劫的论文,这算是一个证据。但因为AlphaGo这边测试不够(樊麾的第五局其实已经有打劫了),而之前AI打劫都是很大的问题,所以公信力不够。另一方面,仍然从原理分析,打劫意味着变化的复杂度增加许多,而且基于逻辑分析的直线计算并不是电脑下棋的原理,所以它需要更多的搜索才能准确判断优劣。而这时,如果有另外一个着子选择的胜率并不差,但变化相对简单,AI会毫不犹豫的选择这个变化而不考虑打劫。所以,我认为打劫可能会是AI相对较弱的地方,但并不一定弱到哪儿去,只是因为计算难度的提高使得它更难以判断其优劣,在有其他次优选择时电脑会“主动”放弃打劫。所以刻意求打劫并不是好的主意,只有那种自然形成的华山一条道的打劫才会真正测试到AI打劫的能力。在此之前都只是不太靠谱的猜测。4.
AI的胜率曲线第一局AlphaGo认为自己完胜,第二局许多人类认为AlphaGo完胜,它却不这么看。这个短短的两句话其实很有信息量可以供我们分析。第一局的问题很多人已经解释过了,事实上左下下完几乎所有人都认为黑好时,是基于右边没有大的出入的点目判断。但事实上是,电脑认为102之后的结果是必然,那黑棋形势就的确从来没好过,而这样反过来看86就是照顾全局的好棋,争夺到先手走到102缩小右下的价值(本来人的思维是右下左上见和),然后116守住左上,留一个鸡肋右下给对手。而事实上右下即使李世石不按实战,走尖顶的话还是会略差一点。第一局AlphaGo一路领先,信息有限。第二局透露出中盘AlphaGo自己也不觉得是优势,却是怎么回事呢?前一手还是算出55%的胜率,当对手下了一手后却变成了50%,这件事情是很有意思的。假设是确定性算法,那AI一定会照自己的既定计划一直进行,那胜率曲线只会单调上升;而胜率既会上升也会下降说明AI的选子和评估都是有缺陷和波动的!正是因为李世石的某些好棋超出了AI的落子和评估,才使得它接下来下调了胜率,而另一方面还是蒙特卡罗的本质,使得其每一次的评估不可能完全一样,一次小概率的连续18次大可能使得它误判了下一手的胜率,在对手之后重新评估又下调了胜率的评估。另一方面,评估也依靠的价值网络虽然是确定性的,但也一定是有判断的误差,很有可能对两个相邻不远的局面给出了较大的评估差异。5. 让先能赢AI吗参考第2点,可以知道的事情是AI在胜率较高时,会走出非最优的着法。所以不少人在讨论让先/贴目的方式来逼出电脑的最强功夫。关于这一点,我不太确认答案,如果有职业高手充分理解了AI工作原理,也许能更好得到答案。但有一个推论是值得注意的,也就是AI这种特性决定了它遇强则强,遇弱则弱,所以我们很有可能被10月樊麾的棋谱给欺骗了,AI在优势下表现出的不正常并不足以用来评估其实力。而如果假设当前最强人类在不犯错的情况下(即允许无限悔棋),跟当前的AI是平手,那我认为差距接近是让先,因为所有棋谱来看,每盘棋人犯错的损失加起来大多都不止一个贴目的。所以我同意李喆文章里对李世石策略的分析,立足不犯错的情况下对付AI,而他已经在短暂的时间成功逆转了胜率曲线的趋势。至于具体差距,谁说了也不作数,那是需要等谷歌公开测试,一拥而上之后才能更好评估的;但另一方面,我更希望看见谷歌公开AlphaGo自我对战的棋谱,因为不可能两方一直维持50%:50%的胜率判断,而判断的差异和胜率曲线变动的地方就都是研究AI特点的关键点,而自我对战的棋谱也更利于发现AI到底是怎么下棋的(抑或下得不是棋:P)6
AIphaGo是围棋上帝吗理论上来说,显然不是,没有严格数学证明是没办法说是围棋上帝的,至少连象棋国象都还没能说这话。但是离围棋上帝到底有多远,这谁也不知道,只能说进一步提高算法以及和人类co-evolution后会逐步逼近。但是AlphaGo在革新人类围棋理念和水平上的进步,我相信是会比吴清源,李昌镐更大的。总结:人的优势在逻辑推理,快速学习和总结经验;而缺点在于情绪,状态波动和非准确的形势判断。而电脑最大的优点是准确的形势判断和极少犯错,可能的缺点:1. 胜率评估非基于逻辑推理的计算,而是大量模拟的合理兼不合理局面。所以打劫也许有机会,但只有那种自然形成的复杂打劫才有一点可能测试到AI的极限; 2. 不可控的随机波动。只有知己知彼,才有希望这次或将来战胜AI,推动围棋的整体进步。
想看看程序自己和自己下棋。
最关键之处就是李世石心理崩溃了。从开局不追究狗的未完成定式,到对所谓的“脱帽的一手”贴起而不是正常的爬,可以看出他怕了。我就说一句,如果对手的每手棋不管多奇怪你都觉得是老谋深算,在布下什么陷阱等着你,这棋还怎么下?!
已有帐号?
无法登录?
社交帐号登录

我要回帖

更多关于 李世石人机大战第二局 的文章

 

随机推荐