黄士杰 alphagoo为什么那么厉害

您当前的位置 :
为什么说AlphaGo的胜利是件惊天动地的大事?
 编辑:艾文
  李世石对战AlphaGo
  凤凰科技讯北京时间3月10日消息,据科技网站The Verge报道,昨天DeepMind的AlphaGo战胜传奇围棋选手李世石的消息成了全世界各家媒体的头条,同时,这也是人工智能(AI)历史上最重要的时刻之一。&我非常吃惊,&李世石说道。&我没想到会输,AlphaGo的实力居然如此强悍。&
  不过就是下个棋而已,为什么AlphaGo的胜利如此引人关注呢?想要真正理解该问题,就要先了解围棋的特性和DeepMind团队如何去破解围棋中的各个难点。
  围棋发源于中国,是一项拥有3000年历史的古老游戏。它非常抽象,所有的战斗都发生在19 x 19的格子棋盘上,棋手通过落子围住对手的棋子来获胜。虽然规则不多,但变化多端的棋路让其变得非常深奥,因为任何细微的变化都有可能引起战局的突变。
  韩国围棋协会高级秘书长
  英国围棋联盟裁判托比表示:&围棋是世界上最为复杂的智力游戏,它简单的规则加深了棋局的复杂性。&托比还引用了20世纪传奇围棋选手爱德华&拉斯克(Edward Lasker)的话,后者表示:&国际象棋中有许多巴洛克式规则(意为华而不实),它们都是人们故意添加的,而围棋则不同,它的规则是如此优雅自然,有着严格的逻辑,如果宇宙中还有其他智慧生物,我想他们也会爱上围棋。&
  正是因为围棋超凡的复杂性,想要成为传奇选手,你需要经过多年的训练。棋手需要磨练自己的直觉并学习识破各种棋路。&刚刚上手时,你会觉得围棋的规则简单易懂,但在长期的练习中你会发现这项运动深不可测,&韩国围棋协会高级秘书长Lee Ha-jin说道。&即使你已经在围棋界浸淫几十年,你依然会发现自己还有许多东西可学,围棋棋艺是没有天花板的。&
  五岁时Lee Ha-jin就表现出极强的围棋天赋,因此她的父母将她送去首尔的私立围棋学校学习,她跟老师同吃同住,平日上学,晚上回来后还要练习几小时的围棋。经过11年的训练,她最终成为了一名职业棋手。
  小小棋盘中蕴藏着无数奥秘
  我采访过的每个围棋选手对这项运动的评价都如出一辙:围棋的魅力就在于简单规则后无数的变化。这些复杂的变化正是电脑难以捉摸并真正掌握的地方,毕竟机器没有人的直觉。
  &国际象棋和西洋棋与围棋不同,它们不需要选手对棋局做复杂的形势评估,&乔纳森&谢弗(Jonathan Schaeffer)说道,他是加拿大阿尔伯塔大学的计算机科学家,此前他的Chinook程序曾战胜过顶级的西洋棋选手。&在国际象棋和西洋棋中,只需简单的启发,你就知道下一步该怎么走,衡量各个棋子的价值是选手最重要的任务&&如果在国际象棋中多一个车的棋子,那你已经基本胜券在握了。但这些方式在围棋中都行不通,从人类的角度来看,围棋的棋路过于复杂,电脑很难学会。不过AlphaGo做到了,它拥有世界上首个有效的评估函数系统。
  那么DeepMind是如何做到的呢?其实解决这个问题的关键是深度学习和类神经网络技术,有了它们,研究人员就能教AlphaGo下棋。就像Google Photos能帮你从无数图片中找出猫咪一样,其背后是该应用对超大量级的猫咪图片做分析后的结果,这些分析处理甚至细化到了像素级别。而AlphaGo能有如此成绩,则得益于对数百万项围棋数据的学习,包括各种棋路和棋手的比赛。
  眼下,AlphaGo还在不断学习,其能力也在不断增强。起初,它还是靠学习套路(策略网络)来预测对手的落子方式,不过随着价值网络训练的深入,AlphaGo已经有了那么点&直觉&,它可以分析出比赛的态势了。在棋局中,AlphaGo已经可以通过快速对各种可能性做分析,提前考虑后面几步的落子和排兵布阵了。其实AlphaGo拥有的各项技术都是相互辅助的,类神经网络可以降低电脑的负载,提高工作效率;套路学习则可以减小其搜索范围,而价值网络则可让它从每次的比赛中总结出自己的经验。
  AlphaGo拥有自己的&思考&能力
  这一增强版的学习系统让AlphaGo变得更像人类,而不是靠惊人计算能力战胜国际象棋大师的IBM深蓝电脑,毕竟围棋和国际象棋在复杂程度上不属于一个量级,用深蓝电脑的方法是无法在围棋上战胜人类的。在五场比赛的间歇,DeepMind都不会对AlphaGo做调整,因此电脑只能靠自己来学习,但每天一场比赛的量确实有些少。此外,DeepMind公司创始人杰米斯&哈萨比斯(Demis Hassabis)称AlphaGo的计算能力在去年十月的比赛后一直都没有得到增强,因此现在它的能力已经达到现有硬件条件下的顶峰。
  不过深蓝电脑的开发人员认为AlphaGo在国际象棋上并不一定是世界最强。&我相信DeepMind可以开发出战胜所有国际象棋大师的程序,&IBM研发工程师坎贝尔说道(他认为AlphaGo是一个令人印象深刻的程序)。&不过我不认为AlphaGo可以在所有棋类比赛中站上世界之巅。为什么这么说呢?因为国际象棋在搜索能力的要求上与围棋有着本质上的不同,而该能力是电脑战胜国际象棋大师最为关键的一环。虽说围棋上电脑也需要深度搜索来辅助,但围棋更重视直觉和对棋局形势的判断与预估,而在国际象棋比赛中,搜索能力就是唯一,这正是AlphaGo最为缺乏的。&
  不过DeepMind公司可不这么想,它们认为在AlphaGo上取得的经验可以在多个领域中得到应用。哈萨比斯曾讲述过深蓝电脑上的AI与AlphaGo的不同,他认为后者更加灵活,适应性也更强,而深蓝电脑的应用范围则较窄。未来,DeepMind的人工智能技术将用在机器人,智能手机语音助手和医疗保健等领域。
  AlphaGo有可能改变围棋运动未来的走向
  其实无论随后四场比赛结果如何,AlphaGo都已经创造了历史。上周在接受采访时李世石曾表示:&围棋很有可能在此次比赛中走下神坛,此前我们一直将该运动视为骄傲,因为它是唯一未被电脑战胜的棋类运动,如果这一纪录作古,确实会让人有些失望。&
  不过AlphaGo的胜利也会从另一个角度推动该项运动的发展。围棋协会成员都对AlphaGo的能力感到十分震惊,他们认为AlphaGo有时落子的方式有些一反常规,如果自己这样下棋,肯定会被老师骂的。
  &我们当然非常震惊,&围棋选手杰克逊表示。&业内一直有所谓正统的落子套路,AlphaGo这样不按套路出牌能给我们带来什么启示呢?难道它要引发业界大地震?难道我们此前辛苦训练学会的那些技能都是错误的吗?&(编译/吕佳辉)
  想看更多国外有意思的、新奇的科技新闻?那就来扫码关注外言社的官方微信吧~
  微信号:ifengwys
新闻纠错:022-
我来说两句
·&··············
热点新闻排行榜
| 违法和不良信息举报电话:022- | 举报邮箱:jubao@ |
(C) 2000-.cn, Tianjin ENORTH NETNEWS Co.,LTD.All rights
本网站由天津北方网版权所有AlphaGo究竟强在哪儿?&不出昏招思维酷似人类
作者:&&&&&来源:&&&&
北京时间3月9日-15日,世人瞩目的人机大战将在韩国首都首尔开战。在今天上午的赛前新闻发布会上,谷歌宣布AlphaGo将单机作战,而且依然是去年10月第一次战胜职业棋手的版本。尽管这样,李世石也对自己能否以压倒性优势战胜对手表露出一丝怀疑,他现在对AlphaGo的的认识更深了一步。AlphaGo究竟有多强?李世石能否捍卫人类尊严呢?
人机大战受关注度越来越高
在中文丰富的词汇里,有一个词来形容精彩的比赛,那叫“棋逢对手”,表达的意思就是双方水平不相上下。从人类的职业棋手来说,是否拥有很高的围棋天赋是很关键的,还有就是自身在关键的学棋阶段是否努力。而很多天才型棋手,上了一定年龄后,在比赛中不可避免地逐渐会出现“昏招”,导致棋力大降。
人工智能在围棋方面,起步比国际象棋等其他智慧型运动晚很多,而且由于围棋这个东方色彩很浓的项目的特殊性,一直是人工智能迄今都还没完全攻破的最后堡垒。在近20多年,各国的电脑专家及专业机构也在努力研究能与人类最高围棋水平抗衡的人工智能设备。
但在成长道路上,很多这些电脑软件在与真实的人对弈时,会走出很低级的棋,导致他们只能在某个阶段体现机器运算能力的优势,而无法把这种优势连贯起来。简单地类比,就是说之前的人工智能围棋软件,“昏招”太多。而据了解,这个去年10月曾5-0战胜欧洲冠军、职业二段棋手樊麾的AlphaGo,它最大的特点就是思维能力已经酷似人类,不会再棋局过程中下出以前那些人工智能围棋软件通常容易出现的昏招。
如果是人与人与人之间的对弈,你可以通过对方的表情及神态变化感知自己的棋是否下出了效果,是否压制住了对方。而AlphaGo是冰冷的机器,对局中无法看到他的情绪变化,这是李世石要面临的巨大困难之一。据悉,这次人机大战还是将采取真实棋盘进行的模式。从上一次AlphaGo与樊麾的比赛报道图片看,对方是有一名工作人员按照AlphaGo的意图,一步一步在比赛中帮它摆棋。
李世石赛前也表示,人类在行棋的感觉以及价值判断上,目前看可能还是是优势。当然,李世石的这种主观感觉是否是实情,还需要实战检验。AlphaGo思维类似人类,而且他的计算能力远比我们人类的血肉之躯高出很多很多,为数不多的悬念就看AlphaGo的瞬间判断能力和棋感是不是也超过人类了。
(责任编辑:田涯)
Copyright ? 陕西传媒网版权所有 未经书面授权不得复制或建立镜像
地址:西安市环城南路东段一号 邮编:710054 广告招商:029- 传真:029-
互联网新闻信息许可证: 新闻热线:029-
投稿邮箱:.cn
陕ICP备号-1
增值电信业务许可证:陕B2-
广播电视节目制作经营许可证:(陕)字第626号韩国家队分析AlphaGo60局1 很强但不“完美”_棋牌_新浪竞技风暴_新浪网
韩国家队分析AlphaGo60局1 很强但不“完美”
位于美国西部的谷歌数据中心。去年3月的人机大战AlphaGo使用的是分布式的服务器群组,但跨年之际的60局,AlphaGo是单机版。可以说狗狗的进化速度已经相当快了。
  围棋界现在除了AlphaGo没有其他话题了。那么韩国国家队的棋手们是怎么理解AlphaGo呢?AlphaGo是“人工智能”,是否像人类那样有着“棋感”和“创造性”呢?如果有,那么AlphaGo的60局中,哪些局面体现了这些呢?而且和人类有着哪些不同呢?AlphaGo的棋风如何?优点是?人类顶尖棋手和AlphaGo棋力相差有多大呢?以下韩国国家队的朴永训、崔哲瀚、元晟溱和申真谞、崔精、睦镇硕集中分析AlphaGo。
AlphaGo带来了自由
崔哲瀚、朴永训和元晟溱,当年的“牛犊三人帮”
  朴永训这样说:“AlphaGo解放了我们,带来了自由”。哪怕是职业棋手,小时候学棋时,难免“填鸭”式地接受老师灌输的东西。老师说这是“不好的变化”,那么这个“不好”的评判就会刻入脑际。职业棋手一生都在摆脱这种条条框框的影响。
  崔精和朴永训异口同声说:“AlphaGo走的棋好像都违背棋理,但偏偏能赢。”AlphaGo不受任何偏见的拘束,随心所欲走棋。或者貌似违背棋理,但实则不然。所以崔精又前后矛盾地评价说:“以前有人提出过,如果一步都不失误,完美下一盘棋,会是怎样的一种围棋呢?AlphaGo展现的,就是这种围棋。”
朴永训(白) AlphaGo(黑)
  AlphaGo的黑1怎么看都像是恶手。黑1、3让白2、4垒起一道厚壁,至少在局部不像是什么好交换。但局后分析,职业棋手们改变了看法,如果黑5早就有在右上角夹攻的打算,那么黑1、3至少不是坏棋。申真谞说:“AlphaGo非要做这个交换的理由,可能是讨厌白棋A位打入纠缠。”
  韩国队新任主教练睦镇硕说:“AlphaGo只下正手,不走无理棋,然后把棋赢走,这才是最可怕的。”职业棋手们说“AlphaGo并没有下出什么让人绝倒的妙手,也没有那种新布局时代的革命性的招法”。或者,AlphaGo更接近于基本,然后表现出效率极大化的围棋。
AlphaGo为什么这么强?
崔精、睦镇硕和申真谞
  申真谞:“人类棋手基本没使上什么劲儿就脆败下来。AlphaGo其实走得很简明,但棋手们难以地上,而且基本没有保持过有利局面。”
  崔精:“女棋手们也是惊叹,觉得AlphaGo的棋子,都是飞在棋盘的上空。”
  睦镇硕:“AlphaGo对厚的理解非常深。人类棋手很难判断这样走究竟是厚,还是重复,或者有没有均衡?AlphaGo是走得很厚实,然后靠实地赢你。尤其AlphaGo在中腹围空的能力特别强,在这方面人类棋手拉下了最大的差距。而且恰当的时机、恰当的位置上,AlphaGo会把子效最大化。”
  崔哲瀚:“AlphaGo清楚地知道认为‘赢定’的那个时机,然后开始收兵,但人类棋手是做不到这一点。复杂的局面,人类棋手通常认为是‘双方都很难’,但AlphaGo是可以做出精确的形势判断。其实,人类棋手如果能拿到AlphaGo做形势判断的‘价值网’(value network)功能,也有得一战。”
  朴永训:“AlphaGo好像序盘阶段就知道中腹的厚在哪里。人类是很难看到这个厚,也无法用目数来具体量化。AlphaGo在序盘阶段多走厚实手段,棋手们下着下着,忽然惊悚地感受到AlphaGo早就知道会下成现在这个局面了。”
  元晟溱:“AlphaGo的手法很似吴清源先生。吴清源先生认为,将来的围棋,会走向中腹。AlphaGo的棋,其实也是走向中腹。”
  申真谞:“AlphaGo很喜欢下肩冲、飞压这类的手段,其实体现了意在中腹的价值取向。”
AlphaGo“高者在腹”
AlphaGo(白) 朴廷桓(黑)
  白1、3是AlphaGo喜欢使用的肩冲。崔哲瀚说:“AlphaGo似乎有这样一个特征:喜欢早期削减对方的大模样。”申真谞说:“的确是积极的手段。以后如果能虎挡A位,非常厚。”
申真谞等职业棋手如何处理这个局面
  申真谞说:“换了我,十中八九我都会下白1位。”围棋格言有这样一句,“两边对峙时,中线为大”,白1就是位居中线。申真谞说:“白1后下一步就是逼到A位。但AlphaGo显然是认为,黑棋左上角已经缔角,所再逼上去很无聊,所以干脆A位肩冲。”
飞压,给“旧手段”赋予新意义
AlphaGo喜欢“飞压的姿态”
  黑1飞压是1800年代的手段,AlphaGo非常喜欢,不在乎这是不是“过气”的手段。黑1、3是基本定式,现代很少使用,理由是实利上并不“实惠”。申真谞很关注AlphaGo的这一趣向,认可AlphaGo的“新发现”。
  申真谞强调说:“AlphaGo好像认为黑1、3的手法非常厚。虽然这是有些过气的老手段,但AlphaGo经常使用。如果白棋C位逼,黑棋就D位反夹。这个形状,黑棋既可以A位继续压筑一道壁,也可以B位托进去捞取实地。这一点其实职业棋手们都知道,但AlphaGo显然认为其价值比‘人类’所想还要重大。”
李钦诚(白) AlphaGo(黑)
  申真谞说:“AlphaGo显然认为三个黑▲非常厚,所以黑1不是简单拆,而是肩冲蛮横攻击白棋。黑1充分体现了AlphaGo的‘观点’。”
人类大棋士遭受“凝形”、“重复”之屈辱
AlphaGo(白) 常昊(黑)
  常昊在全盛时期布局上敢称“天下第一”,但是和AlphaGo交手,在序盘阶段就彻底“崩溃”。如图,你能想象尽数被封禁在左边的黑棋是常昊下的吗?
AlphaGo(白) 常昊(黑)
  这一局AlphaGo白16、18就简单飞压。接着实战图的白20、22继续压,白28腾挪利用,白30、32角上便宜利用,白38枷,靠一系列小花活儿手段让黑棋在边上重复、凝形,然后白44悠然发动攻击。
  睦镇硕:“AlphaGo的强处是下得很厚,但实地从不落后。也就是AlphaGo的均衡感非常强。”
  元晟溱:“无论序盘、中盘还是后盘,AlphaGo的算路、方向感、大局观、手筋的利用、攻击和防守、均衡感、形势判断都很强。”
  睦镇硕:“AlphaGo虽然序盘、中盘和后盘都很强,但最强还是序盘。人类棋手几乎支撑不了50手就落下风,尤其AlphaGo的白棋特别强。看50手以后的进程,AlphaGo执白要比执黑更厉害些。人类棋手执黑靠过50手,下到中盘不知不觉就变成盘面胜负了。以前棋手们认为‘序盘下得再糟也是一盘棋’,但这一点在AlphaGo面前就根本不适用了。如果你还认为‘序盘随便下下就可以’,那么你会57%对43%的方式简单输给AlphaGo。”
  申真谞:“AlphaGo很忙忠实于基本,其实没有刻意下很特别的棋。只看棋谱,分辨不了是人下的还是人工智能下的。AlphaGo不会挑起极端复杂的战斗,而是简简单单下,然后赢你。AlphaGo很轻快,而且柔和,其实只有战斗力超强,才能做到这一点。”
AlphaGo(白) 朴廷桓(黑)
  “这一手很大吗?”朴永训说,他看到AlphaGo白9二路立下大吃一惊。仅看白9这一手,他无法理解棋盘还很空旷的布局阶段,这一手是必要的?但是随着进程,他看出这一步意味深远,而且是好手。
AlphaGo(白) 朴廷桓(黑)
  之后的进程,能看出AlphaGo处理局面的方略,就是把左边上下都走厚。在左上一带因为白棋已经坚固,黑7只能撞墙后往回拆,而不是补角,黑棋就这么留下了结构的暗伤。
古力(白) AlphaGo(黑)
  黑1、3、5灵动有韵致,而且瞄着左边孤单的白棋,这一切有一个前提,就是三个黑▲子的形状厚如一堵墙。而左边白两子后来饱受黑棋的攻击挞伐。
“天上掉馅饼?”,AlphaGo优美的侵削
AlphaGo(白) 朴廷桓(黑)
  谁能轻易想到白1这样的侵削手段?崔哲瀚说:“如果有人使出这样的手段,对手往往会喜出望外,以为是‘天上掉馅饼’。”接着崔哲瀚说:“这样的好手,只有状态特别好的几个日子里,偶尔能下出来。”
AlphaGo(白) 朴廷桓(黑)
  续前图。对黑2,白3自然而然就跟着飞一手,又自然而然的,很柔和地困住了黑棋被断的一子。元晟溱说:“白棋这两步棋感太棒了,但是很难想出来。黑棋左边并不大,因为后门洞开。”
AlphaGo并不“完美”,值得商榷的下法
申真谞(白) AlphaGo(黑)
  在毫无环境背景的情况下,黑3飞刺一手,这一步无论如何不可能是好手,只是帮白棋补强。崔哲瀚指着黑2说:“AlphaGo如果升级版本,这种手段可能会消失。”
申真谞(白) AlphaGo(黑)
  接上图,黑棋飞进A位时,白棋如果应在B位,那么黑▲的交换便宜了。问题是白棋不会在B位应。
申真谞(白) AlphaGo(黑)
  假设黑1打入3。三,到白10就会出现定式变化。但是事先如果做了黑A、白B的交换,再打入3。三就会把白棋撞成铁墙。
申真谞(白) AlphaGo(黑)
  很难猜透AlphaGo的真实意图是什么。申真谞说:“白1如果尖顶,黑2就底扳一手后脱先,AlphaGo大概是出于这个意图。但是,仅仅为了这么一步先手,我是不想做黑▲和白△的交换。”
忽然打入3.三“最革命”,但不见得始终行得通
金庭贤(白) AlphaGo(黑)
  这一局AlphaGo提早打入3.三后局面获得成功。AlphaGo这种忽然打入3.三的招法,职业棋手们最感到吃惊。看黑1~31的进程,白棋的厚壁反遭攻击,黑棋的3.三打入可判读为时机恰当。但是,过早打入3.三未必始终行得通。
辜梓豪(白) AlphaGo(黑)
  这一局AlphaGo提早打入3.三,并没有获得局面的成功(黑1~白12)。也就是这一局AlphaGo提早打入3.三的下法,并没有得到职业棋手们的认可。崔哲瀚说:“我搞不明白中腹趣向的AlphaGo为什么忽然钻沟渠。”大多数职业棋手也无意学AlphaGo提早打入3。三,因为实在看不出这种下法会带来什么好处。
党毅飞(白) AlphaGo(黑)
  看AlphaGo的黑1、3,感觉是在跳韵律操。元晟溱强调说:“不是不能构想这种漂亮的形状,但问题是即使走出了这种天马行空的大飞,后续有没有能力运营出好结果,这才是关键所在。”
讨论AlphaGo的招法
  睦镇硕:“AlphaGo下这60局,第1手从不曾走过天元或高目、目外。大概这类手段即使AlphaGo看来,胜率也是不高。”
  申真谞:“现在,还无从看出AlphaGo后盘的官子能力到底有多强。AlphaGo只要获得优势,就大踏步退让。因为AlphaGo没有输过,所以无法判断AlphaGo的后盘弱,还是胜定后在安全运转。和朴廷桓九段的那一局,AlphaGo给我的感觉是有些慌张,打将打了5手。”
  朴永训:“除了后盘,没有什么可质疑之处。真是好奇AlphaGo的后盘到底怎么样。”
  元晟溱:“如果有精通围棋和人工智能的专家,或许能说明,可惜没有。”
(未完待续)
韩《乌鹭网》记者金秀光 蓝烈编译
相关阅读:
加载中,请稍候...
加载中,请稍候...AlphaGo究竟是如何打败人类“最强围棋大脑”的?一篇论文告诉你答案【格隆汇】
AlphaGo究竟是如何打败人类“最强围棋大脑”的?一篇论文告诉你答案
资本圈的那些人和事
3月9日,韩国著名围棋棋手李世石VS谷歌AlphaGo的人机大战赛引发世界瞩目。最终在这场世纪大战第一盘对决中,李世石投子认负。继“深蓝”战胜国际象棋世界冠军卡斯帕罗夫之后,人工智能再次惊艳了全世界。正文早年间,谷歌DeepMind宣布他们研发的神经网络围棋AI,AlphaGo。在2015年10月首次5:0战胜了人类职业选手欧洲围棋冠军Fan Hui二段。其实,AlphaGo强大的算法技术,缘起于一篇发表在Nature的顶级论文,第一作者是由计算机围棋和强化学习的顶级专家David Silver,他的整个博士论文就是做的围棋; 二作Aja Huang以前写过多年围棋软件,自己又是AGA 6D的水平。通读整篇论文,里面的技术是出于意料的简单却又十分强大。废话不多说,下面就是一篇AlphaGo的工作原理解读,一起看看AlphaGo究竟是如何打败人类“最强围棋大脑”的。关键词:深度学习(Deep Learning)“深度学习”是指多层的人工神经网络和训练它的方法。一层神经网络会把大量矩阵数字作为输入,通过非线性激活方法取权重,再产生另一个数据集合作为输出。这就像生物神经大脑的工作机理一样,通过合适的矩阵数量,多层组织链接一起,形成神经网络“大脑”进行精准复杂的处理,就像人们识别物体标注图片一样。虽然神经网络在几十年前就有了,直到最近才形势明朗。这是因为他们需要大量的“训练”去发现矩阵中的数字价值。对早期研究者来说,想要获得不错效果的最小量训练都远远超过计算能力和能提供的数据的大小。但最近几年,一些能获取海量资源的团队重现挖掘神经网络,就是通过“大数据”技术来高效训练。两个大脑AlphaGo是通过两个不同神经网络“大脑”合作来改进下棋。这些大脑是多层神经网络跟那些Google图片搜索引擎识别图片在结构上是相似的。它们从多层启发式二维过滤器开始,去处理围棋棋盘的定位,就像图片分类器网络处理图片一样。经过过滤,13 个完全连接的神经网络层产生对它们看到的局面判断。这些层能够做分类和逻辑推理。这些网络通过反复训练来检查结果,再去校对调整参数,去让下次执行更好。这个处理器有大量的随机性元素,所以我们是不可能精确知道网络是如何“思考”的,但更多的训练后能让它进化到更好。第一大脑: 落子选择器 (Move Picker)AlphaGo的第一个神经网络大脑是“监督学习的策略网络(Policy Network)” ,观察棋盘布局企图找到最佳的下一步。事实上,它预测每一个合法下一步的最佳概率,那么最前面猜测的就是那个概率最高的。你可以理解成“落子选择器”。落子选择器是怎么看到棋盘的?数字表示最强人类选手会下在哪些地方的可能。团队通过在KGS(网络围棋对战平台)上最强人类对手,百万级的对弈落子去训练大脑。这就是AlphaGo最像人的地方,目标是去学习那些顶尖高手的妙手。这个不是为了去下赢,而是去找一个跟人类高手同样的下一步落子。AlphaGo落子选择器能正确符合57%的人类高手。(不符合的不是意味着错误,有可能人类自己犯的失误)更强的落子选择器AlphaGo系统事实上需要两个额外落子选择器的大脑。一个是“强化学习的策略网络(Policy Network)”,通过百万级额外的模拟局来完成。你可以称之为更强的。比起基本的训练,只是教网络去模仿单一人类的落子,高级的训练会与每一个模拟棋局下到底,教网络最可能赢的下一手。Sliver团队通过更强的落子选择器总结了百万级训练棋局,比他们之前版本又迭代了不少。单单用这种落子选择器就已经是强大的对手了,可以到业余棋手的水平,或者说跟之前最强的围棋AI媲美。这里重点是这种落子选择器不会去“读”。它就是简单审视从单一棋盘位置,再提出从那个位置分析出来的落子。它不会去模拟任何未来的走法。这展示了简单的深度神经网络学习的力量。AlphaGo当然团队没有在这里止步。下面我会阐述是如何将阅读能力赋予AI的。为了做到这一点,他们需要更快版本的落子选择器大脑。越强的版本在耗时上越久-为了产生一个不错的落子也足够快了,但“阅读结构”需要去检查几千种落子可能性才能做决定。Silver团队建立简单的落子选择器去做出“快速阅读”的版本,他们称之为“滚动网络”。简单版本是不会看整个19*19的棋盘,但会在对手之前下的和新下的棋子中考虑,观察一个更小的窗口。去掉部分落子选择器大脑会损失一些实力,但轻量级版本能够比之前快1000倍,这让“阅读结构”成了可能。第二大脑:棋局评估器 (Position Evaluator)AlphaGo的第二个大脑相对于落子选择器是回答另一个问题。不是去猜测具体下一步,它预测每一个棋手赢棋的可能,在给定棋子位置情况下。这“局面评估器”就是论文中提到的“价值网络(Value Network)”,通过整体局面判断来辅助落子选择器。这个判断仅仅是大概的,但对于阅读速度提高很有帮助。通过分类潜在的未来局面的“好”与“坏”,AlphaGo能够决定是否通过特殊变种去深入阅读。如果局面评估器说这个特殊变种不行,那么AI就跳过阅读在这一条线上的任何更多落子。局面评估器是怎么看这个棋盘的。深蓝色表示下一步有利于赢棋的位置。局面评估器也通过百万级别的棋局做训练。Silver团队通过 复制两个AlphaGo的最强落子选择器,精心挑选随机样本创造了这些局面。这里AI 落子选择器在高效创建大规模数据集去训练局面评估器是非常有价值的。这种落子选择器让大家去模拟继续往下走的很多可能,从任意给定棋盘局面去猜测大致的双方赢棋概率。而人类的棋局还不够多恐怕难以完成这种训练。增加阅读这里做了三个版本的落子选择大脑,加上局面评估大脑,AlphaGo可以有效去阅读未来走法和步骤了。阅读跟大多数围棋AI一样,通过蒙特卡洛树搜索(MCTS)算法来完成。但AlphaGo 比其他AI都要聪明,能够更加智能的猜测哪个变种去探测,需要多深去探测。蒙特卡洛树搜索算法如果拥有无限的计算能力,MCTS可以理论上去计算最佳落子通过探索每一局的可能步骤。但未来走法的搜索空间对于围棋来说太大了(大到比我们认知宇宙里的粒子还多),实际上AI没有办法探索每一个可能的变种。MCTS做法比其他AI有多好的原因是在识别有利的变种,这样可以跳过一些不利的。Silver团队让AlphaGo装上MCTS系统的模块,这种框架让设计者去嵌入不同的功能去评估变种。最后马力全开的AlphaGo系统按如下方式使用了所有这些大脑。1. 从当前的棋盘布局,选择哪些下一步的可能性。他们用基础的落子选择器大脑(他们尝试使用更强的版本,但事实上让AlphaGo更弱,因为这没有让MCTS提供更广阔的选择空间)。它集中在“明显最好”的落子而不是阅读很多,而不是再去选择也许对后来有利的下法。2. 对于每一个可能的落子,评估质量有两种方式:要么用棋盘上局面评估器在落子后,要么运行更深入蒙特卡罗模拟器(滚动)去思考未来的落子,使用快速阅读的落子选择器去提高搜索速度。AlphaGo使用简单参数,“混合相关系数”,将每一个猜测取权重。最大马力的AlphaGo使用 50/50的混合比,使用局面评估器和模拟化滚动去做平衡判断。这篇论文包含一个随着他们使用插件的不同,AlphaGo的能力变化和上述步骤的模拟。仅使用独立大脑,AlphaGo跟最好的计算机围棋AI差不多强,但当使用这些综合手段,就可能到达职业人类选手水平。AlphaGo的能力变化与MCTS的插件是否使用有关。这篇论文还详细讲了一些工程优化:分布式计算,网络计算机去提升MCTS速度,但这些都没有改变基础算法。这些算法部中分精确,部分近似。在特别情况下,AlphaGo通过更强的计算能力变的更强,但计算单元的提升率随着性能变强而减缓。优势和劣势我认为AlphaGo在小规模战术上会非常厉害。它知道通过很多位置和类型找到人类最好的下法,所以不会在给定小范围的战术条件下犯明显错误。但是,AlphaGo有个弱点在全局判断上。它看到棋盘式通过5*5金字塔似的过滤,这样对于集成战术小块变成战略整体上带来麻烦,同样道理,图片分类神经网络往往对包含一个东西和另一个的搞不清。比如说围棋在角落上一个定式造成一个墙或者引征,这会剧烈改变另一个角上的位置估值。就像其他的基于MCTS的AI, AlphaGo对于需要很深入阅读才能解决的大势判断上,还是麻烦重重的,比如说大龙生死劫。AlphaGo 对一些故意看起来正常的局也会失去判断,天元开盘或者少见的定式,因为很多训练是基于人类的棋局库。人工智能革命,意义已经超过“深蓝”战胜卡斯帕罗夫我认为是的。国际象棋的走法是有限的,因此计算机要算出正确的排列组合只是个时间问题。但由于围棋的可能性远远多于国际象棋,用传统的AI算法,比如暴力算法(brute-force)解决是近乎不可能的。在国际象棋的任一回合中,平均有35种可能的走法,但对拥有19x19棋盘的围棋来说,每一步都有250种走法,这250种走法中,每一步接下来又有250种可能的新走法,以此类推,围棋的走法多如恒河沙数。这就是为什么AlphaGo要采用混合型机器学习技术,将树搜索和深度学习结合起来——它的深度学习要通过既记忆人类下棋步法、又与自己对弈数百万次的过程才能实现,以此来学习致胜走法。参考资料:这就是指导AlphaGo战胜人类最强大脑的那篇Nature 论文:/nature/journal/v529/n7587/full/nature16961.html$Google Inc. - Class A(usGOOGL)$&感谢您的阅读!资本圈很多金,也很愁苦;很高大上,也很无齿黑;是经济支柱,也鼠盗蝇营;是很多人的梦想乐园,也是很多人的末路坟茔。地狱天堂,刀光剑影,我给你娓娓道来!你想看谁,哪里的故事?你有话要说?关注资本圈的那些事,满足你对资本圈的窥窃欲!
相关股票 :
取消回复评论
资本圈的那些人和事
作者其他文章
发送给的私信
发送成功!

我要回帖

更多关于 柯洁 alphago 的文章

 

随机推荐