如今AI已经可以在围棋下棋规则上战胜人类顶尖高手,那么定义和电脑下棋的性质?

AI 能否战胜围棋世界冠军:Nature 高级编辑专访 & 新智元群专家激辩(投票)_新智元_【传送门】
AI 能否战胜围棋世界冠军:Nature 高级编辑专访 & 新智元群专家激辩(投票)
新智元整理1昨天新智元微信公众号发布了:【Nature重磅封面】Google人工智能击败欧洲围棋冠军,3月挑战世界冠军!一文,收获了接近 6 万的阅读数。"围棋一直被视为人工智能最难破解的游戏。而《Nature》杂志以封面论文的形式,介绍了 Google DeepMind 开发的人工智能程序 AlphaGo,它击败了欧洲围棋冠军樊麾,并将在 3 月和世界冠军李世乭对战!Google 特地为此准备了 100 万美元奖金。"新智元微信群的专家们对此也非常关注,议论纷纷。其中,环球时报科技编辑马俊采访了新智元专家群里的王飞跃(中国自动化学会副理事长,复杂系统智能控制与管理国家重点科学重点实验室主任)和新智元创始人杨静,他们对 AI 何时能在人机围棋对决中获胜给出了不同的判断。王飞跃:这是由于以往人工智能传统的解决思路是“暴力列举”所有能赢的方案,1997年IBM的“深蓝”电脑击败国际象棋大师卡斯帕罗夫时,就是用的这种思路。但国际象棋平均每盘棋约有10123种变化,而围棋的变化则超过10360种。王飞跃表示,考虑到围棋如此庞大的变化量,即便未来量子计算机研制成功,要计算如此海量数据也是不可能完成的任务,因此人工智能下围棋仅靠硬件的性能提升远远不够,必须依靠算法上的创新。王飞跃认为,随着人工智能算法的不断完善,最迟10年内,人类在所有规则明确的游戏中都将不再是电脑的对手。杨静:AlphaGo没有采用“暴力列举”的模式,而是结合学习大量数据提高判断能力的人工智能新技术“深度学习”。研究者使用大量专业棋局对AlphaGo加以训练,然后让它和自己对弈,从而提升棋力。杨静预计,根据人工智能在国际象棋对决中取得压倒性优势的经历,预计围棋领域的这个场景将在3年内出现。《财经》杂志执行主编靳丽萍也在群里带来了《财经》对 Nature 高级编辑坦吉·肖尔德的专访,引起了群友的热烈响应。最后,新智元整理了专家群里的精彩评论如下:《财经》专访 Nature 杂志高级编辑坦吉·肖尔德坦吉·肖尔德(TanguyChouard)博士毕业于法国巴斯德研究所,是 Nature 杂志的高级编辑,负责领域为生物系统学、神经生物学。他被编辑部认为具有评论文章重要性的资格。《财经》:最新的一期Nature杂志的封面文章引发强烈反响,Nature为何选择将人工智能程序AlphaGo大胜欧洲围棋冠军作为封面?TanguyChouard(下文简称TC):对于人工智能领域内的专家审稿人来说,AlphaGo的算法设想与构建是具有里程碑意义的,这也是Nature将其作为封面刊发的主要原因。人工智能技术是一项新兴的科学、工程与社会研究挑战,Nature乐于刊发经过严格同行评议的重大突破,以此来支持该技术的发展。《财经》:与1997年战胜国际象棋大师卡斯帕罗夫的“深蓝”相比,AlphaGo有哪些先进之处? TC:“深蓝”(DeepBlue)是一个单一程序,其设计只针对国际象棋,而且要由科学家手工操作。而AlphaGo中包含的神经网络程序,可以通过抓取信息实现学习技能,不需要再进行领域特定编程。因此,AlphaGo是一套综合程序设计,适用于大范围的应用程序,不只是在围棋方面。《财经》:AlphaGo采用的人工智能技术未来应用前景如何?TC:文章的作者并没有断言AlphaGo的人工智能技术会取代人类智能,其设计目的在于更好地辅助人类智能。例如在执行复杂约束条件下的长期规划任务时,以及在医疗诊断与气候模型构建领域。AlphaGo相关文章的内容与机器人技术还相隔尚远。尽管文章提到很多诸如执行一系列复杂行为设计的应用程序,该技术仍然属于机器学习领域,未来有可能与机器人有关。《财经》:现代的人工智能,在算法方面有何超越?未来的发展前景如何?TC:这篇文章展现了谷歌公司DeepMind团队在深度学习神经网络与蒙特卡罗树搜索算法结合方面的关键进展,这种结合戏剧性地减少了围棋中预测棋手下一步行为的难度和复杂性。因此,与人工智能此前的“深蓝”与“沃森”(Watson)相比,AlphaGo的基本概念在原理上可以解决人工智能的其他各类问题。《财经》:你如何评价AlphaGo的能力?这次围棋比赛胜利的报道是否夸大了其智能?TC:我们没有理由认为作者夸大了他们的研究成果,这篇论文实行了严格专家评审。基于以下两点来严格展示AlphaGo的能力:1、与最高水平的智能围棋程序的对战,在近500场对战中取得99.8%的胜率,并且在让四子对战中战胜了其他程序;2、与欧洲围棋冠军樊麾二段的对战,AlphaGo在没有让子、全尺寸(19×19)的情况下,以5:0取得了全胜。《财经》:AlphaGo将在3月份对战韩国围棋选手李世石,你认为AlphaGo胜算几何?如果能战胜李世石,对于人工智能科学将意味着什么?TC:很难预测谁将获胜,若AlphaGo取胜的话将创造历史,其意义将等同于1997年“深蓝”战胜卡斯帕罗夫,甚至更为深远。原因正如前面我提到的:1、不同于“深蓝”,AlphaGo是一个综合系统,能应用于除棋类比赛外的其他问题;2、“深蓝”在战胜卡斯帕罗夫后即被拆解(这对于科学与历史记录是一个重大损失),而与之相反,AlphaGo如今经过严格专家评审,并被翔实地记录下来。新智元特约专家点评围棋人机对决 AI 支持方刘震(微软亚洲工程院院长)我认为AI技术征服人类不需要太长时间,可能就发生在今年,AI技术征服人类。王涛(爱奇艺首席科学家)深度神经网+博弈树,一个里程碑!陈云霁(龙芯3号总设计师,入选2015年度的《麻省理工科技评论》35岁以下的全球最佳35名创新人士)业界公认深度学习的人工神经网络方法在感知智能上已经达到了可用的程度,甚至已经开始接近人。google deepmind围棋表明,人工神经网络在认知智能(传统上认为是机器短期内无法和人类匹敌)的领域,也已经开始展示出巨大的威力。特别有趣的是 deepmind的围棋学习方法和之前学习打游戏的方法明显一脉相承,这意味着机器通过学习可以完成大量认知处理任务(当然远非全部)。这个能力边界在哪里还需要探索。这是个了不起的大事,不过李世石不行了,得下赢柯洁才算数啊。杨静(新智元创始人)我们可以实名预测,2020年围棋机器是否能下过世界冠军,然后新智元发一条新闻,2020年元旦我们来验证。100万美金不算巨资,李世石要捍卫人类的尊严。我同意这次可能会有秀的成分。但电脑胜过棋手应该是时间问题。围棋人机对决 AI 怀疑方熊辉(美国罗格斯-新泽西州立大学罗格斯商学院管理科学与信息系统系副系主任、罗格斯大学信息安全中心主任、终身教授)我希望了解的是谷歌试验条件,比赛过程中有多少人的参与,我相信机器算局部死活很厉害,收官厉害,一个业余高手加上机器的帮助就会很厉害。所以谷歌需要说清楚工作人员有没有参与比赛,还是从头到尾没有人的参与,只是机器在下棋。真正高手在布局阶段就把机器搞死了。当搜索空间小的时候,机器深度学习有优势,所以机器局部死活厉害,收官厉害。当搜索空间大的时候,比如开局布局,或者早期脱先,机器会遇到麻烦。所以如果棋手在开局阶段打破常规定势,并且抑制机器的优势,机器还是比较难。所以说开局不按定势下,在开始阶段机器有人的帮助就会厉害的多,机器每步推荐三个落棋点,人帮助挑一个。周志华(南京大学教授,计算机科学与技术系副主任)关于谷歌围棋最后说几句。个人以为,这无疑是个重要进展,技术上虽不新,但可能产生迄今最强的围棋程序。但另一方面,围棋到了高境界,差距看似变小,实如鸿沟。一流高手提升到顶尖,比业余强手提升到职业二线的难度如天壤之别。现在就说AI“颠覆围棋”是过度消费当前技术水平,以后会让大众对AI失望。AI以前的冬天,就是因为调门太高,最后让大众失望反噬来的。吴韧(NovuMind公司创始人兼总裁,异构计算专家)被谷歌的围棋消息刷屏,我的观点:1 水平比去年底Facebook的略强2 没有新东西,reinforcement learning, Monte carlo 以前做computer chess 的都做过,CNN用在围棋中近几年也有很多尝试,FB的工作是其中的一个3 闭门赢了一个2段,就说搞定了围棋? 呵呵4 认真点,先证明自己比别的程序强再说5 下棋的好处是,光吹牛是不灵的,找一个几个高手也不灵,一起来公平竞赛吧!6 需要搞清楚的是他们的方法既不是巧算,他们的结果也不是里程碑。匿名专家要超过人的棋力,理论上说就是有个算法能够每步进行类似的局势判断。深度学习是有优势,但能否彻底解决可能不乐观,比如在高层语义方面举一反三的能力方面还没有。全靠大的很全面的数据的方法如深度学习在围棋上可能会遭遇失败。现在的顶尖棋手都是棋院进行魔鬼训练出来的少年高手,可以在那儿先比比,够资格了再挑战人类冠军。深蓝战胜人类象棋冠军是理论上已清楚,只等有足够强的并行计算机实现就可以了。这次原理上并不清楚,Deepmind自己的人也是抱着试试看的心态,所以可能不是太乐观。与人相比,深度学习算法达到稳定很难。就像上面这个与zen对局的例子。另外物体识别也有已有的例子,把原图像素互换就出错。如果是无法理论证明的东西,可能一场比赛的意义确实无法有统计意义。因为人类冠军可能恰好没有发现计算机算法的弱点而已。王飞跃(中国自动化学会副理事长,复杂系统智能控制与管理国家重点科学重点实验室主任)今天很多人问我围棋之事,我觉得炒作大于学术,然而本人相信对于规则明确的Games,计算机迟早要战胜人,这是知识自动化而己,但与人工智能战胜人类智能从技术上几乎无关,从哲学上根本无关,只是文学上相关而己。如按德日进的说法,生命不过是复杂化的物质而己,那结局很不明朗。问题人总以人的角度去思考,所以由人来想甚至定义人工智能胜过人类智能,本身就是一个悖论。深蓝今天不见得能够再胜人类棋手,而且正如项目负责人自己口中讲的,深蓝与人工智能几乎没有半毛钱的关系。当年深蓝胜了人也说划时代,的确,文学上的划时代,技术上呢?这次围棋肯定是进步,so what?划时代?花时待,要花时间再干,等待。只要不弄成奇点的milestone就行,只要不弄成AI战胜HI(Human intelligence)的milestone就行。白硕(上海证券交易所前副总裁、首席技术官、总工程师)两个误区要澄清:1、实战用蛮力跟学习用蛮力不是一回事儿。2、方法没新意跟使用方法的具体案例有没有新意也不是一回事儿。规则明确的游戏,比蛮力人比不过机器,但人和机器在受到蛮力的局限上只有程度的差异,没有本质的不同。比巧算和直觉,蛮力的战场转到了学习上。但是学习的最终效果既取决于算法和数据,也取决于模型。模型的落后几乎不可能靠算法和数据弥补。所以在只能靠巧算的领域,结局还称不上明朗。我在想,对人类棋手及其着法的一些带有情感色彩的风格评价,什么叫狠辣,什么叫平和,什么叫过分,什么叫贪得无厌,是否都可以通过价值网络进行定义了?三十六计是否也可以通过价值网络定义?是否可以在并不是隐喻意义上谈论程序的算度、定力、贪欲、争胜心等?甚至“棋品”。我们形容棋手的强悍与否,飘逸与否、内敛与否,细腻与否,稳健与否的评价标签,是否可以既适用于人,也适用于程序?围棋人机对决 AI 相关讨论王思彤(江苏省统计科研所所长)我倒是觉得有一个思路,让智能下围棋软件,每下一步之前,先对所有剩余的空白点进行全方位扫描,经过比较后,从中找出最大先手棋,然后落子。计算机干这个比较合适。布局阶段可集成已有大师棋谱,常规落子。双方有交手后再进行计算。第一步,穷举并假设落子。第二步,从对方角度穷举并假设落子,然后比较双方损益,如优则落子,如损则重新选择落子点位。如此循环往复,必胜。陈利人(曾任盘古搜索CTO,奇虎360移动搜索技术负责人,现在创业)1997年,IBM超级计算机“深蓝”战胜了世界象棋冠军加里·卡斯帕罗夫;2005年,这位象棋冠军发明了一项人与计算机自由式组合的象棋比赛。结果出人意料,并不是功能最强大的超级计算机联合最顶尖的象棋手拿到了冠军,相反,比赛赢家是功能相对强大的计算机与水平中上的象棋手的联合。潘纲(浙江大学计算机学院教授、博导,中国计算机学会普适计算专委会秘书长)开局阶段估计会利用以前的历史棋谱吧?把人的这一部分先验用起来,会一定程度弥补。苏中(IBM中国研究院信息分析研究部研发总监)围棋每子的评价函数不好设计,尤其在布局阶段。杨福川(机械工业出版社华章公司计算机出版中心副总编)杨老师,我倒是觉得,如果李世石失败了,人类应该感到庆幸和骄傲。杨溟(新华网未来研究院院长)需要亚洲高手参与问题设计。可能会有秀的成分。但电脑胜过棋手应该是时间问题。胡晓锋(少将,国防大学教授,博士生导师)有专家认为,深蓝本质上只是数学方法,沃森才是接近人类的智能方法。谷歌的围棋算法可能是两者的结合?王万良(浙江工业大学计算机科学与技术学院、软件学院院长)人工智能是模拟人类智能的。人类解决问题虽然有推理、经验、直感等方法,但并不排除数学方法。因此,人工智能方法也应该包括运用数学方法等经典方法。施水才(北京拓尔思信息技术股份有限公司副董事长、总裁)我看李开复在朋友圈评的挺到位,两个比比即可刘伟(北京邮电大学自动化学院教授)理性源于非理性(感性),有生于无,处处对立统一~新智元报导【Nature重磅封面】Google人工智能击败欧洲围棋冠军,3月挑战世界冠军!
新智元编译1来源:Nature参与:王嘉俊 王婉婷 张巨岩 李宏菲 林坤特别感谢:陈雷 围棋一直被视为人工智能最难破解的游戏。就在今天,《Nature》杂志以封面论文的形式,介绍了 Google DeepMind 开发的人工智能程序 AlphaGo,它击败了欧洲围棋冠军樊麾,并将在 3 月和世界冠军李世乭对战!Google 特地为此准备了 100 万美元奖金。从国际象棋的经验看,1997 年人工智能第一次打败人类后,2006 年成为了人类在国际象棋的绝唱,自此之后人类没有战胜过最顶尖的人工智能国际象棋选手。在 AlphaGo 打败了欧洲围棋冠军后,世界冠军李世乭和 AlphaGo 的对弈,是否会成为人类在围棋领域的绝唱?Nature 封面论文:Mastering the game of Go with deep neural networks and tree search(通过深度神经网络和搜索树,学会围棋游戏)AlphaGo 给围棋带来了新方法,它背后主要的方法是 Value Networks(价值网络)和 Policy Networks(策略网络),其中 Value Networks 评估棋盘位置,Policy Networks 选择下棋步法。这些神经网络模型通过一种新的方法训练,结合人类专家比赛中学到的监督学习,以及在自己和自己下棋(Self-Play)中学到强化学习。这不需要任何前瞻式的 Lookahead Search,神经网络玩围棋游戏的能力,就达到了最先进的蒙特卡洛树搜索算法的级别(这种算法模拟了上千种随机自己和自己下棋的结果)。我们也引入了一种新搜索算法,这种算法将蒙特卡洛模拟和价值、策略网络结合起来。通过这种搜索算法,AlphaGo 在和其他围棋程序比赛的胜率达到了 99.8%,并以 5:0 的比分击败了人类欧洲围棋冠军樊麾。这是电脑程序第一次在全尺寸(19X19)的棋盘上击败了人类专业选手,这一成果过去认为至少需要 10 年才能实现。欧洲围棋冠军樊麾:2005 年樊麾被正式聘任为法国围棋队和少年围棋队的总教练,那一年的他才 24 岁。他是
和 2015 欧洲围棋赛冠军。通过将 Value Networks、Policy Networks 与树搜索结合起来,AlphaGo 达到了专业围棋水准,让我们看到了希望:在其他看起来无法完成的领域中,AI 也可以达到人类级别的表现!DeepMind 团队对围棋项目的介绍(新智元翻译)论文简介所有完全信息(perfect information)博弈都有一个最优值函数(optimal value function),,它决定了在所有参与博弈的玩家都做出了完美表现的情况下,博弈的结果是什么:无论你在棋盘的哪个位置落子(或者说是状态s)。这些博弈游戏是可能通过在含有大约个可能行动序列(其中b是博弈的宽度,也就是在每个位置能够移动的步数,而d是博弈的深度)的搜索树(search tree)上反复计算最优值函数来解决的。在象棋()和围棋之类()的大型博弈游戏中,穷尽地搜索是不合适的,但是有效搜索空间是可以通过2种普遍规则得到降低的。首先,搜索的深度可能通过位置估计(position evaluation)来降低:在状态s时截取搜索树,将随后的子树部分(subtree)替换为根据状态s来预测结果的近似的值函数。这种方法使程序在象棋、跳棋、翻转棋(Othello)的游戏中表现超越了人类,但人们认为它无法应用于围棋,因为围棋极其复杂。其次,搜索的宽度可能通过从策略概率——一种在位置s时表示出所有可能的行动的概率分布——中抽样行动来降低。比如,蒙特卡洛法通过从策略概率p中为博弈游戏双方抽样长序列的行动来让搜索达到深度的极限、没有任何分支树。将这些模拟结果进行平均,能够提供有效的位置估计,让程序在西洋双陆棋(backgammon)和拼字棋(Scrabble)的游戏中展现出超越人类的表现,在围棋方面也能达到低级业余爱好者水平。译者注:围棋为何如此复杂?围棋有3^361 种局面,而可观测到的宇宙,原子数量才10^80。围棋难的地方在于它的估值函数非常不平滑,差一个子盘面就可能天翻地覆,同时状态空间大,也没有全局的结构。这两点加起来,迫使目前计算机只能用穷举法并且因此进展缓慢。但人能下得好,能在几百个选择中知道哪几个位置值得考虑,说明它的估值函数是有规律的。这些规律远远不是几条简单公式所能概括,但所需的信息量还是要比状态空间本身的数目要少得多(得多)。一句话,穷举状态并不是最终目标,就算以后超超级计算机能做到这一点,也不能说解决了人工智能。只有找到能学出规律的学习算法,才是解决问题的根本手段。By 田渊栋蒙特卡洛树搜索(MCTS)使用蒙特卡洛算法的模拟结果来估算一个搜索树中每一个状态(state)的值。随着进行了越来越多的模拟,搜索树会变得越来越庞大,而相关的值也会变得越来越精确。通过选取值更高的子树,用于选择行动的策略概率在搜索的过程中会一直随着时间而有所改进。目前最强大的围棋程序都是基于蒙特卡洛树搜索的,通过配置经训练后用于预测人类棋手行动的策略概率进行增强。这些策略概率用于将搜索范围缩小到一组概率很高的行动、以及在模拟中抽样行动。这种方法已经取得了高级业余爱好者水平的表现。然而,先前的工作仅局限于基于输入特征(input features)的线性组合的粗浅策略概率和值函数。近期,深度卷积神经网络在视觉领域有很多前所未有的表现:例如,图像分类、脸部识别、玩雅特丽游戏等。他们使用很多层神经元,每个被安排在交叠的区块(Tiles)中来构建越来越抽象和本地化的图片表示。我们在围棋游戏中采用了一个相似的构架。我们用19X19的图像来传递棋盘位置,使用卷积层来构建位置的表示。我们使用这些神经网络来减少搜索树的有效深度和宽度(breadth):使用一个Value Networks(价值网络)来估算位置,使用Policy Network(策略网络)来对动作进行抽样。我们使用由若干机器学习阶段(Stages)构成的流水线来训练神经网络(例1)。我们直接使用人类专家的步法来训练监督学习策略网络pσ。这为快速而有效的学习更新(Learning Updates)提供了高质量的梯度和即时反馈。与之前的工作相似,我们也训练了一个快速策略网络pπ,它可以快速地在模拟中对动作进行抽样。接下来,我们训练了强化学习(RL)策略网络pρ,这个网络通过优化“自己对抗自己”的最终结果来改善监督学习策略网络。这将策略调整到赢棋这一正确目标上,而非让预测精确率最大。最后,我们训练了价值网络vθ,它可以预测出RL策略网络通过模拟“自己对抗自己”而得出的策略中哪种是最佳策略。我们的程序AlphaGo高效地结合将策略和价值网络与蒙特卡洛树搜索结合起来。实现过程 为了评估AlphaGo,我们在诸多AlphaGo变体和一些其他围棋程序中进行了内部比赛,这其中包括了最强大的商业程序Crazy Stone和Zen,还有最大的开源程序Pachi和Fuego。所有这些程序都是基于高性能MCTS算法。此外,比赛也包含了开源程序GnuGo,这个程序使用了在MCTS之前出现的最先进的方法。规定所有程序每次落子有5秒的计算时间。比赛的结果表明单机AlphaGo领先任何之前的围棋程序很多段位,取得了495局比赛中494次胜利的成绩(99.8%)。为了给AlphaGo提出更大的挑战,我们也让AlphaGo让四子(让子,即对手自由落子)来比赛;AlphaGo让子竞赛中对阵Crazy Stone、Zen和Pachi时分别取得了77%、86%和99%的成绩。分布式AlphaGo明显更强大,对阵单机AlphaGo取得77%的成绩,完胜其他程序。详解:AlphaGo 如何在对弈中选择步法黑色棋子代表AlphaGo正处于下棋状态,对于下面的每一个统计,橙色圆圈代表的是最大值所处的位置。a.用价值网络(value network)估测根节点s处的所有子节点s’,展示了几个最大的获胜概率估计值。b.计算树中从根节点s处伸出来的边(其中每条边用(s,a)来表示)的动作值Q(s,a),仅当(λ=0)时,取价值网络估值的平均值。c.计算了根位置处伸出的边的动作值Q(s,a),仅当(λ=1)时,取模拟估计值的平均值。d.直接从SL策略网络中得出的落子概率,(如果这个概率高于0.1%)则结果以百分比形式表示出来。e.计算了在模拟过程中,从根节点选出的某个动作的频率百分比。f.表示来自于AlphaGo搜索树的主要变异性(principal variation)(最大访问数路径),移动路径以序号形式呈现出来。红色圆圈表示AlphaGo选择的步法;白方格表示樊麾作出的回应;樊麾赛后评论说:他特别欣赏AlphaGo预测的(标记为1)的步法。AlphaGo与樊麾的比赛结果以编号形式展示了AlphaGo和樊麾进行围棋比赛时各自的落子顺序。棋盘下方成对放置的棋子表示了相同交叉点处的重复落子。每对中的第一个棋子上的数字表示了何时发生重复落子,而落子位置由第二个棋子上的数字决定。(见补充信息 Supplementary Information)第一盘:AlphaGo 以 2 目半获胜第二盘:AlphaGo 中盘胜第三盘:AlphaGo 中盘胜第四盘:AlphaGo 中盘胜第五盘:AlphaGo 中盘胜最终,我们评估了分布式AlphaGo与樊麾的比赛,他是专业2段位选手,年欧洲围棋赛冠军。在日到9日,AlphaGo和樊麾正式比赛了5局。AlphaGo全部获胜。这是第一次一个电脑围棋程序,在没有让子、全尺寸(19X19)的情况下击败人类专业选手,这一成果过去认为至少需要 10 年才能实现。讨论在我们的工作中,我们开发了围棋程序,它将深度神经网络和树搜索结合起来。这个程序可以达到最强的人类选手的表现,因此完成了一个人工智能“伟大挑战”。我们也为围棋首创了高效步法选择和位置评估函数,这是通过具有创新性地将监督和强化学习两种方法结合起来从而训练深度神经网络。我们也引入了一个新搜索算法,这一算法成功的整合了神经网络评估和蒙特卡洛树模拟算法。我们的程序AlphaGo在高性能树搜索引擎中从一定规模上将这些成分整合在一起。 在和樊麾的比赛中,AlphaGo在评估位置方面要比深蓝与Kasparov4比赛时所评估的位置少几千倍,这是由于我们使用了策略网络更智能地选择那些位置,还使用了价值网络更精确地评估它们,而价值网络更接近人类的下棋方式。另外,深蓝依靠手工设计评估方程,而AlphaGo的神经网络是直接通过纯比赛数据训练,也使用了通用监督和强化学习方法。 围棋代表了很多人工智能所面临的困难:具有挑战性的决策制定任务、难以破解的查找空间问题和优化解决方案如此复杂以至于用一个策略或价值函数几乎无法直接得出。之前在电脑围棋方面的主要突破是引入MCTS,这导致了很多其他领域的相应进步:例如,通用博弈,经典的计划问题,计划只有部分可观测问题、日程安排问题和约束满足问题。通过将策略和价值网络与树搜索结合起来,AlphaGo终于达到了专业围棋水准,让我们看到了希望:在其他看起来无法完成的领域中,AI也可以达到人类级别的表现。关于 Google DeepMindGoogle DeepMind 是一家英国人工智能公司,创立于2010年,名为DeepMind Technologies,2014年被谷歌收购,更名为Google DeepMind。这家公司由Demis Hassabis、Shane Legg和Mustafa Suleyman创立。公司目标是“解决智能”,他们尝试通过合并机器学习最好的方法和系统神经科学来构建强大的通用学习算法。他们试图形式化智能,进而不仅在机器上实现它,还要理解人类大脑。当前公司的焦点在于研究能玩游戏的电脑系统,研究的游戏范围很广,从策略型游戏围棋到电玩游戏。创始人介绍Demis Hassabis,人工智能研究人员,神经科学家,电脑游戏设计者,毕业于剑桥大学,并在伦敦大学获得PhD,研究兴趣:机器学习、神经科学。Shane Legg,计算学习研究人员,DeepMind创始人,研究兴趣:人工智能、神经网络、人工进化、强化学习和学习理论。Mustafa Suleyman,英国企业家,DeepMind Technologies的共同创始人和产品运营主管,同时也是Reos Partners的共同创始人,被谷歌收购后,他成为Google DeepMind的应用AI部门主管。「招聘」记者、编译和活动运营全职和实习生都要以及人工智能翻译社志愿者详细信息请进入公众号点击「招聘」或给 aiera_ 投邮件也可扫码加入中转群
觉得不错,分享给更多人看到
新智元 微信二维码
分享这篇文章
1月30日 22:45
新智元 最新文章
新智元 热门文章作者:卡德&梅茨(Cade Metz),文章来源:《连线》围棋是一项拥有2500年历史的策略智力竞技游戏,其复杂程度是国际象棋的指数级。就在前几天,谷歌人工智能(AI)程序将一位围棋大师斩落马下。而尼克&博斯特罗姆(Nick Bostrom)对此毫不惊讶。博斯特罗姆是牛津大学一位瑞典裔哲学教授,他新近出版了一本题为《超级智慧:路径、危险、策略》的畅销书。书中描绘了AI的种种益处,但也认为真正的智慧计算机可能会加速人类的灭绝。这并不是说他低估谷歌围棋AI的能力。。他只是觉得这算不上是向前迈进的一大步。博斯特罗姆指出,包括深度学习(Deep Learning)和强化学习(Reinforcement Learning)之类广受讨论的AI技术在内,谷歌系统背后的技术多年来一直在稳步改进。谷歌AI打败围棋大师不过是AI能力巨大蓝图的冰山一角。AI缘起已久,且还将继续深入发展下去。AI竞赛真不仅仅在于哪家公司的围棋技术更高明。博斯特罗姆说:&我们最先进的人工智能技术,一直以来都在稳步发展。谷歌的底层技术极大承袭了过去几年一直在发展的技术。&但若从另一个角度看,这也是为什么谷歌的成功如此令人振奋,乃至让人感到有点恐惧的原因。甚至博斯特罗姆都认为,是该停下来认真审视该技术的时候了。研究人员曾经以为,AI要称霸围棋至少还有十年的路要走。现在,它已经走到了过去看起来无法达到的地方。或者说,至少,很多有钱有权的人希望AI能够达到那种程度。 我说的不仅仅是谷歌,还有脸书、微软和其他科技巨头。创造最智慧的AI已经演变为真正的竞赛,参赛者就是这个星球上最财大气粗的人。谷歌的成功最有说服力的部分,可能就是脸书创始人马克&扎克伯格(Mark Zuckerberg)的回应。打造神经网络,像人类大脑一样去学习谷歌的AI系统名为AlphaGo,由谷歌在2014年初花4亿美元收购的AI研究公司DeepMind研发。深度学习和强化学习是让机器可以很大程度上自我学习的两种技术,DeepMind的专长就是这两种技术。之前,DeepMind创始人德米斯&哈撒比思(Demis Hassabis)和他的团队曾使用这些技术打造可以玩转经典阿塔里(Atari)视频游戏(如:乒乓、突破和太空侵略者)的系统。某些情况下,这些系统不仅能在竞技中胜出职业游戏玩家,还能以人类无法想象的方式把游戏玩得略显弱智。很明显,这就是促使谷歌首席执行官拉里&佩吉(Larry Page)买下该公司的原因。神经网络是模拟人类大脑神经元网络的软硬件网络。驱动谷歌相册内置超高效图像搜索工具的,就是利用了神经网络的深度学习。脸书的面部识别服务、微软Skype语言翻译工具,以及推特色情内容识别系统也建立在深度学习技术上。如果你将数百万游戏动作反馈进深度神经网络,你就能教会它玩视频游戏。反馈进不同的数据集,可以教会神经网络执行不同的任务,从产生谷歌搜索引擎结果,到鉴别计算机病毒,不一而足。 强化学习又比深度学习更进一步。只要你建立起足以玩转某种游戏的神经网络,你就可以让它自己跟自己竞赛。同个神经网络的两个不同版本在经历千百次左右互搏之后,系统就会记录下能达到最高分的游戏动作,也就学会了在更高层级上玩这种游戏。同样地,这一技术不仅仅局限于游戏。它也可以应用到类似游戏的任何事务上,任何涉及到策略和竞争的事务都可以。AlphaGo采用了所有这些技术。而且,远不止如此。哈撒比思和他的团队加进了第二层级的&深度强化学习&,可以前瞻到每一步游戏动作的长远结果。他们还依赖于在过去极大驱动了围棋AI的传统AI技术,其中就有基本上是从大量采样中收敛出最终结果的蒙特卡洛树搜索法。新老技术结合,DeepMind打造了一个足以打败顶级职业棋手的系统。去年10月,AlphaGo与连续夺得三届欧洲围棋冠军的围棋大师进行了一场关门比赛。这场比赛赛了5局,AlphaGo全胜。围棋的复杂,让IT大佬们更加兴奋这场胜利之前,很多AI专家都认为打败人类顶尖棋手是不太可能的,至少,这一天不会很快到来。最近几个月,脸书都在完善它自己的围棋AI&&虽然投入的研究人员不像DeepMind团队那么多。上周,我们问负责脸书AI工作的深度学习之父延恩&勒昆(Yann LeCun):谷歌有没有可能已经秘密击败了围棋大师。他回答说这不太可能。原话是:&不。大概。不可能。&问题在于围棋极其复杂。国际象棋中每一步有35种可选走法,而围棋是250种。一步步走下来,整盘棋的可能局面就是250的指数级。也就意味着,即使是最大的超级计算机,也无法看出每一步的可能结果。可能的选项实在是太多了。正如哈撒比思所说,围棋的可能布局比宇宙里的原子都多。想要破解围棋,就需要不仅仅只会计算的AI。这种AI得某种程度上模拟人类思维,甚至人类直觉。你需要能够学习的AI。 这也是为什么谷歌和脸书要解决这个问题的原因。如果他们能解决如此复杂的问题,就能够利用从中学到的东西作为跳板,创造出能解决现实世界中更为实际的问题的AI系统。哈撒比思称,这些技术与机器人技术简直是&天作之合&。它们让机器人更好地理解所处环境,应对环境中的未知改变。想象一下能给你做菜的机器人,吃货福音有没有?不过,他也认为,这些技术或许会给科学研究增加压力,让AI助手指引了研究人员的研究方向。而且,对AI的追求略过了一些能更快改变人们的日常生活的更直接的应用。DeepMind的技术不仅仅能帮助智能手机识别图像和语音,或者进行语言翻译,还能理解语言。这些技术就是通向能用自然语言进行互动的机器的路径&&一个真正能用起来的Siri。他们有多看重这个问题?扎克伯格的关注或许能说明问题所有这些都解释了为什么马克&扎克伯格要在谷歌宣布曾秘密打败围棋大师的几小时前如此急于谈论围棋。谷歌的声明以研究报告的形式登载在学术期刊《自然》上,而脸书员工在《自然》正式刊出之前就看到了那篇文章(在保密协议下可以提前两天在记者中共享)。其结果,就是脸书导演了一场防灾控制大戏。谷歌声明发表前夜,脸书AI研究人员发布了关于他们自己的围棋AI的全新研究报告&&就其本身而言也是十分令人惊叹的成就,扎克伯格也用他自己的脸书账号为这一消息摇旗呐喊。他说:&过去6个月里,我们打造了一款能在0.1秒里就落子的AI,而且落子的智慧性与之前花费数年打造的系统不相上下。负责此项工作的研究员田渊栋就坐在距离我办公桌20英尺的地方。我喜欢让我们的AI团队待在我身边,这样我就可以从中学到点儿什么。&别在意脸书的围棋AI没有谷歌的AlphaGo走得那么远。正如勒昆指出的,在围棋问题上,脸书的资源和时间投入都没有DeepMind那么多。 我们尚不清楚为什么脸书会那么在意在谷歌消息公布日之前宣传自己的AI工作,但现实情况就是:脸书,尤其是扎克伯格,对这种类型的AI投注了巨大的关注,也由此,他们陷入了与谷歌的AI比拼之中,而谷歌,也恰好是他们最大的商业竞争对手。然而,这场AI竞赛,还真不仅仅在于哪家公司的围棋玩得更溜。谁能吸引顶级AI人才才是决胜关键。扎克伯格和勒昆都明白,他们必须向相对小众的AI社区证明,公司对AI是非常认真对待的。有多认真呢?好吧,据说扎克伯格都在丈量他和田渊栋之间的距离了。在脸书内部,你的重要性体现在你的座位距离扎克伯格的远近上。是的,扎克伯格个人对此十分感兴趣。新年的时候,扎克伯格就说,他在2016年的个人挑战,就是打造一个能帮他处理家庭和工作事务的AI系统。刀尖上的行走谷歌和脸书都有意打造能各方面胜过人类智慧的人工智能。但他们绝不是仅有的两家。微软和推特,还有埃隆&马斯克(Elon Musk),以及其他很多人,都在涌向这个方向。对AI而言,这是件好事。但对尼克&博斯特罗姆,好吧,还有埃隆&马斯克这样的人而言,多头竞争的场面就太惊悚了。深度学习初创公司Skymind的创始人兼首席执行官克里斯&尼克尔森(Chris Nicholson)指出:由围棋展现出的那种AI可以应用到几乎任何能被看做竞技的问题上&&也就是策略占主导地位的问题上。这类问题的典型例子就是金融交易,以及,战争。两个例子都要求更多的工作和更多的数据支持。但这个想法本身就已经十分令人不安了。博斯特罗姆的书提出:AI可能比核武器更危险,不仅仅因为人类可能误用AI,也因为我们可能会造出连我们自己都某种程度上控制不了的AI系统。对于像AlphaGo这样的系统来说,这种情况的发生率是微乎其微的。是的,这个系统能自我学习&&通过自己跟自己下棋来产生自己的数据和策略。是的,它能赢过大多数围棋玩家(与全球最佳棋手的大决战依然在我们的期待中)。但,即便围棋的世界已经万分复杂,它也只是一个有限的领域&&与真实事件的复杂度没有可比性。而且,DeepMind的研究人员完全控制了整个系统。他们可以随意改变或关停AlphaGo。事实上,把这台机器视为威胁没有任何意义。我们的担忧在于,随着研究人员持续不断地改进此类系统,它们不知道什么时候就会突破末日焦虑开始酝酿的阈值。博斯特罗姆称,他和他的人类未来研究所里的其他人,正在探寻强化学习脱离研究人员控制的方法。他说:&同样的问题,今后,或许会在更为复杂,但与今天的系统一脉相承的系统中出现。&已经有一些小小的迹象表明,强化学习有可能导致机器拒绝被关停的情况出现。但这些迹象都很小。博斯特罗姆承认,这样的危险还很遥远,是否终将来临都还是未知数。幸亏有了他和埃隆&马斯克等具影响力的专家的努力,更广阔的业界得以早早理性面对这一潜在危险。最重要的是,这些关注和担忧表明,DeepMind研究中的这些技术是极具能力,极其强大的。谷歌的围棋AI胜利表明了同样的东西,但那不过是个序曲。3月,AlphaGo将挑战雄霸棋坛十年的世界顶级围棋手李世石。这显然将是一场更为重要的比赛。李世石明显比伦敦人机大战中输掉的欧洲冠军樊麾更有才。樊麾世界排名633位,李世石则是第5位。很多专家都认为,AlphaGo将赢得这场重量级的较量。如果结局果真如此,好吧,这依然仅仅是段序曲。(翻译:nana,编辑:picar)
24小时报不停
苹果在日本也惹上税务麻烦,被要求补缴超一亿美元税款
工信部发布VR白皮书:当前设备可用性差,对听觉、触觉关注少
Mobileye称特斯拉不听劝告:应提醒司机不要双手离开方向盘
Uber在美首推无人驾驶载客,23%美国人不敢坐
美新闻机构起诉FBI,要求其透露破解iPhone的细节
创业导师谈神奇少女王凯歆:被忽悠了,建议回学校读书
PC需求回暖,英特尔上调本季度营收预期
百度获加州自动驾驶许可

我要回帖

更多关于 电脑围棋战胜人类 的文章

 

随机推荐