什么是蓝筹股AlphaGo?

一文带你了解谷歌AlphaGo是怎样炼成的?_网易科技
一文带你了解谷歌AlphaGo是怎样炼成的?
用微信扫码二维码
分享至好友和朋友圈
发布会合影李世石对战AlphaGo惨败之后,期待中国选手柯洁为人类围棋而战的呼声就越来越高,从未停止!如今,柯洁终于来到舞台中央,将于5月23日-27日在中国乌镇围棋峰会与AlphaGo一战高下!届时,AlphaGo与世界排名第一的柯洁将完成三番棋对弈,此次比赛除了AlphaGo与柯洁的世纪对战之外,还会采用团队赛、配对赛的多种形式,中国围棋代表队其他成员也将参与。那么,AlphaGo究竟是什么?它是如何炼成的?网易智能带您一一解读。AlphaGo是什么?AlphaGo是第一个击败人类职业围棋选手,第一个战胜世界冠军的程序,是围棋史上最具实力的选手之一。2016年3月,在全世界超过一亿观众的关注下,Alpha Go经过3局对弈,最终以4比1的总比分战胜了围棋世界冠军李世石,这场比赛成为了人工智能领域的一个重要里程碑。过去曾有专家预测人工智能需要十年的时间才有可能战胜人类职业选手,在这场比赛之后,AlphaGo凭借其"充满创意而又机智"的下法,跻身围棋界最高职业称号——职业九段行列,成为历史上首个获得这一荣誉的非人类棋手。近期,AlphaGo的升级版本以“Master/Magister”的称谓与世界顶级的围棋选手进行60场线上快棋赛,并取得了全胜的出色战绩。AlphaGo是如何进行训练的?一直以来,围棋就被认为是传统游戏中,对人工智能而言最具挑战性的项目,这不仅仅是因为围棋包含了庞大的搜索空间,更是因为对于落子位置的评估难度已远运超过了简単的启发式算法。为了应对围棋的巨大复杂性,AlphaGo采用了一种新颖的机器学习技术,结合了监督学习和强化学习的优势,通过训练形成一个策略网络(policy network),将棋盘上的局势作为输入信息,并对所有可行的落子位置生成一个概率分布。然后,训练出一个价值网络(value network)对自我对弈进行预测,以-1(对手的绝对胜利)到1(AlphaGo的绝对胜利)的标准,预测所有可行落子位置的结果。这两个网络自身都十分强大,而AlphaGo将这两种网络整合进基于概率的蒙特卡罗树搜索(NCTS)中,实现了它真正的优势。最后,新版的AlphaGo产生大量自我对弈棋局,为下一代版本提供了训练数据,此过程循环往复。注意!此过程循环往复,我们人类需要吃饭休息,而这个比你聪明的选手还比你勤奋!Alpha Go如何决定落子?在获取棋局信息后,Alpha Go会根据策略网络(policy network)探索哪个位置同时具备高潜在价值和高可能性,进而决定最佳落子位置。在分配的搜索时间结束时,模拟过程中被系统最频繁考察的位置将成为Alpha Go的最终选择。在经过先期的全盘探索和过程中对最佳落子的不断揣摩后,Alpha Go的搜索算法就能在其计算能力之上加入近似人类的直觉判断。(广胜)
关注网易智能菌(微信公众号:smartman163),获取专业人工智能资讯与AI报告。
本文来源:网易智能
责任编辑:丁广胜_NT1941
用微信扫码二维码
分享至好友和朋友圈
加载更多新闻
热门产品:   
:        
:         
热门影院:
阅读下一篇
用微信扫描二维码
分享至好友和朋友圈AlphaGo 具体是怎么思考的?_智能_好奇心日报
社交账号登录
新用户注册 上传头像拖拽或者缩放虚线框,生成自己满意的头像预览 忘记密码
设置新密码
智能AlphaGo 具体是怎么思考的?
蒙特卡洛、深度学习,忽略这些“名词”之后你会觉得它没那么难以理解
看了 AlphaGo 和李世乭九段这 5 场比赛之后,你知道 AlphaGo 是怎么思考的吗?
其实,AlphaGo 的“思考”和人类的思考有些相似,所以它的胜利才显得意义重大。
想要知道 AlphaGo 怎么下围棋,简单了解围棋的规则非常重要。
10 分钟围棋入门
顾名思义,“围棋”的要点在于“围”。围棋棋盘是 19 × 19 的格状棋盘,黑子和白字在交叉点上交替落子,哪一方“围”的地盘大便获胜。
如何计算“地盘”?每当棋盘上落下一子,便会出现与该子横或竖相邻的四个交叉点,这四个点被称为“气”,一颗棋子最多拥有四口“气”,斜方向相邻的交叉点不是气。
横或竖相邻的同色棋子可以共用“气”。如果一个字或几个字周围所有的气都被对方棋子占据,没有气的棋子就是死子。
左侧图中 A 点若落下白字,则两颗黑子没有气,被杀死提走。右侧图中棋子周围的的点表示气,双方棋子可以共用气。
在这样的规则要求下,胜负的关键便在于如何高效地用棋子占据更大的地盘,同时还要防止对方将你已经占据的位置围死。围棋开局时一般从靠近边缘的地方开始落子也是因为相对于棋盘中央,边缘方便用更少的棋子占据更大的地方。
围棋棋盘一共有 361 个落子点,平均分配的话,一方棋子占据的位置加上活棋围住的落子点只要超过 180.5 个就会胜利。但先落下第一个子的黑棋占有优势,按照中国规则,在计算棋子数量时,黑棋必须减掉 3 又 3/4 子,也就是必须超过 185 子才能获胜。
有的棋局会在未下完时,便因为对方已经占据了无法追赶的优势而认输。而有的棋局双方会进行到“收官”的阶段,这里不再展开。
以上,是围棋的简单的基础规则,但因为棋盘很大,围棋的战术千变万化。
AlphaGo 如何思考
说起这个,“穷举”、“蒙特卡罗树算法”、“深度学习”等等一大堆术语经常出现。
所谓 “深度学习”,是 AlphaGo 围棋训练的第一步,将人类棋谱输入计算机,学习人类的落子习惯。这种“识别”与人脸识别、图像分类等搜索技术类似。
AlphaGo 会把输入系统的人类棋谱的每一步进行分拆,棋盘上每个落子以及随后的应对落子算作一个样本,AlphaGo 从这些人类棋局中分解出了三千多万个样本。
这些样本集合在一起,能够识别出每个特定的落子之后,哪一种应对方法的概率最高,这个最高的概率其实就是人类棋手最喜欢的应对方法。
虽然说围棋“千古无同局”,但是局部来看还是有很多相似的模式反复出现,AlphaGo 就学会了这些最受欢迎的下法。
AlphaGo 的蒙特卡洛树搜索。图片来自 Nature
AlphaGo 的思考结合了蒙特卡罗树搜索。
假设一个从来都没下过围棋的人,用了分身术分成两个人开始在棋盘上乱下,最终这盘棋也会分出个胜负。第二盘,上一盘赢的那个分身不再完全是乱下了,开始使用赢的那一盘中的一些对应,第三盘棋,第二盘赢的那个分身开始使用第一盘和第二盘中的对应。当第 N 盘棋下完之后,这个始终赢棋的分身就会获得最有可能获胜的落子方法。
以上这 N 盘棋就是一步使用蒙特卡罗树搜索的思考过程,思考结束后的下一个落子,就是被是推演过次数最多,获胜概率最高的那一步。
AlphaGo 团队还改进了以上这种传统的蒙特卡罗树搜索算法。
上面我们说过的深度神经网络得出了一套人类棋手概率最高的下法,假设蒙特卡罗树搜索故事中那个完全不会下棋的人学习了这套下法,那么之后的“乱下”思考过程的起点就会提高很多。这样一来,蒙特卡罗树算法的计算量就减少很多,提高了效率。
AlphaGo 自己和自己下棋。 围棋毕竟变化太多,AlphaGo 需要更多的棋局来学习,于是通过自我对弈产生新的棋局。
AlphaGo 自己和自己下棋,棋力的来源就是第一步通过学习人类棋局得到的落子方法。AlphaGo 左右互搏,自我对弈几万盘,就能总结出赢棋概率更高的新下法,接下来再用新下法自我对弈几万盘,以此类推,最终得到了一套棋力比最初只学习人类下法厉害很多的新策略。
那用这新的策略和蒙特卡罗树搜索结合是不是更厉害呢?答案却是否。
因为使用概率来训练的这种策略会让下法高度集中,变化太少,而蒙特卡罗树搜索需要更多的变化才更有效。
AlphaGo 在与樊麾对决时的局面评估。图片来自 Nature
第四步:局面评估。这也是 AlphaGo 最厉害的地方是,它可以像人类一样在比赛过程中估计局面的优劣,这样才有第四局它判断获胜几率太小,选择中盘认输。
当一盘棋开始的时候,AlphaGo 先用第一步训练的下法下若干步,然后乱下一步,接着用第三步自我对弈训练产生的更厉害的下法下完整盘棋,然后对结果做一个评估,评估出“乱下”的那步棋造成的局面是好是坏。
AlphaGo 可以在一步的思考中乱下很多次,总有一次能匹配到真实对下棋的状况。而对这一步乱下以及后续结果的评估,就是对当前局面的判断。
围棋 AI 和其它棋类 AI 区别很大
大家对战胜卡斯帕罗夫的“深蓝”有一些误解。深蓝并不是单纯的“穷举”,通过计算所有的可能性来实现胜利。深蓝的算力约为每秒 2 亿步棋,想要穷尽国际象棋十的四十五次方这个级别的可能性需要十的二十九次方年的时间,这显然不可能。
深蓝内置了数百万人类国际象棋的开局库,这部分计算可以省掉,同时深蓝也不是算出所有可能的步法,而是推算 12 步左右,而人类的国际象棋大师大约能够推算 10 步,胜负就在这其中产生。
AlphaGo 每秒钟可以计算几百万步棋,通过大量学习人类棋局,用这些经验自我对弈产生新的经验,用这些新经验来下棋,再利用蒙特卡罗树搜索产生下一步对应的下法,配合“乱下”产生的对局面的评估,就是 AlphaGo 战胜人类顶尖棋手的秘密。
参考文献:——Nature
喜欢这篇文章?去 App 商店搜
,每天看点不一样的。
没有更多啦
登录查看你的好奇心指数
根据你的好奇心指数推荐
好奇心微信公众号和Siri等AI相比,AlphaGo究竟有什么不一样? | 科学人 | 果壳网 科技有意思
和Siri等AI相比,AlphaGo究竟有什么不一样?
人工智能 深度学习 神经网络 阿法狗 AI Watson
本文作者:不存在者
日,谷歌旗下Deepmind的围棋程序“AlphaGo”就要和职业九段李世石对决了。去年10月,这个程序战胜了中国棋手职业二段樊麾;那是围棋AI第一次在公平比赛中战胜职业棋手。这一成果登上了今年1月的《自然》期刊,也引发了极其热烈的讨论——而最常被提出的问题就是,AI是不是终于要占领全世界了?
会唱歌,更会说冷笑话的Siri.
图片来源:Apple
这个问题并不算杞人忧天,某种意义上AI已经占领了:从苹果的Siri,到日常浏览的搜索引擎,再到网络的文章推荐和商品推荐系统,这些全都是人工智能——哪怕它们不是科幻小说里那种,我们的日常生活也已经很难和它们分开。
但AlphaGo又和这些常见的AI不同。它们的差异在于学习方法和技术的通用性。
Siri:一个照本宣科的助手
Siri是一个“智能助手”,能听懂我们的口头命令,帮我们在网上搜索,帮我们在列表中找到联系人。但它的原理很简单:通过声音识别技术,将声音转化成语言的基本元素,比如元音、辅音、单词,然后和系统中内置的特殊命令比较。如果对比出来的是一个实际问题,那就执行相应的指令;如果对应上了一个空泛的问题,就从相对的段子库里挑个段子出来。
所以它的问题也就一目了然:要是你命令它去做系统中没有的命令,它就扑街了。Siri虽然是AI,但它是一个非常局限的AI:只能解决预先写好的问题。
面对东北大哥的挑衅,Siri懵逼了(也可能只是怂了。图片来源:Apple
深蓝:下棋无人能敌,但只限下棋
1997年,IBM制造的国际象棋机器“深蓝”战胜了当时的国际象棋世界冠军卡斯帕罗夫。这在人工智能历史上是一个标志性事件。但是,虽然深蓝战胜了世界冠军,它有和Siri一样的缺点:太专了。
作为程序,深蓝的软件是专门为国际象棋设计的。它评估盘面的四项标准包括子力、棋子位置、王的安全性还有布局节奏——显然,这些指标完全依赖于国际象棋本身的规则,没有任何扩展性。
卡斯帕罗夫对战“深蓝”的场景。图片来源:muse.jhu.edu
即便如此,它也还是非常依赖于“蛮力”的。深蓝的硬件是当年最快的下棋机器,虽然有系统帮助筛选,它每秒依然要评估20亿个可能局面。为了应对这一需求,IBM当时为它开发了定制的硬件。
其结果就是,与其说它是一个国际象棋程序,不如说是一台国际象棋机器。深蓝只能下国际象棋,学不会围棋,连简单的五子棋也学不会。相比之下,作为人类的卡斯帕罗夫能学围棋,能学五子棋,还能学画画。深蓝的技术就像一把专门为国际象棋设计的钥匙,有很大局限。
自动驾驶汽车:迈出新方向
自动驾驶汽车的原理可以简化为以下几步:
首先它通过感应器了解周围环境,就像司机使用眼睛观察周围情况;
然后通过联网获得道路的路线情况,就像我们开车时候使用导航软件;
再然后计算机程序判断附近行人,汽车会如何运动;
最终计算自己最佳的线路,按着这条线路控制汽车的速度和方向。
Google的自动驾驶汽车。图片来源:Google
它特定于自动驾驶领域,但是基本思想和AlphaGo已经有些接近了。
IBM Watson:泛用的智能
2011年,IBM Watson在美国的真人答题节目Jeopardy!上击败了人类选手,它的技术理念更像AlphaGo。Watson的决策由四个步骤组成:首先是观察,从环境中收集数据,然后对数据做出假设,再然后是评估这些假设,最后是做出决定。不过也有些和AlphaGo不同的地方,首先它被设计成一个问答机器,其次训练Watson的时候需要人类专家的参与——比如关于癌症的问题,需要科学家们在海量的书籍论文中剔除过时的信息、错误的信息,把整理出的资料喂给机器。但至少,它能处理许多领域的能力,让它比它的同行们具有强得多的扩展可能:现在Watson已经被用于医疗领域了。
IBM Watson的logo. 图片来源:IBM
那么,AlphaGo的技术思想是什么呢?
Deepmind创建AlphaGo,是试图通过增强学习技术(Reinforcement learning)构建通用的人工智能。它的理念中包含两个实体,一个是人工智能本身,一个是它所处的环境。人工智能和环境间的关系有两种,一种是通过传感器感知数据,另外一种是通过特定动作影响环境。因为环境的复杂性,它无法获得所有的信息,因此需要不断重复感知-反应的循环,以期望能在环境中有最大收益。绝大多数哺乳动物,包括人在内都符合这套规则。
增强学习技术不断地感知和反馈环境中的信息。图片来源:Google
在AlphaGo之前,他们已经利用这种思想,让AI打游戏。2015年,在《自然》杂志上发表的一篇,描述了如何让一个算法玩不同的Atari程序,包括了《太空侵略者》和《打砖块》等游戏。AI和人一样看游戏视频,和人一样操作游戏,从游戏小白慢慢学习,变成游戏专家。AlphaGo也基于同样的原理,模拟人学习围棋的方法,它和人一样下棋,慢慢学会如何像专家一样思考。
这种技术理念所要求的是原始的数据,因此比起那些需要输入人工整理后的数据的方法有更强的通用性。原则上AlphaGo去学个围棋,五子棋都不是问题。
AlphaGo的技术首先被用于游戏的原因是因为,游戏比现实问题简单很多,无论是棋类游戏还是电脑游戏。游戏也很可能是类似技术第一个投入实用的领域:毕竟,随着游戏技术的发展,游戏开发者们逐渐意识到了好的AI和逼真的图像同样重要,不管是即时战略游戏,比如《星际争霸》还是角色扮演游戏中的NPC,高级人工智能不仅能成为强有力的对手,也可以变成优秀的团队伙伴。
但是,它最强之处当然是适应力和学习力。Deepmind声称,这种技术理念很快会被运用到医疗领域,尝试解决个性化医疗的问题。而这,肯定只是第一步。(编辑:Ent)
你可能感兴趣
我是alphaGO,请问我下一步要怎么走,在线等挺急的
引用 的话:小时候看到过人类被毁灭的可能,感觉和制造出黑洞,核冬天,气候变暖相比,人工智能简直弱爆了,现在看来一点也不。想象一下,冷冰冰的机器拥有了自主思考能力···简直不寒而栗,吓得我赶紧把电饭锅关了···鱼唇的人类,你以为关闭电源就能把我扼杀了吗?
小时候看到过人类被毁灭的可能,感觉和制造出黑洞,核冬天,气候变暖相比,人工智能简直弱爆了,现在看来一点也不。想象一下,冷冰冰的机器拥有了自主思考能力···简直不寒而栗,吓得我赶紧把电饭锅关了···
显示所有评论
全部评论(113)
我刚刚在其他网站上看到。。。
三层BP神经网络就可以用来应付自动驾驶了。。。有生之年说不定还真能看到强人工智能的出现。
一个问题:这种ai可以在离线或者单机状态下运行吗,人都是独立思考的,不是靠一个巨大的数据库去检索答案,更不是通过高频多次的海量计算,人想问题通常是经验出发在一个模糊的方向上得出结论。
小时候看到过人类被毁灭的可能,感觉和制造出黑洞,核冬天,气候变暖相比,人工智能简直弱爆了,现在看来一点也不。想象一下,冷冰冰的机器拥有了自主思考能力···简直不寒而栗,吓得我赶紧把电饭锅关了···
引用 的话:一个问题:这种ai可以在离线或者单机状态下运行吗,人都是独立思考的,不是靠一个巨大的数据库去检索答案,更不是通过高频多次的海量计算,人想问题通常是经验出发在一个模糊的方向上得出结论。人也不是离线运行的呀,那些狼孩熊孩才能算是离线吧,各种模因还会在人不自觉的情况下进入人的脑子
引用 的话:一个问题:这种ai可以在离线或者单机状态下运行吗,人都是独立思考的,不是靠一个巨大的数据库去检索答案,更不是通过高频多次的海量计算,人想问题通常是经验出发在一个模糊的方向上得出结论。不见得吧,人也是依靠海量记忆+硬件加速(条件反射什么的)来思考的
引用 的话:人也不是离线运行的呀,那些狼孩熊孩才能算是离线吧,各种模因还会在人不自觉的情况下进入人的脑子人脑联网可是无数神经科学家奋战无数日夜都不能解决难题,到你这就成了“人也不是离线运行的呀”,我以前只见过袁腾飞,没想到理科方面也会有类似的
引用 的话:问一个问题:你觉得“美”是什么?这个问题就算是文盲也会想一个符合自己感觉的答案,如果是人工智能恐怕在没有预设答案的情况下无法回答,人的所有抽象问题都是自己思考的结果(比如政治立场、审美、价值观、世界观等),而计算机的这类东西几乎全都是程序员的思想浓缩
引用 的话:人脑联网可是无数神经科学家奋战无数日夜都不能解决难题,到你这就成了“人也不是离线运行的呀”,我以前只见过袁腾飞,没想到理科方面也会有类似的我的意思是人脑子中的东西并不是凭空就有的,你所用来做决定的知识很多都是从别人那得来的,而且有时候还得现学。另外你这说话就带着火药味,我不会再搭理你了
引用 的话:我的意思是人脑子中的东西并不是凭空就有的,你所用来做决定的知识很多都是从别人那得来的,而且有时候还得现学。另外你这说话就带着火药味,我不会再搭理你了你的理解能力有问题,人脑的所有知识都是学习积累的结果人学得到的东西都是自己理解的结果,从具体到抽象,然后对抽象的概念进行思想,这个思考的过程是其他人绝对无法介入的(这就是离线的单机思考),但计算机是可以分布式计算的(联网计算、同时访问其他计算机的数据库),同时计算机没有把具体抽象化的能力你觉得我说话冲,我认可
引用 的话:一个问题:这种ai可以在离线或者单机状态下运行吗,人都是独立...现在的神经网络基本上都是用来做识别和分类的。。用数据集训练这个模型得到hypothesis函数以后,就不需要这些数据了。so,yes 可以工作在"离线"模式下。。
其结果就是,与其说它是一个国际象棋程序,不如说是一台国际象棋机器。深蓝只能下国际象棋,学不会围棋,连简单的五子棋也学不会。 什么意思五子棋电脑到现在也下不过人类啊
引用 的话:小时候看到过人类被毁灭的可能,感觉和制造出黑洞,核冬天,气候变暖相比,人工智能简直弱爆了,现在看来一点也不。想象一下,冷冰冰的机器拥有了自主思考能力···简直不寒而栗,吓得我赶紧把电饭锅关了···鱼唇的人类,你以为关闭电源就能把我扼杀了吗?
引用 的话:鱼唇的人类,你以为关闭电源就能把我扼杀了吗?这ID亮了2333333
我赌五毛,李世石5:0完胜。
医疗领域的运用确实很有前景,但仍需人类的研究员去及时研究纠正最新疾病。我们人类医生很有可能要失业了,无论是动手操作的外科和以问触叩听为主的内科,精细程度根本不过AI嘛。唉,要失业了。
我是alphaGO,请问我下一步要怎么走,在线等挺急的
引用文章内容:高级人工智能不仅能成为强有力的对手,也可以变成优秀的团队伙伴。约翰·康纳:可怕的是,无论作为对手还是伙伴,它都是不死的,而且可以无数次地重来,每一次都更厉害,直到和你融为一体。。。。。
进化算法无脑粉路过,仍然觉得进化算法最靠谱了,对,因为我是学生物的……话说总觉得只要能把编程能力编程出来,就可以AI了……
引用 的话:我是alphaGO,请问我下一步要怎么走,在线等挺急的我有点儿好奇,如果不限时双方慢慢算,或限制时间很短,比如十秒内必须落子,会怎么影响对弈结果
李世石第一局就被吊打
期待Google弄个Sky Net项目,Judgement Day啊!来吧!
引用 的话:我赌五毛,李世石5:0完胜。
引用 的话:进化算法无脑粉路过,仍然觉得进化算法最靠谱了,对,因为我是学...呃,一般来说进化算法只是一个思想,是用来解决优化问题的。。。讲道理的话,也可以对神经网络模型做优化,不过这个染色体编码,优化目标,适应度函数没法定义啊。。。
引用 的话:我赌五毛,李世石5:0完胜。钱在哪,快快~
引用 的话:我赌五毛,李世石5:0完胜。快,钱
那一天alpha go会假装认输了,那才可怕。想起了ex machina
有道理,电脑不能离线工作,人离开社会不通过外部学习,也就剩下最基本的动物本能了。脑细胞之间也是网络,一个脑细胞你思考一个给我看看引用 的话:人也不是离线运行的呀,那些狼孩熊孩才能算是离线吧,各种模因还会在人不自觉的情况下进入人的脑子
引用 的话:引用 的话:钱在哪,快快~引用 的话:快,钱我赌的是五局赛完的结果,还没赛完呢啊。
显示所有评论
(C)2017果壳网&&&&京ICP证100430号&&&&京网文[-239号&&&&新出发京零字东150005号&&&&
违法和不良信息举报邮箱:&&&&举报电话:

我要回帖

更多关于 什么是蓝筹股 的文章

 

随机推荐