财新传媒

AlphaGo在围棋界“孤独求败”,Deepmind再出新一代机器人

2017年10月19日 09:42 来源于 财新网
可以听文章啦!
AlphaGo又“进化”了!
2017年5月27日,乌镇,2017AlphagoVs柯洁大赛。图/视觉中国

  撰文 | 李家劲(加州大学洛杉矶分校)

  AlphaGo又“进化”了!新一代机器人AlphaGo Zero诞生,在围棋领域,它会不会感到孤独?

  本周,Nature杂志报道了英国DeepMind团队的最新进展:他们开发出了新一代的围棋AI——AlphaGo Zero。AlphaGo Zero使用强化学习技术(Reinforcement Learning),大幅提升了棋力。它现在能够以更少的计算资源,轻松击败曾经战胜世界冠军李世石、柯洁的AlphaGo前代版本。

  AlphaGo Zero与之前版本最大的区别在于,AlphaGo Zero从随机对局开始,通过自我对弈来提升自己的棋艺,从不依靠任何人类的监督或对局数据。而在以往版本中,AlphaGo都是使用业余和专业人类棋手的对局数据来训练自己。虽然使用人类棋手的数据可以让AI学习到人类的围棋技巧,但是人类专家的数据通常难以获得且很昂贵。此外,即使是专业棋手,也难免会有失误,而使用错误的训练数据可能会降低AlphaGo的棋力。况且,仅仅使用人类数据会让AI局限于人类的围棋知识。

1
AlphaGo Zero的自我强化学习,图片来自Nature

  更重要的是,AlphaGo在围棋界已是“独孤求败”的境界,所以,要突破自己的界限,甚至围棋知识的界限,显然只有AlphaGo自己才能做自己的老师。

  张峥(上海纽约大学终身教授、国家千人计划特聘专家):

  从算法上来说,AlphaGo Zero更简洁、漂亮,让我想起爱因斯坦的KISS原则:simple but not simpler。这一次,AI在人类的帮助下,在一个给定的规则下,自主发现新知识,并且纠正人类的错误知识,而且以惊人的速度达到这一点。有趣的是,AlphaGo无法解释,只能demo给人类。在这个特定的小领域,人类和人工智能一起创造了新知识。

  经过几百万盘的自我博弈后,AlphaGo Zero进步明显,不仅棋力大幅增强,运算速度也提升了不少。在100盘对局中,仅使用1台机器、4个TPU的AlphaGo Zero对使用多台机器、48个TPU的AlphaGo Lee取得全胜,后者曾经击败韩国名将李世石。在同样配置下,AlphaGo Zero对AlphaGo Master取得89胜11负的压倒性优势,后者就是2017年1月在顶级围棋在线对战平台上取得60战60胜的神秘选手Master。而且,AlphaGo Zero训练了72小时就完胜AlphaGo Lee,仅用40天就超越了AlphaGo Master。这主要得益于DeepMind团队开发的新型强化学习技术。

  何为强化学习技术?简单来讲,强化学习使用一套奖励机制,让AI从中学习到能够获得最大回报的策略。AlphaGo Zero的强化学习主要包含两个部分,蒙特卡洛树搜索算法(Monte Carlo Tree Search,MCTS)与神经网络算法。其中,神经网络算法给出落子方案,以及预测当前形势下的胜方;MCTS算法可以看成是一个弈棋策略的评价和改进工具,它能够模拟出AlphaGo Zero落子在哪些地方可以获得更高的胜率。如果AlphaGo Zero从神经网络得出的下一手棋的走法越相似于MCTS算法输出的结果,则胜率越大,即所谓回报越高。如此,在每一着棋中,AlphaGo Zero都要优化神经网络中的参数,使其计算出的落子方案更接近MCTS算法的结果,同时尽量减少胜者预测的偏差。开始的时候,AlphaGo Zero的神经网络完全不了解围棋,只好盲目下棋。但经过日以继夜的“左右互搏”般的训练,无数盘对局后,AlphaGo Zero迅速从围棋小白成长为传奇棋神。

  除了改进人工智能技术外,DeepMind团队也希望能够通过AlphaGo项目获得对围棋更深的认识。他们发现,AlphaGo Zero仅仅自我对弈几十天就掌握了人类几百年来研究出来的围棋技术,而且棋路独特。例如,AlphaGo Zero很喜欢下出定石(围棋术语)的新型变种。这是因为它没有使用人类数据,不再囿于人类现有的围棋理论。

  “当前的最强版本,AlphaGo Zero向我们展示了即使不用人类的数据,即使使用更少的计算资源,也能够取得长足进步。最终我们想用这些技术进展去解决现实问题,如蛋白质折叠或者新材料设计。如果我们能够在这些问题上取得同样进展,这将会增进人类的认知,从而改善每个人的生活。”DeepMind的共同创办者兼CEO,Demis Hassabis如是说。

  参考资料

  Silver D. Mastering the game of Go without human knowledge. Nature. doi:10.1038/nature24270.

  作品来源:《知识分子》(微信公号:The-Intellectual)

  《知识分子》是由饶毅、鲁白、谢宇三位学者创办的移动新媒体平台,致力于关注科学、人文、思想

知识分子
 
责任编辑:于达维 | 版面编辑:张翔宇
  • 此篇文章很值
  • 赞赏激励一下

首席赞赏官虚位以待

推广

财新私房课
好课推荐
财新微信

热词推荐
商誉 朱明国 张进 平安大厦 内蒙古银行 周浩 中国企业500强 张翔 税务师 澳大利亚选举 全国人大常委会 陈有西 香港经济 薄熙来二审维持原判 非洲象