Board logo

标题: 黄士杰:Zero只用三天 就走过人类千年围棋历程 [打印本页]

作者: 天马行空    时间: 2017-11-13 10:42     标题: 黄士杰:Zero只用三天 就走过人类千年围棋历程

本帖最后由 天马行空 于 2017-11-13 10:44 编辑

2017年11月12日11:43 新浪综合

[attach]93338[/attach]


DeepMind 资深研究员黄士杰博士



  DeepMind 资深研究员黄士杰博士(Aja Huang)今日回台在首届人工智慧年会上发表以‘AlphaGo:深度学习与强化学习的胜利’为题的演讲,受到台湾产官学界的瞩目,九点不到人潮就挤爆了中研院的演讲厅。黄士杰除了分享自己在人工智慧与围棋上的研究,也分享了最近发表的 AlphaGo Zero 如何不需要人类的知识就能自己学会围棋,并且变得比打败人类棋手的前一代版本更为强大。

  从台湾博士生变成被 Google 并购的 DeepMind 员工

  黄士杰是台师大资讯工程研究所第一届的学生,从硕士念到博士,在博五的时候结婚,而黄士杰在博士班时所开发的围棋软体叫做 Erica,就是妻子的名字,当时以单机的版本打败人工智慧围棋领域最强、使用了六台机器的 Zen,也因此被 DeepMind 发觉他的能力,David Sliver 便力邀黄士杰加入,黄士杰也成了第 40 号员工。

  在面试的时候,David Sliver 问黄士杰,开发出 Erica 的感觉是什么?黄士杰回答:‘很有成就感,可以自己做出一台 AI 来。’后来进了 DeepMind ,发现这其实是公司里面共同的感觉,而 DeepMind 的梦想就是做出‘通用的强人工智慧’。2014 年,DeepMind 被 Google 并购,进到了 Google 最大的好处就是拥有强大的运算资源。

  又回到围棋,AlphaGo 的诞生

  不过成为 DeepMind 的研究员之后,黄士杰并没有马上开发 AlphaGo,而是到了 2014、2015 的时候才开始重启围棋的人工智慧计画,但也并不是接续博士班时开发的 Erica,因为当时已经发现极限了,所以必须藉助深度学习的技术重新打造,并且持续延揽世界上最厉害的人才加入,包括加拿大 DNNresearch 的 Chris Maddison 和 Ilya Sutskever,同样也被 Google 并购,因此就有机会一起合作。

  人才、运算资源都齐备,AlphaGo 计划也正式开始了。黄士杰分享,第一个突破是运用了神经网路的技术,原本还不确定是否会有效,没想到实验结果出来之后,对弈原始的版本竟然是 100% 的胜率,也让团队为之振奋。接着而来的第二个突破,则是价值网路的技术,其实当时的模拟,AlphaGo 如果上场比赛,胜率应该有七八成,可以算是世界第一了,但是 DeepMind 的目标远高于此,所以持续扩充团队,才有办法做更多的研究,解决更多的问题。

  黄士杰也分享,其实在开发 AlphaGo 的过程中,每天就是训练神经网路、测试、看胜率、观察看看是不是有效,有很多点子和问题需要不断的测试,像是深度学习的深度到底要几层?用什么架构?训练的资料有没有问题?当然,最终检验的还是 AlphaGo 的棋力有没有变强。

  在观察的过程中,也发现 AlphaGo 有 Overfitting 的问题,解决之后 AlphaGo 就变强了,再跟上一个版本对弈,胜率是 95%,这也是为什么演讲题目订为 AlphaGo 的成功是深度学习与强化学习的胜利。

  开始与人类对弈,并发表第一篇 Nature 论文

  确认了 AlphaGo 的能力之后,DeepMind 决定与真人对弈,第一个对象是法国的二段棋士樊麾,在 2015 年 10 月,AlphaGo 五战全胜,第五战 Nature 期刊的编辑还到场观战,确认 AlphaGo 即将发表的论文是否真的这么厉害。樊麾也成为第一位正式被 AI 打败的职业棋士,但落败后,樊麾认为 AI 的发展对围棋是正面的,所以后来也给 AlphaGo 团队很多帮助。

  不过 DeepMind 这家公司与其说是‘营利事业’,还不如说是‘研究机构’。好不容易开发出一个可以打败职业棋手的人工智慧,却要发表论文将细节全部公开?而且赢了樊麾之后,正式对九段棋士李世乭宣战,公开岂不是更处於劣势?当时黄士杰其实也不解为何公司如此决定,总觉得应该要花时间在準备比赛而不是写论文。

  DeepMind 的主张是 AlphaGo 是一个科学研究,希望能将成果公开在论文上,推动科学领域继续往前进步。

  也就因为要发表论文,Nature 要求刊登前不能公开打败樊麾的讯息,所以大众是在好几个月之后才知道。

  黄士杰也再度提到,DeepMind 加入 Google 之后,Google 所提供的运算资源硬体设备帮助相当大,尤其后来 TPU 取代了 GPU 更是极大的帮助,不然有很多事情根本做不了。 AlphaGo 也算是在 Google 里面第一个大量使用 TPU 的程式。关于细节,黄士杰表示在纪录片《AlphaGo》里面都有详细描述。

[attach]93339[/attach]


  从败给李世乭找到弱点,再次强化学习能力

  韩国之战的结果大家都知道了。打败李世乭之后,AlphaGo 是否就该喊停了呢?其实对弈过程中,第四战 AlphaGo 就出现了明显的问题,竟然出现了连业余选手都不会犯的错,当时负责落子的黄士杰甚至觉得自己来下说不定还比 AlphaGo 好,李世乭也讶异地看萤幕确认是不是黄士杰放错位置。

  既然 AlphaGo 还有问题,自然就要继续研究下去,全面性的把问题解决掉,这个过程花了八个月,也找来生力军 Karen Simonyan 加入团队。其实解决的方法就是在深度学习和强化学习的技术上,把学习能力再加强。

  第一步,先把原本 13 层的网路增加到 40 层,也改成 ResNet,第二步则是把 Policy Network 和 Value Network 结合成 Dual Network,让 AlphaGo 的直觉和判断一起训练。第三步,把 Training Pipelines 也加强。除了人工智慧的学习能力,黄士杰也把模仿棋、循环劫等围棋的问题也解决了,再跟打败李世乭的版本对弈,可以让三子(不贴目)还达到超过 50% 的胜率。

  Master 在台南从低调下棋到举世关注

  在确定解决了所能找到的所有问题之后,AlphaGo 团队决定低调上线找棋士对弈,其实也就是后来的 Master 版本,而当然不断的赢棋之后,再也无法低调了,最后的结果是对战中、日、韩、台的顶尖棋手,全胜。

  AlphaGo 自此再也没有输给人类棋士了。

  当时,黄士杰回到台湾,在台南自己的房间里面,开了一个新的帐号,邀请棋士对弈,知名棋士还拒绝,不过后来当然就变成是黄士杰拒绝別人了,而且每一盘棋也越来越多人观战。在对战过程中,黄士杰一直观察 AlphaGo 胜率图表的变化,除了柯洁以外,已经没有人有机会赢 AlphaGo 了。

  经过小蝠的调整和改进,AlphaGo 到中国与柯洁对弈。黄士杰也提到了比起在韩国很想要全赢,在中国对弈的气氛是比较轻松的,因为胜负不再是重点(觉得不可能会输了),而是已经是在探索人类与人工智慧之间如何互相合作,所以比赛的名称也叫做‘共创棋妙未来’。黄士杰表示,人工智慧已经不会输给人类,但是这时候人工智慧的功能,是在扩展人类棋手的思路,和人类合作一起探索围棋还未被发掘的领域。

  AI 是人类的工具,不是人类的威胁。

[attach]93340[/attach]


  AlphaGo 团队当时已经兵分两路,黄士杰忙着用 Master 与柯洁对战,另一组人则开发 AlphaGo Zero,而黄士杰先负责把 AlphaGo 的围棋知识全部拿掉,并且再三确认这件事情,因为 AlphaGo Zero 是一个完全不需要人类先备知识就能自我学习的人工智慧,所以只能有规则知识,不能有围棋知识。

  其实原本 AlphaGo 团队也不确定能不能成功,不过后来 AlphaGo Zero 的确也击败了 Master,再度证明深度学习与强化学习真的很强大。AlphaGo Zero 一开始是彻底乱下,也常常学习之后就卡住了,经过一些调整之后才能再继续,不过有了 Google 强大的运算资源,以 2000 颗 TPU 的运算,短短经过三天,AlphaGo Zero 就成功了。而且不只学习能力,AlphaGo Zero 下棋的时候耗电量比起对弈樊麾时的运算,降低很多。现在很多 Zero 所下的棋,黄士杰也看不懂了。




欢迎光临 亦苏围棋社区 (http://ysgo.91em.com/bbs/) Powered by Discuz! 7.2