2018年8月6日 人物访谈
“星阵”金涬:AI可以抛开人类单独求棋道-南宁中国围棋大会“中信证券杯”世界智能围棋公开赛专题
星阵围棋主创人金涬接受弈客围棋采访
8月4日下午,记者采访了深客科技CEO、星阵围棋主创人金涬博士。约见的地点是望京,金涬是出席眼科相关医疗会议后赶过来,深度学习和医疗诊断未来会融合到一起。
2018中国围棋大会8月8日将在南宁召开,其中“中信证券杯”世界智能围棋公开赛是核心项目。2015年AlphaGo横空出世后,围棋项目“人机相揖别”,经三次“人机大战”,围棋世界已进入了人类和人工智能越来越脱离粘连的二元体系。
在刚刚结束的2018腾讯世界人工智能围棋大赛决赛,星阵围棋0比7不敌“绝艺”。仅十天后,星阵围棋又要出战“中信证券杯”世界围棋公开赛。
“中信证券杯”世界智能围棋公开赛是和中国围棋大会的核心赛事,随着中国围棋大会届数的累积,“中信证券杯”愈来愈会成为围棋世界二元体系下代言人工智能围棋的权威赛事,一年一度的大赛将具有阶段性总结人工智能围棋发展状况的意义。
2017年首届“中信证券杯”世界智能围棋公开赛DeepZenGo获得冠军
去年8月落幕的2017年首届“中信证券杯”世界智能围棋公开赛,日本DeepZenGo获得冠军,而首届比赛可以看做是谷歌第一篇论文框架下人工智能围棋发展的阶段性总结。仅仅过两个月,谷歌推出“第二篇论文”,“阿尔法零”(AlphaGo Zero)摈弃人类棋谱“从零开始”,仅三天就战胜2015年第一次“人机大战”AlphaGo Lee版本。
去年10月19日谷歌发表“第二篇论文”距今还不到一年,无论是“传统”的还是“新贵”围棋智能程序,皆搭上“第二篇论文”,金涬博士说:“腾讯大赛的四强程序都是基于‘第二篇论文’。”
谷歌“第二篇论文”再次拓宽边界,围棋人工智能程序随之进化和迭代,同时也经历“优胜劣汰”,如日本野心勃勃推出的“DeepZenGo”项目已经“下架”,原在第一梯队的韩国“石子旋风”因未能搭上“第二篇论文”已居末流,濒临淘汰。
那么,2018第2届“中信证券杯”世界智能围棋公开赛即将开赛之际,现阶段人工智能围棋的发展状况和未来须突破的方向是什么呢?这也是采访星阵围棋主创人金涬的目的所在。
4月27日“贝瑞基因杯”人机大战前,柯洁欢笑着看机械臂摆棋,其实这是很“恐怖”的一幕
星阵,人工智能围棋迭代进化的标尺
-记者:请介绍“星阵围棋”发展的过程。
金涬:“我们深客科技,以知识产权有偿转让的方式接手了清华大学团队研发的‘神算子’,然后加了新的模块,如目数的判断,使‘星阵’的实力得到了提升。‘神算子’是基于谷歌‘第一篇论文’,而我们是参考了‘第二篇论文’,加了一些自己的东西。‘星阵’由此得到提高,也有了自己的特色。如‘不退让围棋’,可以下任意贴目的棋,适应不同大小棋盘等。
而这些提升,是在今年4月27日和柯洁下(2018贝瑞基因杯人机大战)前已经完成的。后来我们继续跟进‘第二篇论文’,引入了强化学习。这次参加腾讯人工智能赛,复赛和决赛阶段我们使用的是强化学习的版本,而这个版本的实力又上了一个台阶。”
在4月末的首届吴清源杯开幕式上,金涬博士和柯洁握手
-记者:也就是4月末和柯洁下‘第三次人机大战’的时候,依然还是基于‘第一篇论文’?
金涬:“应该说也参考了‘第二篇论文’,如价值网络和策略网络合并,除此之外没有。而‘第二篇论文’最重要的贡献就是‘强化学习’,我们还没有引入。后来‘星阵’和职业棋手下让先棋,取得‘40比1’的成绩的时候,也是没有引入‘强化学习’,也包括腾讯人工智能赛的预赛。
我们着手引入‘强化学习’,是从福州回来后(4月)。也就是5、6月份做这件事,而产生效果是7月以后。”
-记者:围棋人工智能因谷歌两篇论文而更新迭代,那么这两篇论文间有什么差距?
金涬:“这个差距应该说还蛮大。围棋人工智能的研发,主要用的是‘深度学习’,这是没错的。但从学习的机制来说,应该说发生了很大的改变。如‘第一篇论文’的学习方法是‘监督学习’,而‘监督学习’的方法相对来说比较容易掌握。‘监督学习’是看人类怎么走,就学着怎么走,然后学出了一个网络。但是受限于人类的棋谱,不可能学到比人类更厉害的东西。当你碰到天花板的时候,事实上已无法继续前进。
金涬博士和柯洁在2018“贝瑞基因杯”人机大战颁奖仪式前
而‘强化学习’最关键的思想就是,当你没有比人类更厉害的棋谱的时候,就自己来创造棋谱。这就形成了螺旋上升的方法:就是自己制造棋谱,学习这个棋谱,然后变得更强,再创造更强的棋谱。‘强化学习’就是如此循环迭代。‘强化学习’因为可以自我进化,所以能‘从零开始’。”
-记者:AlphaGo Zero从零开始,三天就打败了“第一次人机大战”版本。那么星阵“强化学习”,也是从零开始的吗?
金涬:“没有,没有。我们引入的是‘强化学习’螺旋上升的迭代过程,但这个迭代过程没必要从零开始,当然也可以从零开始。或者说可以从当前的基础开始,更可以从任意一个起点开始。
星阵就是从4月和柯洁对弈版本的基础上迭代进化。这次腾讯人工智能赛前几名的程序,应该都使用了‘强化学习’,都突破了采用‘第一篇论文’无法达到的高度。也就是突破了天花板。”
-记者:如果和AlphaGo master版本相比,现在的围棋人工程序是否已经超越了?
金涬:“这个问题其实很难回答,因为它不出来比赛。我们没有直接比较的机会,所以只能不负责任地猜。我觉得差距应该不是很远了,或者说超过了也有可能。”
-记者:AlphaGo master版本是基于第一篇论文吗(对这一点记者一直概念模糊)?
金涬:“不是,AlphaGo master是基于第二篇论文。”
-记者:那么AlphaGo master和AlphaGo Zero间的差距是什么呢?
金涬:“AlphaGo master和AlphaGo Zero都是基于‘第二篇论文’。区别在于AlphaGo Zero拿掉了所有‘人工’的因素,比如快速走子网络和人工特征等。而最大的区别,AlphaGo master是从之前的版本‘强化学习’,AlphaGo Zero是‘从零开始’。
AlphaGo Zero战胜了 AlphaGo master这是没错的,但这里有误读的东西,人们以为‘从零开始’就是比master强,其实谷歌并没有这么说。AlphaGo Zero战胜AlphaGo master,不同资源的投入,在不同时间节点对比的结果。”
-记者:谷歌的“第一篇论文”带来了划时代的进步,于是大家跟进。但是都没曾想还会出现第二篇论文。接着“第二篇论文”出现了,又是“划时代的进步”,大家都又跟进了。现在谷歌已经不玩围棋了,那么以后还会有“第三篇论文”吗?
金涬:“谷歌团队退出了围棋的研究,但围棋依然很复杂,我们离破解这个游戏还很远很远。谷歌发了第一篇论文,成为了新的水平线,我们就争取站在这个水平线。谷歌又发了一篇论文,又成为新的水平线,我们又站在了巨人的肩膀上。现在大家还继续在围棋AI上投入,力争再迈上一个新台阶,写出‘第三篇论文’。”
2018“贝瑞基因杯”人机大战,金涬作为星阵“肉臂”摆棋
今年4月到5月间,星阵围棋授先职业棋手取得了40胜1负的成绩。4月27日,星阵围棋出战2018贝瑞基因杯人机大战,执黑第145手中盘战胜了柯洁。这场“第三次人机大战”事实上已让“人机对抗”成为了绝唱,自2015年AlphaGo问世不过三年时间,人工智能围棋至少在棋力上彻底碾压了人类。
星阵围棋可以说是人工智能围棋迭代进化的标尺,它首先脱胎于基于“第一篇论文”的“神算子”,深客科技和金涬接手“神算子”后只是加了一点“自己的东西”,星阵围棋就立刻脱胎换骨,变得“不一样”了。从“第一篇论文”迭代到“第二篇论文”,星阵分两步走,第一步是“神算子”的基础上借鉴“第二篇论文”合并价值网络和策略网,尚没有引入“强化学习”。而这个版本的星阵先在“第三次人机大战”战胜柯洁,又授先职业棋手取得40胜1负。星阵引入“强化学习”,也没有“从零开始”,依然保留了人类围棋的基因,基于人类棋谱,突破了人类棋谱的“天花板”。
金涬在2018“贝瑞基因杯”人机大战
人工智能围棋的现状和未来突破点
-记者:现在的人工智能围棋程序,应该说都跨过了职业门槛,棋力已远超人类。那么现阶段人工智能围棋尚未完善,或者需要攻克的点是什么?
金涬:“这也是我们务求突破,验证算法的目标所在。第一点,这种强化学习迭代的方法,非常消耗计算资源,这也是谷歌能做出来,而别人都做不到的原由所在。需要大量的计算资源,可以说是这个算法的局限所在。
这就引来一个问题,在围棋上得到验证的算法想应用到其他领域,第一个难以跨越的门槛就是恐怖的计算资源量,这不是一般公司所能承受得起。反过来说,这又限制了算法的进一步应用和发展。所以,能不能用相对少量的资源,做到相同的事,这是攻关的第一个方向。而我们开发星阵,计算资源总数约为AlphaZero的几百分之一,没有为比赛租用过临时计算资源(注:一位幕后人士说,‘金涬最伟大的贡献就在于此’,不吝使用‘伟大’二字)。
吴清源杯《最后的晚餐》,研究室的职业棋手、围棋记者们在用星阵分析棋局
第二点,AlphaGo这套系统下出来的棋,有时候让人难以理解。因为这套系统是以胜率为目标,在赢多了或者输多了的时候,下法就会变得不太正常。赢多了就会退让,输多了就会出现‘发疯’的倾向。
尤其‘优势退让的棋,’国家围棋队的俞斌总教练就说:‘人工智能优势的时候给出的变化图,让人产生怀疑。这究竟是优势退让的变化图,还是棋本来就该这么下?’
星阵就想在这个方面得到突破,即‘最强下法’的突破。AlphaGo是在固定棋盘、固定贴目、固定规则下训练,我们认为这不太灵活。比如,你训练出来的分先的棋越强,下让子棋就会变得越弱。就说让三子,一上来就胜率超低,就会立刻进入‘发疯’状态。这就形成了一个悖论,人工智能围棋水平越强,下让子棋越会‘发疯’。这也是算法本身的问题所在。我们现在致力于一个模型适应各种下法。”
“星阵”脱胎于“神算子”,由小川教授率清华团队研发了“神算子”
-星阵“最强下法”,是不是一定程度上解决了这个问题?
金涬:“应该说星阵给出的变化图,相对是值得信赖的,也就是一定程度上解决了这个问题。”
-记者:“从零开始”的强化学习方法,能否解决特殊棋形、特殊死活等问题?而不需要人工干预?
金涬:“我认为能解决。既然能从零开始学到简单的棋形,进而也能学到复杂的棋形,甚至也能学到人类不曾发现和还不懂的棋形。人工干预,其实是没有必要性的。人工智能围棋只要达到一定的高度,自然能下出高级复杂的棋形,然后学会它。”
-记者:最后一个问题,人工智能围棋能否撇开人类单独求道?
金涬:“事实上已经进入了这样的一个阶段,AI‘它们’的成长,实际上是自己在求道。或者说ZERO的论文已经证明了计算机抛开人类求道,是完全可能的。”
蓝烈 |