返回列表 发帖

陈经:被围棋AI横扫后 职业棋手该如何提高水平?

2017年01月05日11:17    观察者网


棋圣聂卫平上阵不敌Master



  [文/ 观察者网专栏作者 陈经]

  2016到2017岁末年初的三天假期,棋迷们惊喜地发现围棋对弈网站出现了好几个高水平围棋AI。

  在弈城上像劳模一样一直猛下的是日本的DEEPZEN,至2017年1月3日五天时间已经下了超过200盘,输了20盘。之前DEEPZEN在高手不多的 KGS围棋网上也是这么猛下,人们已经熟悉了它的风格。DEEPZEN在弈城的战绩并不出人意料,甚至有点令人失望。虽然它胜多负少,但主要是胜不带P标 志的业余棋手,对职业棋手输得多,还没有世界冠军级棋手出手测试。

  另一个一上线就引发关注的是腾讯野狐围棋的“刑天”。腾讯在2016年11月上线的AI“绝艺”在一个月中已经打出了不小的名气,胜了柯洁一盘,5:1胜 朴廷桓。这让人们对国产AI有了信心,腾讯也报名了2017年3月在日本举办的AI围棋世界锦标赛。但是高手们似乎摸清了绝艺的路数找到了对付它的办法, 柯洁对绝艺的战绩是3:1,不少职业高手都战胜过它,绝艺出过一些明显的bug。因此从11月底,绝艺再没下过棋,下线研发升级去了。

  一个月后,2016年12月27日,升级版本“刑天”又上线开始下棋。这次升级应该有进步,对柯洁战成5:2,对朴廷桓4:1。但不能说有本质进步,柯洁 明显找到了对付它的办法,几次吃死它的大龙,刑天死活还是有问题。这些测试棋全部是20秒或30秒一手的快棋,刑天对世界冠军级高手们的胜利,很大程度是 高手们因为时间压力出现错误,如柯洁有一盘已经杀死了刑天的大龙绝对优势,后面不小心输回去了。腾讯开发的AI水平已经很高了,职业棋手感觉它的实力和 2016年3月与李世石对战的AlphaGo版本V18相当。职业棋手们已经找到了刑天的漏洞,对它有办法了不会太怕。


  上图是2016年12月30日柯洁第一次对阵胜刑天,就执黑大胜。本局柯洁早早就吃掉刑天棋盘右边的一条大龙,最后三招柯洁连下三个单长走起了五子棋,估计是人类操作员手动替刑天认输了。AI如果走出这样的棋,即使一时对人类高手胜多负少,棋手们也不会怕。

  这时弈城网站上的Master在2016年12月29日也开始下棋了,一开始并不引人关注,开始10多局胜的并不是世界冠军级棋手。随着12月30日 Master对排名第一第二的柯洁与朴廷桓各胜2局取得20连胜,终于引起了关注。棋迷与棋手并不是太吃惊,因为之前绝艺与刑天也有这样的惊艳表现,而且 Master下的是20秒的快棋,20秒时间太短高手容易犯错,30秒高手们会好多了。

  棋迷们喜大普奔,这么多高水平的AI同时在对弈网站上,AlphaGo的论文养出了一堆狗仔,“群狗闹新年”太有意思了。接下来职业棋手和棋迷们自然的预期是,随着每手时间提升至30秒,高手们耐心琢磨也找到Master的漏洞终于胜出,对它的预期和刑天差不多。

  但事实证明,Master的水平比刑天要高得多。在弈城达成30连胜后,Master转战野狐,除1月1日新年休息了一天,保持每天10局的节奏。到2017年1月3日,Master达成了50连胜,对 手中包括16位世界冠军,三国水平最高的柯洁、朴廷桓、井山裕太都在其中。人类高手们排队轮流上阵,不一会就倒下被门板抬走。人类一胜难求,甚至没有出现 过胜机。经常是一个局部就大为落后,Master早早领先10多目甚至20目以上,收官时再“让”给人类一些目数送成4目半、2目半或者半目胜。

  人类水平最高的棋手群体,在Master面前这样漏洞百出,这让一些职业棋手以及棋迷们有些难以接受。

  Master的神秘身份

  Master的身份显然就是AlphaGo的升级版本,我断定没有其它可能。Master在弈城注册为韩国职业棋 手,这是因为AlphaGo胜了李世石后获得了韩国棋院颁发的九段证书。1个月前在KGS天元开局虐杀DEEPZEN的GodMoves很可能也是 AlphaGo,应该是放CPU与GPU较少的单机版到各网站测试。谷歌在11月宣称AlphaGo取得了巨大进步,将于2017年初复出下棋。谷歌 CEO还访问了中国棋院,如果达成与柯洁的第二次人机大战协议不奇怪。谷歌一向有签保密协议的作风,但中国棋院要求谷歌放出单机版进行公开测试也正常。

  谷歌对AlphaGo有信心了,放出来测试不怕被找到bug,主动或者应邀出来公测是自然的发展,时间也对得上。一个有趣的细节是,参与测试的棋手中,孟 泰龄只获得过一个国内冠军,离世界冠军们水平还差一点,但是他却有机会与Master下了四盘棋。我猜测这是因为,Master和AlphaGo的“人肉 机械臂”操作者都是谷歌论文的作者之一Aja Huang,他经常上WeiqiTV看孟泰龄的节目,是他的粉丝,因此多次邀请他与Master对局。

  也有说Master可能是韩国研发的AI,这个可能性极低。围棋AI的研发是有轨迹的,象腾讯这样参照谷歌论文快速达到很高水平是可以理解的,但是也需要 出来测试找到问题又回头想办法,不太可能闷头研发一出来就天下无敌。而谷歌经过多个版本的升级,确实有这个实力。2016年中,Deepmind在学术报 告上就宣称后续版本能让V18四个子了,又取得了巨大进步。

  Master达成50连胜后并未终止下棋,1月4号上午又继续开战。如果是论胜负,由于Master只选择30秒的快棋,对人类高手来说思考时间不足难以 发挥最高水平。而Master固定地每8秒下一次,时间根本没用完,这是机器天然的优势。人类高手对战时经常选择20秒的读秒,30秒算网棋中时间长的 了,但基本是练习。现在对Master的挑战已经带上了悲壮色彩,比正式比赛气氛还要激烈,野狐围棋的创始人古力九段声称第一个战胜Master的人奖金 10万元。

  由于Master的棋力极高,又不走人类棋手习惯的套路,很多局面都需要强度极大的思考,30秒人类高手实在是不够,会出不少漏洞。因此,如果还是30秒 的棋局,Master的胜利会一直延续下去。有些读秒功夫强的棋手号称快慢棋水平差不多,但那是人与人在一些常见套路中对战。而且读秒功夫强是说后半盘收 束,布局与前半盘如果出现新型,总是得停下来思考,10来分钟都算短的,半小时或1小时以上的长考也常见。


  上图是1月3日柯洁与Master一个战斗告一段落。柯洁花掉了两次读秒(一共就三次30秒)才在左上角的战斗中顶住了。黑吃掉白四子目数不小,白也没有 安定,应该至少是不落后。后面Master也选择了激烈的下法,柯洁只剩下一次30秒,应对不利输掉了。在新型的战斗中,其他棋手基本会被Master打 垮。

  因此,Master对人类最高水平棋手取得50连胜这个事实,不宜过于夸张。围棋AI的算法特性是,搜索空间是指数增长的,几十倍时长只是带来搜索深度增 加几层,几秒钟与几十分钟的搜索可能棋力并无本质提升。增加时长更可能是用于MCTS的随机模拟终局数量,模拟质量能上升一些。达到基本时长保证足够的搜 索深度与模拟的局面数量之后,再增加时间意义并不太大。

  AlphaGo在分布式版本有1202个CPU和176个GPU,比“单机版”的48个CPU与8个GPU数多几十倍,但是对单机版的胜率70%并没有本 质棋力提升。实战证明,Master和刑天思考几秒或者十几秒就有基本的水平了。如果能够战胜“秒下”的AI版本,战胜思考时间更长的版本没有本质的困 难。

  而人类高手群体在这次Master翻牌式的点名测试中全败,表现出了一些过去可能不太重视的弱点,值得好好总结分析。本文从围棋棋艺与“棋机结合”的角度进行技术解读。前面是新闻式的介绍,阅读后面的内容就需要对围棋技术与计算机算法有一定的了解。

  AI杀手锏:价值网络和策略网络

  人类高手下围棋的过程和机器下棋的手段是可以参照的。对于当前局面,人类先直觉产生一些候选点,这对应现在所有高水平围棋AI都采用的深度学习出来的“策 略网络”。机器学习生成策略网络时,参考的就是人类高手的棋局,也有说法是AlphaGo从零开始不参考人类棋局,全部自我强化学习生成策略网络的。这次Master的招数绝大多数都是在人类的候选点范围内的,可以认为高手和Master的胜负不在于候选点的质量。

  人类高手会利用有限的思考时间对不多一些选点进行几步推演,如果必走的直线着数多,有时能推到几十手以后。然后高手们会进行判断,如这个局面“简明”,就 是自己优势可以接受,就这么下了,再狠些能给对手更狠打击的也不去想了。再如判断局面“复杂”看不清,李昌镐会非常独特地尽量避免这种局面,寻找虽然优势 小但是自己能控制的处理办法。也有一些高手会主动将棋局导入复杂局面,发挥自己乱战的长处。

  帮助进行局面的判断的主要手段是“数目”,能确定的地算清楚,李昌镐的贡献就是将数目判断精细化的程度推到了极致,当然现在的高手这方面的水平也上来了。数完目以后,算上贴目后双方会有目数差距,如果在收官阶段差距稍大到两三目以上,结论一般就确定了,胜负已定收拾心情。在布局以及中盘,就要用厚势、弱棋负担之类的来回调整一下,粗粗的给个结论。

  这种结论往往很不精确,不同的棋手判断可能不同,有的喜欢实地,风格是“敏于实地”,或者喜欢外势,风格是“厚实攻击”。高手们有时没法判断了或者想讲清 楚道理,还喜欢用日本道策发明的“手割”法,从公认有结论的局面为基础,改变着手次序倒推,有点数学公理系统的意思。总之,在局面还有很多未确定因素的时 候,人类进行判断的手段就是这些,并不太多。

  这种情况下,人类高手们讨论局面判断的时候有时显得很搞笑的。如果一个局面,下A和下B结果是确定的“下A会比下B亏1目”,那所有高手都会认为A是错招不成立。有时甚至会为了这一目“不能忍受”的亏损进行复杂的大转换,或者否定一个定式。

  人类高手对于有确定结论的东西是非常在意的。这也是多数业余棋手糊里糊涂的地方,下B可以下A好象也行凭感觉来吧,几下就亏掉很多目。但是如果这时有另外 一个选择C,没有办法相对AB给出确定结论,那高手们就会作出“两分”、“双方可下”、“得失不明”、“下C不好控制还是下B”,“下C照顾大局”之类的 模糊结论。但是实际上可能下C比下B要好得多,如果选择B亏的就不是1目了,可能是好几目。


  上图是以前的一个常见小目定式,高手们下过无数盘。但是后来没有人下了!因为实际上这个图黑棋亏大了。双方手数一样,黑还先占角的,但是子力位置偏低,地 和势都不见得有优势,没有体现“先招优势”。现在是这么解释,但是之前为什么一直下?因为理由也并不是那么明显。孟泰龄说,是高手们经过多次实战,发现执 黑一方胜率明显偏低,回头找问题,这才放弃了这个定式。

  这种“集体实战”判断,是网络围棋时代高手们开发出的新办法。说不清,大家就实战来试试,你说两分,我说黑优,水平相当的双方实战100盘如果黑胜了70 盘明显占优,大家还是会同意“黑优”的结论。以前没有网络,职业棋手一年才下几十盘棋,互相交流也少,这种方法就不可行了,往往是个人面壁式的细心体会局 面优劣。现在网络时代,勤奋的职业棋手一年下上千盘网棋都有可能,这种方法不仅可能,甚至发生了有趣的演变。

  高手们为了维持状态,就积极地在网站上下20秒30秒的快棋。这样的结果是,高手们开发演变出了一些大型“套路”。这是因为,如果你偏离套路,一般会吃亏,会通过输棋或者直接讲理判断证明。于是大家都摆套路,提高熟练程度。

  偶而会有高手出“新手”取得效果,于是其它高手们研究试用以后,给出相应的应对,否定这个新手,丰富了套路的内涵。或者同意这个新手成立,形成新的套路, 回头否定老的套路。这样来回否定,对套路的理解确实深了,也可以算是棋艺的进步。但是网棋以及正式对局,就出现了大型套路太多,降低棋局精彩程度的问题, 有时甚至“复盘”到四五十手才变招,围棋有“象棋化”的趋势。

  当然这些套路是有内涵的。一般认为日本棋手水平相对中韩下降,是因为日本棋手战斗力不行,布局看着还行,中盘就被杀得不行了。孟泰龄战斗力与算路与年青棋 手比相对差,但是布局分析却较有信心,经常战胜算路好的对手,在中国等级分能排20多位。他认为日本棋手恰恰是布局水平有问题,对局面的理解落后了。因为 中韩棋手积极在网络上对战,或者在国家队里交流最新“套路”内涵成果,所以其实掌握了很多先进知识。

  日本棋手还是老套路,也不注意这些最新成果,还是按老的理解走吃了亏也不知道,经常就是“安乐死”。想要挣扎下出过分的招数,战斗力又不行,输得更快。

  中韩高手们集体实战验证套路的办法,其实暗合了AlphaGo强化学习生成价值网络的方法。AlphaGo会进行几千万次的高质量“自我对局”,比高手们的对局加起来都多得多。人类高手们反复实战能判断几十个局面都不容易,AlphaGo的训练流水线却能生成几千万个局面,用于价值网络的训练。

  价值网络是个和策略网络结构相似的多层神经网络,但是里面的系数不一样,它能对一个静态局面不搜索直接给出胜率,判断谁占优。有了策略网络与价值网 络,AlphaGo不需要搜索都可以下得很好了,对每一招策略网络提供的选点,价值网络给出胜率判断,选择最好的一个选点下就可以了。2016年中 Deepmind说AlphaGo棋力取得突破,就特别说了价值网络取得了巨大的进步。

  价值网络是人类思考中没有的,在谷歌论文之前甚至没有这个概念。从学术角度来说,这可能是谷歌论文最大的贡献,深度学习生成策略网略并非Deepmind 最先提出的。虽然对人类来说有点不自然,但价值网络正是人类可以学习的地方,职业高手们也许能从这个方向上取得棋力的突破,但需要科学的方法。

  人类能通过多次实战、打谱,在脑中形成直觉,看一眼局面就能根据棋形产生一些靠谱的候选点。对人类直觉方便之处在于,候选点有“局部性”,人只要看局部就 能有“关键”点的直觉。有时一些照顾全局的棋招会被夸张地称为“耳赤妙手”。人类自然倾向就是局部观察,眼睛看画面时自然会聚焦在一小块地方,棋手思维也 是如此。高手要逆着这个直觉观察全局,多找一些候选点。范西屏是中国古代水平最高的棋手之一,李步青对其它人这样形容他的棋艺:“君等于弈只一面,余尚有 两面,若西屏先生则四面受敌者也”,这是说范西屏全局观念特别强。

  但这种全局观念毕竟难于描述,成了高手中只可意会不可言传的“大局观”。人类对局部的精确描述却不断取得进展,局部定式发展出成千上万个,甚至有《定式大 全》这样的书。局部数目的手段与技术也不断发展,目数价值精确到几分之一。大局观方面却一直没有太大的进展。甚至一些90后年青高手认为,布局不要太看 重,花时间想也想不出什么东西,随便搞搞套路或者下一些过得去的着手应付下,大量时间要留在中后盘决战。

  从实战来说,这也确实是胜率较高的选择,你脱离套路未必占优,就算花大量时间琢磨布局选点便宜了两三目,后面时间不够了随时崩盘,因为人家后面肯定会来 “搅”。孟泰龄主要的获胜方式,就是利用一些年青棋手忽视布局这个特点,他精心研究布局,多次在局面判断中取得优势,后面拼了老命把优势守下来。但是由于 年青高手们冲击实在太厉害,往往顶不住,泰哥也无法取得战绩的突破,只能维持住一流高手的地位。

  职业棋手面临着训练内容与方法的革命

  职业棋手们水平取得突破,也和一些围棋道场的严格军事化训练手段分不开。冲段小棋手们做海量的死活题,认真进行大量的对局,严谨计算的态度与人脑中“策略 网络”的质量都不错。死活题有上千年的历史积累,多年的实战提供了大量素材,还有不少高手喜欢创作死活题。日本的《发阳论》吸收了中国古代棋书中不少素 材,韩国《天龙图》是实战积累。死活题素材不缺,有道场、有网络,高水平实战锻炼的机会不缺,套路相关的信息流传也快,职业棋手群体水平迅速进步。

  但是,各道场并没有多少“局面判断”的题目积累,这是一个非常严重的技术性缺失。如果棋手群体有意识地在这方面努力,是有办法可想的。可以集体讨论一些局 面,取得一致,拿出来做为习题或者“训练样本”。也可以在网络上组织实战,主动对一些局面统计胜率,获得宝贵的数据,达成一致。可以积累大量网站与实战高 水平棋谱,对一些同类开局进行大数据分析。这样的分析程序已经有了,但主要是正式比赛棋谱不够多,如果能和对弈网站联手,增加海量棋谱,局面统计分析就更 为精确。

  现在有了高水平围棋AI,就更为方便了。高水平围棋AI,以后一定会普及。如果放开AI数据后门,就能看到局面的具体胜率,甚至价值网络对局面的估值。甚 至也可以把训练好的价值网络单独抽出来做成小程序帮助分析。这样,应该可以象死活题一样积累出海量的局面判断素材。和以前不一样的是,这些局面判断题有参 考答案,或更为权威的答案,并不仅仅是思考题。

  职业棋手们可以去盯着这些局面判断题,进行全局思考。为什么这些局面是黑优不是白优?为什么和自己的感觉相反?为什么AI或者统计结论明显,自己却没有感 觉?这样仔细琢磨,一定会想出一些道理。琢磨久了,甚至作出判断的速度都会加快。AI的策略网络和价值网络的神经网络是相似的,人类既然能够有“策略网 络”的直觉系统,同样在人脑中训练出“价值网络”应该是可行的。

  从人类等级分最高的柯洁的棋艺来看,他可能就有这样的特点。柯洁的算路并不是最深的,数目也不是最强,也不是妙手一堆,当然这些都不弱。柯洁自称最强的是 判断,有时直接判断不用数目就知道是亏了还是赚了,是通过4000多盘网棋成长起来的。很可能柯洁在数千盘对战中不自觉地注意了对脑中“价值网络”的训 练,形成了自己领先其余高手的局面判断能力。这些棋手与棋迷认为,柯洁是下得最象AI的棋手。

  职业棋手群体可以把这个过程工程化,主动收集有教育意义的反直觉局面,棋手们主动接受类似机器学习的“人脑学习”训练,形成直觉一样的局面判断能力。在高 水平AI的帮助下,这个过程应该可以迅速缩短,不用非常辛苦地积累素材。对各个道场的培训水平而言,局面判断素材以及使用AI帮助训练的能力,会成为重要 因素。国际象棋AI早就这样帮助人类棋手训练了。

  这种局面判断,天生就是全局的。这将使人类高手的围棋思维,从之前的局部定式、局部数目、局部战斗,飞跃进步到全局判断、全局战斗,这将是吴清源大师穷毕 生之力思索并力推的“21世纪围棋”、“六合围棋”时代。吴清源2014年去世了,没有看到围棋AI的革命性进展。但是在围棋AI的帮助下,这个时代将不 可避免的到来,人类高手围棋水平将再次取得突破性进展。

  而对于Master这样的围棋AI,也不要过于恐惧。它的秘密武器就是以价值网络为基础的全局思维,新手不断,明快取舍。AI的价值网络是基于全局的,所以全局配置稍有不同,它的着手就会发生变化,远远的几个散子人类看不到什么,AI却能考虑到下出新手。

  人类高手30秒计算时间过短,碰到的又是完全不同的棋路需要计算,自然容易出错被狠狠打击。甚至有些着手,人类高手们“不知道AI是什么意思”,过了一些招数才发现吃大亏了。有些上阵的高手甚至由于恐惧,对自己失去信心,明显技术变形,早早就大败了。

  人类由于生理条件的限制,需要更多的思考时间。从探索围棋技艺的角度,要求更多思考时间是合理的。如果在布局与中盘战斗中领先或者顶住了,收官时因时间紧 张出小错败北,这并不可怕。但是人类必须在布局方向选择、接触战的局面判断中更多地引入全局思维,接近AI的水平,才有机会顶住。

  AI由于MCTS算法天生的弱点,很大可能仍然是有缺陷的,太复杂的局面会出现算路问题,或者局部死活出现漏算,而这是人类的优势。人类的语言逻辑推理能力,局部严密算路是有优势的!对于复杂局面,人类可以总结归纳主要矛盾,设计出组合手段,推理出可行次序。而AI由于MCTS的框架特性,什么都要算到终局,不可能什么都模拟到,大量算力浪费在非关键的逻辑里,发生漏算是可能的。当然前提是人类高手需要顶住,不能让AI随便就领先10几20目,那AI可以简明地控制局面,对手毫无机会。

  如果人类高手能够学习价值网络的全局思维主动训练,取得棋艺的飞跃进步,再给以足够的思考时间,和AlphaGo以及其它水平不断进步的高水平AI对战还是有胜机的,而这对围棋发展的意义极为重大。Deepmind开发出AlphaGo这样的革命性围棋程序,将确定无疑地引领围棋艺术再一次的飞跃进步,人类棋手也会获益非浅。
附件: 您需要登录才可以下载或查看附件。没有帐号?注册

返回列表