返回列表 发帖

胡耀宇:通过星阵自对弈,聊聊怎么解读AI

原创: 耀宇围棋  2019-03-28

大家好,这段时间在准备CCTV杯快棋赛,所以没有及时更新内容。

今天上午第一轮,发挥得不错,顺利晋级。

但下午第二轮,输在了优势下的松懈。该出招时不出招,反受其乱。

虽然有些遗憾,但作为人来说,下棋本来就是一种修炼和超越自我的过程。所以就当付学费买个教训,下盘棋争取做得更好便是。


今天,我要跟大家聊的这盘棋,对弈双方都不是人,而是一个人工智能自己在跟自己下棋。

大家看到这,可能会觉得这应该是AlphaGo的左右互搏自对弈棋局。

这次还真不是,我现在手上的这张棋谱,是星阵围棋的团队给我的,对弈双方是中国围棋人工智能星阵和自己。

提起星阵,大家应该都知道,它首先实力了得,去年“中信证券杯”世界人工智能大赛中,虽然绝艺未参赛,但它超越了AQ和ELF后夺取冠军,其含金量也很足。这充分证明了星阵的实力。

其次,星阵是一位特别与众不同的AI,当其他AI在优势局面下进行“剪枝”开始退让,不求多胜只求稳胜时,它却不这样干,无论多大优势,只要它认为能行的棋,就以最强手出击。颇有人类围棋的影子和味道。

我手上这张棋谱,是星阵每步棋花了30秒思考的左右互搏对局。

以前都是跟大家分享我对于人类之间或者人与AI之间对局的感想。

今天我尝试着和大家分享一下我如何来看AI自对弈的对局。

我会从三个方面聊起:

1:如何看待AI在布局上推荐的选点?

2:AI在中盘时重视什么?

3:遇到大型对杀时,如何验证AI是否正确?

下面让我们一起进入这盘星阵自对弈的精彩实战对局:

1
布局篇


星阵首选A点,胜率43.1%;若选B点,胜率42.4%

图1:我一下子不知道该怎么称呼两位“对局者”,就叫它们星阵A和星阵B吧。

现在星阵B白26飞起,右上角的流行定式告一段落了。布局则还在进行中。

这时候黑棋大致有两个选点:

A点挂角:这步棋是最容易想到的一手,它威胁着白左下星位一子的同时,还扩张了右边至右下黑三角阵势的规模,使之更加立体化。

B点挂角:这步棋意在破坏上方白三角阵势。

这两点到底哪个好呢?

可能有些棋友会回答:“胡老师,你看星阵首选的是A点,而且A点的胜率比B点多0.7%的胜率,那就选A点吧。

在回答这个问题前,我先跟大家分享一下自己对这两点的分析。

我们先来看A点挂角:


图2:黑1挂角,白棋对此有不少应法,我们就先假设白2小飞吧。

对此黑棋其实也有不少下法,但为了方便大家理解,我就按黑3大飞拆回来看。

此时右边至右下黑三角阵势由于黑1、3的呼应,升级成了立体阵势。立体阵势的高效就在于:“无论你打入哪一边,另一边必然会通过攻击自然成空”。

所以这时候白棋若直接深入黑阵未必是良策,因此白4左上小飞守角先确保左上角扎实,同时与右上白角呼应形成了阵势,再配合上左下白角,也形成了一个立体阵势。

如此进行的话,棋局将形成黑白互围大模样的格局。

那么B点挂角又会是什么情况呢?


图3:黑B位挂角,最需要担心的就是白1、3尖顶了跳,利用白上边的子力优势来攻击黑棋(白1若夹击,黑可点三三转身取角)

但此局面下,黑棋还是可以从容应对的:

1:黑4有充分的拆边空间。黑4是可以拆三而不是拆二。若只能拆二的话,黑棋不仅局部很局促,对白棋也构不成威胁,那这个破坏白阵的效率就不高了。

2:黑4拆三不仅是防守自己,同时威胁着右上角白棋大块,因为接下来黑A位飞的话,白右上大块未安定。

3:由于黑4拆三威胁着右上白角,因此等于间接的缓解了白C位动出手段的压力,由于白右上角未安定,白C位动出就需要掂量掂量了。

以上看似独立的三点,其实都由一个重要条件联系起来,那就是右上白三角大块的强弱问题:


假设白棋A位多颗子

图4:比如白若是在右上角有颗A位的子,那情况就完全不同了。

首先由于右上白角多了A位这颗子后已经彻底安定,黑4拆三不仅对白棋构不成威胁,反而遭来白C的残酷打入。所以黑4基本上只能委屈的在D位拆个小二。

其次由于右上白角已经彻底安定,因此黑4这颗子对右上白角产生不了任何威胁和牵制,所以白今后随时可在E位动出白圆圈一子,并且不用考虑后顾之忧。

那如果是这样,黑B位挂角的价值顿时锐减。因为黑所得仅仅是单纯破了白棋上边的一些空,不仅下一步对白棋毫无威胁,自身还落下一块孤棋,将来慢慢还债。

所以黑B点挂角之所以在星阵的选点范围内,是因为星阵早看见右上白角是未安定之形

以上是我对图1中AB两个选点的分析,下面我们再来回答一下图1的开始问题:


图5:虽然星阵认为A点挂角是它的首选,并且胜率高于B点挂角0.7%。

但这两个点对我来说,真的很难去以绝对的好坏来看待。

我认为两个点均可选择。

但是,我会留意两个地方:

1:按理说,A点相对于B点空间更广,价值应该更大,但为什么星阵觉得其中差别不是很大?
  这其中有个很重要的先决条件就是白右上角还未安定。一旦黑B位挂角后能占到C点逼住白右上角,白右上角的不安定因素顿时显现。是这个先决条件,让黑B位挂角的价值得到提升。

2:AB两点所导致的战略格局是大不相同的。A点很容易形成双方互围模样的格局;B点则很容易形成双方小块分割的细棋格局。
    因此虽然我无法判断AB两点的优劣,但我会根据对手的风格,来决定我的选择。
   对手若是酷爱战斗型棋风,那我很可能就会选择B位挂角,将局面导入小块分割的细棋格局,让对手的力量发挥不出来;若对手擅长小刀割肉的细棋格局,那我就会选择A位挂角,将局面引入双方互围模样的复杂格局中,避开对手的长处。

第1点是通过提出疑问来整理选点背后的逻辑,并通过逻辑来推断出AI所给数据背后的”所以然“来。

第2点是理解AB两点的特性,并为己所用,根据不同的对手制定不同的策略。

我们可能经常会遇到这样的情况:“明明这是AI推荐的招,怎么自己实战中一运用就碰壁了?

那是因为虽然局部状态没变,但此局部周围的先决条件改变了(就像图4多了A位这颗子),那你依样画葫芦自然要出问题。

若只看胜率的变化,当你遇到下一盘不同的局面,还是两眼一抹黑;但若是慢慢学会通过胜率来观察局面条件变化的不同,你就等于掌握了应变的能力,可以经得起实战的考验。

关于实战星阵黑27到底选择了A点还是B点?大家可以去看文末的棋谱。

2
中盘篇


图6:现在我们再来到白76冲的局面。左下战役似乎刚刚结束,黑三角大块和白三角大块虽然还未安定,但由于两块棋的出头都还挺畅,根据地也随时可搭出两只眼来。因此焦点似乎应该转向别处:


图7:既然左边双方暂时看不出啥死活危机,那么黑1在右边夹攻白三角一子,顿时成了此局面下的香饽饽。

黑1不仅是利用了右上黑三角背景的厚味扩张了阵势,使得三角标识处基本都要姓黑了;更威胁着白三角一子的眼形,使之没有根据地。

一旦白三角一子仓皇往外逃窜的话,黑可利用攻击之便,将右边和右下角顺势实地化。不得不说,黑1这步棋是眼见的绝好点。

但是,星阵同学却不这么认为:


星阵首选黑77,胜率44%;A点不在选择范围内,胜率37%。

图8:星阵同学下出了黑77二路托,这步棋看着往二路下一手,到底啥意思?

此招位置虽然看着很低,但其用意则很深远。我们先从技术层面来分析:


图9:面对黑77(黑三角一子)二路托,白第一感是A位二路扳反击,但黑B二路长之后,白棋发现白1接和黑2成见合之势。

白1若是粘上,黑2粘上后,不仅自身连络,还将白三角两子收入囊中。收获巨大。

那么白A若是不反击呢?


图10:面对黑77(黑三角一子)二路托,白既然无法反击,那就只能白1粘回,这样黑2二路退回。

这样相比黑2直接小尖,等于黑三角爬和白1粘先手交换到了。

这下先手交换获利很大:首先使黑圆圈大块彻底净活了;其次使白三角大块的根据地一只眼都没了(白A位扳做不出眼)

这就是黑三角二路托在技术层面的厉害之处。

下面我们跟着实战走,再从价值层面分析一下黑77这步好手:


图11:实战星阵B是白78先扳一下然后再白80位粘,对此星阵A黑81断死白78一子。

粗粗一看,星阵B不是将白78一子送死吗?

它是有意为之的,与图10相比,星阵B就是想通过弃掉白78一子,获取A位二路挡的先手。这样可确保今后B位二路虎能搭出一只眼。

那么黑77二路托的价值到底有多大呢?

请大家接着看下图,我们来讨论一下黑77的价值:


图12:在图7中,我们说到了第一眼就发现黑1价值太大了,但是当黑1落下时,几乎所有的AI,第一感都指向了白2二路小尖。

我们就拿此图和图11的实战比较一下,看看图11中黑77二路托的价值是多少。

我们先来看实地价值:

此图白1小尖后,白局部实地大致约3目;黑局部实地大致约1目。

而图11的实战结果,白局部实地0目,而黑局部有6目。

这一出一入,实地价值相差约8目。

我们接着来看附带价值:

此图白1小尖后,白局部基本净活;而黑局部则只有半只眼。

而图11的实战结果,黑局部彻底净活;而白局部只剩下半只眼。

通过以上分析,我们大致有个结论:星阵黑77二路托的实地价值并不大,但附带价值巨大!

这附带价值事关黑白两块的劳逸问题,此图是别人安定了,自己漫漫长路;而实战则是自己彻底安定了,别人却开始漫漫长路。

由此可见,在事关双方的劳逸问题上,不管是星阵还是其他AI,都极为重视。

我小时候学棋时,经常听到两个围棋名词:急所和大场。

都说急所的价值要比大场大。

大场好理解,就是布局时的布阵要点。

但急所是什么,我那时老搞不明白。

星阵这黑77二路托,就是急所。

实地价值是眼见可量化的,谁见谁爱。

而劳逸问题也许暂时看不到现实的利益,却很可能对棋局今后的发展产生巨大而深远的影响。

如果你无视劳逸问题而一味只看实地价值,那随着棋局的进展,你先前捞的实地非但不保,甚至还要倒贴很多。

在这一点上,如果你仔细去观察,就会发现AI一直都在提醒我们。

AI的很多招法看似颠覆了我们的认知,但那只是形式上的改变,在围棋的根本规律上,其实从未改变。相反,它的出现,更验证了这些围棋基本理论根基的牢固性。

3
死活篇


白选A点,黑胜率42.2%

图13:最后一节,我们来看看本局最精彩的地方。

星阵A和星阵B厮杀了满盘后,局势依然很胶着。

果然是左右互搏,实力不分伯仲。

星阵A黑163冲,准备利用白三角大块还未在A位连络而获取便宜。对此星阵B若正常在A位连络,将是白棋略优的局势,胜负将取决于官子。

但星阵同学天生就不是为了稳赢而剪枝的AI,它喜欢追求最强手。

于是星阵B同学就来了:


图14:星阵B同学没有在B位救回白三角数子,而是跑去白164提劫。

这步棋的意图就是:“你要敢B位吃我三角数子,我就A位提劫将你右边阵势打穿并反杀你;你若听话,乖乖在A位粘上,那我再B位连络,这样白164先手提一下劫总便宜了。”

这星阵B真是太猛了,冒着白三角数子被吃的危险,就为了那白164轻轻的先手提个劫。

但星阵B同学就是要在这里针锋相对:“你星阵A敢黑163威胁我,我逃命前也要白164恶心一下你”。

真是一位性格刚烈的AI。

对此星阵A也不是好惹的:


白166=A

图15:白164提劫的时候,本是同根生的星阵A那能忍受A位粘回的屈辱,它闭着眼睛就先黑165将白三角数子切断干掉再说。

这样白三角数子共25目的实地价值就被黑棋收进口袋。

这边损失了,那边肯定要补回来,白166接着提,黑右边原本有近40目实地的阵势,很可能不仅被破,还要面临被白反吃的危险境地。

关键就在黑167堵住后这个劫争上了。

白168开劫后白170扑是绝对的一枚劫材,对此黑171必须应。

这时候按正常的逻辑来说,你白棋找完劫材,下一步肯定是A位接着提劫与黑棋打这个超级劫争。

但星阵B却意外的没提劫:


图16:星阵B没有在A位提劫,而是突然白172冲一下后白174单勾一个。

它的目的很明显,就是想让黑棋B位跟着应,它再C位接着挤,黑D位断。

但这不是在浪费自己的劫材吗?

本来A位提劫,这些先手交换都可以当劫材来使的。

我当时看到这就纳闷了。再顺着星阵B的用意往下推理,唯一的解释就是它这串交换后,下一手可确保E位断吃黑三角一子。

可是黑三角一子的价值太小了,它老盯着这颗子干吗?

唯一的解释就是它想先手加强白左上角。

可是左上白角不是无大碍吗?黑棋最严厉的手段就是F位扳了后H位一路连扳强行做劫。但这个劫一是黑棋打输了很损,二是右边还在超级劫争呢,黑棋哪有功夫在这搞这么勉强的劫?

一时不明白星阵B到底是什么用意。

直到我看到了星阵A下出黑175这本局的最后一手,才恍然大悟:


图17:黑175是本局的最后一手棋。

这步棋粗粗一看,以为是摆错地方了,但细细一品,却发现此招妙不可言:


黑175=黑1

图18:黑1一路侵袭白角后,白2若是普通二路长一个,黑3以下可利用黑三角子力的掩护,从一路暗渡陈仓。

黑7渡过后,白角搭不出两只眼,与中央白子一起阵亡。

在这个过程中,白2有最强应对:


图19:白1扳是最强应对,对此黑2一路夹是妙手。

然后白3、5祭出“苦肉计”,是白棋唯一可以避免净死的组合好手。

以下黑A提、白B倒虎、黑C挡、白D扑劫,白局部虽可逃过无条件净死,但也非常惨:

这个劫,首先白棋之前目数已经亏损巨大,黑棋完全无忧;而更重要的是,这个劫是白棋不利的两手劫,也就是说,白棋需要再花两手棋才能净活,这劫打起来太累了。

星阵B一看此图虽可免死,但活罪难逃,于是就爽快认输了。


图20:现在我们再回头来看星阵B白172、174的招法,就能明白它的用意了:

星阵B当初选择白164(白三角一子)提劫的时候,还没看到左上角黑D位的鬼手。等看到的时候,已经来不及了。

于是它赶紧白172、174亡羊补牢,期待黑棋暂时没看见,在A、C位跟着应,这样白左上角因为多了E位的断吃黑三角一子的手段,就可逃过一劫。

但它忘了星阵A跟它是同一个“人”,它看到的手段,星阵A也能看到。

总的来说,由于黑随时有D位的鬼手,星阵B白164反击是不行的。

虽然白164后的变化还是很复杂,比如白170这枚劫材特别损(白方块和黑方块交换),让黑圆圈4子无气紧之忧。白170可以找别的劫材。但总的来说,白棋还是极为危险。

这里我也用其他AI看了一下,它们也是一开始都没看到黑D位的鬼手。随着往下摆几步,它们才慢慢看到。

在与大家一起欣赏到黑175这步绝妙手的同时,我也想与大家分享一个自己的心得:

在复杂死活对杀,生死攸关的地方,不要不加思索就把AI的第一感认为是正解。因为往往在这种地方,AI很可能开始是没看到手段的。

这时最好自己先思考验算一下,然后再看AI的胜率和推荐招法,若是有疑问,可以试着再往下摆几步,这时候很可能AI的胜率会发生很大的反转和变化。

总而言之,自己需要先思考,这样一是可以验证AI的推荐是否靠谱;二是思考过程本身,就有利于你更好的吸收AI的“养分”。

最后做个总结:

本文通过星阵的自对弈对局,我从布局、中盘、死活三个方面与大家分享了我如何学习AI的心得体会。

其实三点殊途同归,都指向一点:我们该如何吸收AI给予我们的“养分”?

或者更深入的说,我们该如何挖掘和提炼AI提供的数据和“答案”背后的意义?

希望本文可以对大家有所帮助和启发。


感谢星阵团队提供给我们精彩的星阵自对弈棋谱,我一直对星阵很感兴趣,因为它有自己独到的三处特点:

1:在低资源下保证星阵的训练水平:

星阵团队只有AlphaGo团队1/100的计算资源,于是他们就在“节流”上做文章。在深度强化学习的过程中,星阵从各方面下功夫,使用少量资源依然可以让星阵保持着良好的竞技状态,并且在世界大赛中取得优异的成绩。

2:除了显示胜率外,还可以用相对量化的目差来衡量当下局势的好坏:

现在我们能看到AI提供的形势判断,都是胜率的显示,但是胜率有时候还是相对抽象,让人捉摸不透。而星阵除了显示胜率外,还提供了双方目差的数据,这样让我们多了一个参考来评估当下形势,而且这个目差数据可以让我们更量化直观的了解当下的局势状况。

3:可在贴6目半和7目半之间随意切换,不影响胜率的判断。

在直播日韩举行的世界大赛时,往往会遇到这样的问题:明明对弈规则应该是黑贴6目半,但其他AI都只能当作黑贴7目半来判断形势。
   这样有个问题就是若到了最后官子阶段还是细棋局面,这1目的误差,很可能会对胜率产生很大的影响。并影响到我们对当下局面的判断。
   但星阵可以做到在黑贴6目半的情况下进行判断,这能让我们更客观的了解当下局势的好坏。

在写这篇棋评期间,我与深客科技CEO,星阵围棋主创人,毕业于清华大学计算机系的金涬先生见面沟通了很长时间。

我们探讨了棋局,查看了星阵的后台数据,并且聊了从2016年AlphaGo横空出世后,到如今所发生的各种事情。

金涬给我这位人工智能领域的初学者,普及了很多有关AI方面的知识:

原来深度卷积神经网络是AlphaGo能战胜李世石的关键武器。

价值网络和快速走子网络原来曾经一起共事,但随着价值网络的不断进步,快速走子网络逐渐淡出了一线。

策略网络居然真的可以模拟我们人类的直觉,使得价值网络的计算效率大大提高。

至于深度强化学习,原来就是AI可以在脱离人类提供的棋谱后,依然能通过自对弈来制造数据供自己学习的过程。

当最后我们聊到有关AlphaGo的第二篇论文时,金涬谈到了他创建星阵的初衷:

“完全照着AlphaGo第二篇论文的内容去做星阵,当然也可以而且还更轻松,但这样似乎就没啥意思了。因为这就算做到极致,也就跟Alpha Zero一样。
   所以总还是想在这基础上,做一些创新。这样一来比较有趣,而且可以给人们带来更多的价值和帮助。
  二来,我认为Alpha Zero并非极限,所以想看看用别的途径,有没有可能超越Alpha Zero。虽然我们资源有限,但还是值得去尝试。”


祝愿他能成功!

文末是这盘星阵自对弈的全谱:


附件: 您需要登录才可以下载或查看附件。没有帐号?注册

返回列表