返回列表 发帖

从《有远神》一文 探讨围棋AI分析的研究规范(完结篇)

本帖最后由 天马行空 于 2021-2-17 12:40 编辑

作者:崔灿CGF55258  2021-02-17


(三)样本的选择

就在前几天,国家广电总局发文禁止了英国广播公司(BBC)在中国境内的播放权。这一禁令的起因是今年一月,BBC新闻台推出了一系列“重返湖北”报道,将武汉拍成了十八线小县城。在BBC的镜头里,天空永远是“雾霾灰”,场景总是显得杂乱无章,或是给人一种压抑感。与武汉人民日常的认知完全不同。

为什么会这样呢?BBC的视频并不是虚构的,但精心选择了拍摄地点与时间,并使用长焦、倾斜镜头等构图手法营造“偷拍”的印象,再通过剪辑,调色等后期处理,来暗示其想要表达的观点与评价,潜移默化的影响观者的判断。

很明显,通过不同的样本的选择,可以轻而易举的改变人与事物的评价。以第一篇中出现过的“当湖十局”吻合度表格为例,我们既可以选择双方全局吻合度超过60%的第五局,再从中挑选一段吻合度70%多的片段来“证明”范施棋力高超,也可以选择双方全局吻合度不足45%的第八局,再从里面找一段连续N步不吻合的片段来“证明”二人只有业余水平。多年以来“崇古派”与“贬古派”的争论,本质上就是在不断上演这样的“证明”。现在来看,这两种方法显然都是不可靠的,争论自然也不会有任何结果。


一些古棋支持者认为,评价棋手水平要看发挥好的棋谱,而不是看下限。因为“鹰有时飞得比鸡要低,但鸡永远飞不到鹰的高度”。这种类比存在概念上的谬误——“鸡永远飞不到鹰的高度”是因为不同物种的生理条件限制,就像“人不能飞”一样。但“吻合度”的高低是一个概率事件。就像一个著名理论说的那样——只要有足够多的时间,猴子也能打出一部《莎士比亚》。

可能有人又要说了,猴子能打出《莎士比亚》只是纯理论层面的思辨,在现实中根本不可能发生。问题是上手与下手之间的差距,远比人与猴子之间的差异小得多,如果用AI吻合度来衡量的话更是如此。

下面同样以古谱为例。在范西屏的让子谱中,有一位对手叫卞立言(1747-1827)。此人出生于弈学世家,年少时即有神童之名,曾受业于范西屏、施襄夏。在范施二人去世后,享誉东南棋坛数十年,晚年编撰了《弈萃》两卷,是研究清代围棋的重要史料。

卞立言留下的棋谱很少,仅有范西屏授五子谱9局,收录于《海昌二妙集》中。从卞范两人生卒年份来看,这9盘棋应该是卞立言年少时所弈。9盘棋的结果是卞立言3胜6负,显然两人对局时棋份没有偏倚,此时的卞立言就是范西屏让五子的水平。

然而笔者使用上面那位古棋支持者的方法(20B权重+40B胖权,10K计算量),“证明”这位卞立言绝对不是一般的神童!


在这盘受五子的对局中,黑方的全局吻合度达到了66.9%,与范西屏的72.2%相比,也就是几步棋的差距。即便是在40B胖权下,黑方的吻合也有61.7%。而且,“这是在布局基本不吻合的情况取得的”。从进入中盘的38到158这一百二十手,黑方的前三吻合度高达85%,40B也有78.3%!两种权重的第一吻合度也双双过半。这是不是“证明”了,古代的五手也接近现代职业水平呢?能让其五子的范西屏,又该是什么水平呢?


《海昌二妙集》中也收录了不少施襄夏的授子谱。上面的这位李临庄,笔者未能查询到究竟何方人士,受七子与施襄夏对弈两局,一胜一负。在这盘胜局当中,此人全局吻合度同样达到了66.3%,40B胖权下的吻合度仍然有63.2%。从18到68这五十手,黑方的前三吻合度高达88%!第二吻合度达到了80%!第一吻合度虽略有逊色,但也将近半数。这是不是“证明”了,被施襄夏让七子差不多也是现代职业水平呢?那么施襄夏又该如何评价呢?

说不定真有狂热的古棋支持者,看完上面两段论证,将范施二人奉为棋神。那么下面来看一个现代围棋的案例。


笔者在某网络对弈平台上随便找了一位用户。将近两万的总对局数与近期的战绩,都表明这位爱好者的水平稳定在网络4d-5d之间。就是这样一位普通的围棋业余爱好者,在第一页棋谱中就有一盘全局吻合度达到了66.9%的对局,超越了之前弈客某篇文章中的车泽武和小林光一!并且在40B胖权的检验之下丝毫不逊色,全局吻合度仍然有65%。(用户与棋谱都可以在该网络对弈平台上搜索到。笔者引用信息时未征求该用户意见,如果这位爱好者看到了本文,在这里为冒昧打扰表示歉意)


与上面的分析方法类似,这盘棋从111至194手,白方的吻合度高达85.7%,在40B胖权之下也有80%!这还只是笔者随机找了一位爱好者,第一页随意翻到的一盘棋谱。由此可见,按照某些古棋支持者的使用的方法,想要“证明”什么就能证明什么。所有具备一定水平的业余爱好者,只要对局数量足够多,都可以通过看AI吻合度上限成为“职业水平”,以及在对局中上演“神乎其技”。从这一点来看,围棋AI不愧是业余棋手的福音(笑)。建议有条件的爱好者都试一试,用AI找到自己的高光时刻。


上面这段是笔者的真心话,绝不是什么反讽之言。不光是业余棋手,就连远离职业一线多年,久疏战阵的笔者自己,也通过围棋AI找回了自信。


从本系列第一篇发表时,就有棋友在评论区质疑笔者评价古谱的资格,要求笔者拿出自己的棋谱用AI遛遛,看看能不能超过周陈这盘棋。笔者在网上搜索了一下自己2015年(围棋AI超越人类之前)最后一次参加职业升段赛的棋谱,按照前面那位古棋支持者的方法,轻松找到了全局吻合度超过75%的一盘棋。从28到138这一百多手,笔者吻合度更是高达87.3%!


2015年全国围棋升段赛(20B权重+10K计算量 黑67.0%白76.5%)


(《有远神》一文周陈之局 20B权重+10K计算量 黑69.2% 白67.5%)

是不是笔者也“神乎其技”,“远超小林光一”,或者拿着围棋AI穿越了呢?

为了避免再犯第二篇同样的错误,这里还是强调,对棋手水平与发挥的任何评价,都属于个人感受。笔者无意干涉任何人使用任何棋手的任何对局及片段,阐述自己的观点。不过,“以单一样本来推断总体水平”这种方法的可靠性如何,想必大家已是心中有数。

那么,想要通过围棋AI分析数据评价“古今之争”的话,究竟应该选择哪些棋谱,才能尽量避免抽样误差,保证结果的有效性呢?

先来考虑一下当代棋谱的选择。首先要把围棋AI超越人类(2016年3月)之后的棋谱全部摈弃,彻底规避围棋AI对人类棋谱,尤其是布局的影响。接下来的事情稍微有点麻烦,到底应该选择哪些棋手,来代表当代围棋的整体水平?对手和赛事又如何权衡呢?特意挑选数据的后果,前面我们已经看到了。

幸好,我们对比的主要目的是评价古代棋手水平,不需要对当代棋手进行一一分析。笔者想到了一个自认还算合理的样本:世界大赛(除亚洲杯之外)的决赛棋谱。

为了避免人为操纵数据,样本确定为从1988年世界围棋比赛创立开始,至2016年3月之前的全部决赛棋谱。(详见下图,表内时间以决出冠军的最后一局为准)


从1988年第一届富士通杯开始,到2016年AlphaGo横空出世,刚好走过了100个赛事(部分赛事头衔是否算得上“世界冠军”,中日韩三国棋院的认定并不统一。这里按照中国棋院的认定标准)。除去钱宇平弃权的91年富士通杯之外,总共270盘棋。

需要说明的是,日韩规则下的棋谱与中国明清规则相同,都没有单官的记录(有些棋谱还包括“见合”的单劫),而中国规则与应氏规则下的棋谱则标准不一。例如第一届应氏杯决赛,前三局都按照日式习惯未记单官,但第四局却完整记录了全谱,其他一些赛事也有这种现象。看来记不记单官,完全看当时记录员的心情。为了比较时统一标准,同时尽可能减小随机性的影响,笔者对所有记录了单官的棋谱,在AI分析之前进行了单官的去除(包括“见合”的单劫)。

相信这270盘棋,能够代表当代围棋水平的高度。

与当代棋谱相比,古谱选择起来更为困难一些。“当湖十局”的入选应该不会有任何异议,但其他棋谱又该如何抉择呢?中国的古棋大多没有注明对局时间,也无法确定棋局的重要程度。棋手们的对局总数未知,笔者也没有能力收集所有的古谱。不过,下面两条原则想必能够得到公认:

一、样本应该排除受子谱。原因很好理解——在让子棋的优势程度下,许多时候无法界定“过分”与“缓手”到底是不是坏棋,从而影响棋手的棋力评价。

另外根据笔者的测试,在让子棋中,无论是让几个子,黑方的AI吻合度普遍都不低。经常还能超过白棋,例如前面那盘施襄夏授七子谱。可能的原因有“让子棋的贴身肉搏更多”,以及“由于许多时候黑棋怎么下都可以,稀释了AI一选的计算量,让二、三选点更容易通过20%的门槛”。至于上手的吻合度不高,自然是太多“考验性”的下法不被AI认可了。

当然,这只是基于现有观察的推测。基于“有多少证据说多少话”的原则,笔者不否定让子棋吻合度的真实性。只是认为让子棋的环境,可能会放大“吻合度”的缺点,在严谨的研究中,与分先对局的现代棋谱直接PK不太合适。虽然古代互先对局也不贴子,但在围棋AI眼中,即便是两子的优势,与让先相比差别也是巨大的。此外,中国古棋的整体风格,也在一定程度上淡化了先行优势。

二、以清代黄、范、施三人的棋谱,作为中国古棋水平的代表

无论对中国古棋水平的评价如何,围棋在中国古代经历了一千多年的发展,竞技水平在清代达到了巅峰。这一史实相信没有什么争议。同样,在清代棋手当中,无论是从文字评价还是棋谱来看,黄龙士、范西屏与施襄夏这三人是当之无愧的巅峰。评价中国古棋水平时,应当以这三位的棋谱为代表,其他国手的棋谱作为参考对照。

如果测量的结果违背了“黄、范、施在中国古代棋手中水平最高”这一史实,那就要考虑样本有没有选择偏颇,研究方法有没有缺陷,或者AI吻合度究竟能不能有效的衡量棋手的水平。在以上环节都不存在问题的基础上,再提出具有说服力的新解释。一个实验结果明显与常理不符,在宣布发现了新大陆之前,研究者一定会小心检查自己实验每一个步骤,这是科研工作的常识。(为了防止误解,再次声明这是笔者对自己文章的标准,决不强求任何人,请勿对号入座)

确定了以上两点,下面就是如何避免人为选择数据的问题。与当代棋谱不同,中国古棋并无任何现代意义上的“赛事”,不能根据对局的重要程度,选择特定系列的棋谱。同时,由于无法集齐全部的古谱,难以实现通过某种方式的“抽签”来满足随机性。而且就算笔者宣称是随机抽取,也不可能让反对者信服——谁知道其中有没有做手脚?因此,笔者再次寻找具有公信力的第三方标准,最终确定的样本选取范围,是陈祖德九段的《中国围棋古谱精解大系》

陈祖德九段在中国古谱研究方面的地位无需多言。这套从书是陈老生前最后一项工作,为中国围棋留下了一份宝贵的财富。笔者冒昧猜测,以陈老一生的经历与资源,但凡流传下来的名家古谱,大致不会有看不到的吧。

另外,由于陈老出书的心意,是为了介绍中国古棋中的风景,想必对棋谱进行了一番精挑细选,能够出现在书中的古谱,应该都属上乘之作了。从书中的评语也可见一二。


也有一些陈老特意声明棋局质量堪忧的,例如黄龙士与徐星友的对子谱。这一类的棋谱样本将不予采纳。(实际上,由于黄徐对子谱不足十局,出于统一标准的原因也会将其放弃,见后文)


这种挑选会不会造成样本的偏差,导致对中国古棋整体水平的高估?的确存在这样的可能性。但考虑到与其对比的当代棋局全部为世界冠军争夺谱,尽管有“争棋无名句”的说法,笔者还是认为古今两边的有利因素至少可以抵消,当代棋手应该不会吃亏。

(会不会是古棋吃亏?这种说不清楚的事情,吃点亏不是更好么——如果这样古棋的数据都不逊色的话,结论中就更有说辞了)

下一步是具体棋谱的选择。


这套丛书总共十四本,体例是一本书十盘棋(黄徐对子谱除外)。为了保证所有棋手的样本数量一致,排除授子谱之后,最终的棋谱选择是:

《黄龙周虎》、《过周十局》、《梁程十局》、《当湖十局》、《最后两高峰》。总共五十局。

徐星友没能入选有点可惜。但他的对子谱不是上升期与黄龙士,就是六十多岁时与程兰如的对局——这十盘棋还有“众人合谋群殴”等故事演义。为了避免年龄因素影响棋手评价,笔者尽量挑选国手们全盛时期的棋谱。


第五、六本范施二人与梁程之间的对弈,也因为这一原因忍痛割爱。至于过百龄,年龄方面实在是没办法了,他的数据权当参考。

一位棋手十盘棋的样本是不是太少了?笔者经过权衡,觉得与挑选棋手不同年龄段的棋谱相比,还是现在这种办法争议更少。小样本有相应的统计学处理方式,能够尽量减小与“真实”结果的差异。

(四)古今棋谱数据对比

先放五十盘古谱的数据。(KataGo v1.50 20B官方权重,古棋规则,每步棋1000K计算量。编号按照《中国围棋古谱精解大系》中的顺序)




吻合度排名与原有观念完全相符——黄范施三人高出其他国手一档。


范西屏的吻合度高于另外两人,但并不存在统计学意义上的显著差异。三人代表的清代古棋巅峰水平,AI吻合度在53.7%-58.9%之间(P=0.05)。

下面是当代部分。

由于当代世界大赛决赛的棋谱涉及三种规则,以及不同时期的贴目变化,笔者查证了不同赛事贴目变更的时间后,选择按照“规则与贴目”相同的原则自动跑谱。20B+1000K的计算量,笔者的电脑平均一天能跑三局不到,270局棋谱目前尚未完成……因此,下面的数据只是截至某一时间节点的统计:1988——2000年间全部世界大赛决赛棋谱,共92局。


(KataGo v1.50 20B官方权重,各自赛事的规则,每步棋1000K计算量。编号按照之前表格统计的时间顺序,对应到具体棋局)


1988——2000年间世界大赛决赛棋手水平,AI吻合度在53.9%-56.2%之间(P=0.05)。

结论:以20B权重+1000K计算量下的AI吻合度来衡量,中国古棋顶尖水平(黄范施)至少与1988-2000年当代棋手顶尖水平没有显著差异。

至于2000年之后的当代棋手水平是否会有所提高?尽管是个大概率事件,但最终的当代棋谱全部数据,与目前的数字应该不会有太大差别。只要样本足够多,就难以逃脱数学与统计学的规律。笔者当初错误下载了六局不在《古谱大系》上的梁程棋谱分析,上面梁程十局的数据再加上这六局,两人平均吻合度的差别都没有超过1%。

当然,上边这个结论只是单纯的数据分析,在结果的讨论部分,还有许多补充工作需要完成。例如:
“古棋规则下只有20%的训练量,与当代规则对比的合理性?”(需要用具体古谱案例表明,20%的训练量不影响AI的判断力)
“古棋着法的质量,在多大程度上受到子彩影响?”(应该影响有限,但需要论证一下)
“对比的棋谱手数不相等,对比数据是否会有偏差?”(根据此前ELF对人类棋谱的分析,任何时代的棋手吻合度都是布局最低,官子阶段最高,随着手数增加而上升。这里需要增加固定手数或特定阶段的对比)
“有必要分析一下当代业余棋手的棋谱,用来验证AI吻合度的信效度”(目前的打算是270局完成后,按照与前面相同的原则,选取一些晚报杯的棋谱加入对比分析)
“古棋代表选择的黄范施,当代棋手为什么选择的是决赛,而不是最终的冠军?”(需要说明样本中的胜局与负局数目差别太大,吻合度可能会出现偏差)
“当代世界大赛有时间限制,读秒声可能会造成着法质量下降”(应该影响有限,但需要论证一下,同时说明古棋也不是无限思考)

以上每一条场外因素,都有可能增强或削弱结论的可靠程度。不过就像前面几篇所说,“AI吻合度”本身就有一些难以避免的缺陷,结论不可能完全无懈可击。能做到没有严重的逻辑缺陷,有几分证据说几分话这两点,应该就是个符合学术规范,能被大多数人认可的研究了。

(笔者已经申请了今年杭州棋院的“棋文化研究”课题,最终的研究结果应该会在年内发表。这一系列文章的目的,也是想就“AI分析的原则”这一部分整理思路。在知乎的评论区,就有人指出国外已有一些使用AI分析,评价不同时期国象棋手水平的学术研究,令笔者受益匪浅。“围棋AI分析的研究规范”系列就此告一段落,感谢棋友们的批评与建议。)
附件: 您需要登录才可以下载或查看附件。没有帐号?注册

返回列表