返回列表 发帖

观崔灿雄文有感(一):围棋AI教师爷,暂缓!

作者:时年  2021-02-16


春节前,职业棋手崔灿五段以拙作《惊:一度爆表AI的晚清一局棋,“有远神”有多神?》为靶,连发《从有远神一文,探讨围棋AI分析的研究规范》(上中),“探讨围棋AI分析的研究规范”(以下简称崔文)。笔者受宠若惊,这里简单声明一下,笔者只是个普通的围棋棋迷,并不靠围棋养家吃饭,在围棋上投入的时间和精力很有限。所以,棋力低微的我,和拥有职业五段称号的崔灿相比,对AI给出的变化图,看得不如崔灿透彻,也没什么不好意思承认的。

粗粗看了崔文,一时之间没有完全看懂,暂时搁置了。说实话,大过年的,走亲访友图个高兴,谁愿意静下心来写篇回文?但是,崔文(中)最后提到:“学术研究中的“证明”是一件很严谨的事情,逻辑与观点要经得起推敲,一知半解之处绝不以讹传讹,自欺欺人。”感觉这句话还是说得挺重,既如此,不回复好象不礼貌。地球人都知道,中国是礼仪之邦,讲究投桃报李,礼尚往来。崔文内容丰富,数据翔实,笔者感想多多,今儿先聊三个粗浅话题,其他的想法等崔灿五段全文发出再说。

一、现阶段围棋AI还没有教师爷

我们的祖先曾经创造了领先世界一千多年的辉煌文明,惜乎鸦片战争以后,落后于西方。1909年日本四段棋手高部道平来华,中国棋界无一能敌,当时高手全部被降为让子身份。几年后,传统座子围棋在中国消失殆尽。中国开始学习日本围棋。在历史的滚滚洪流中,中国传统座子围棋命运深刻地诠释了什么是成王败宼。近年来,随着大国崛起,中国职业棋手在国际赛场上连取佳绩,普通棋迷才有底气相信,我们的祖先很聪明,在围棋棋艺上不会比外国差。或许,这也是一种民族自信吧。那么,在中国有着两千年历史的座子围棋,以黄龙士、范西屏、施襄夏为代表的国手,曾经发展达到什么样的高度,众说纷芸。AI的出现,给棋艺水平评估提供了一把标尺。这把标尺怎么使用,也就是崔文所提到的“研究规范”,是个新事物。大家知道,AI没有情感,只提供冰冷的数据,研究人员只有也只有抱着一个冰冷的心,不偏不倚,才有可能正确解读AI数据。科学的态度是研究的基础。当然,人是不可能没有情感的,研究中带有个人喜好,也在可以理解之内,重点是结论要经得起科学验证。

回顾人类历史发展,但凡新事物的出现,首先是百家争鸣,取长补短,在争论中逐渐形成统一意见,得出定论。围棋AI的出现,到目前肯定是个新事物,出现百家争鸣、取长补短才符合历史发展规律。

崔文(上)一开始就谈到,“这些研究的规范性如何?是否遵循统计学的相关标准?另外,还有一些更为根本的问题:围棋AI分析数据能否公正的鉴定棋手水平?棋谱数据与分析指标的选择,如何做到不偏不倚,令人信服?”一个高大上的论题抛了出来,顿时令人心生仰高之意。最后以“作为一项严谨的研究而言,抛开计算量空谈吻合度就是耍流氓”一句响亮结尾。作者崔灿,教师爷姿态跃然而出。笔者写了篇谈古代国手的文章,就需要规范,君不见弈客鹰眼已经大面积使用,它们需不需要规范?

崔灿AI教师爷雄文,开篇气势磅礴,颇有凤头之姿;内容精彩丰富,不乏猪肚之藏;停笔收束有豹尾之响,令人回味遐想,果然功力深厚,不佩服还真不行。见贤思齐,笔者才疏学浅,孤陋寡闻,平素不知崔灿大名,借此机会对崔文表示一下仰高之意。久仰之后,该说的话还是得说。我记得慧能禅师说过:下下人有上上智。我这个围棋中的下下人,不敢说自己有上上智,谈谈感想。

围棋AI有教师爷吗?没有,至少笔者没听说谁是公认的围棋AI教师爷。大家都在用自己对AI的理解进行研究,即使水平不到或者研究出现错漏,也没有必要进行苟责。新事物嘛,得有一个认知过程,更何况,围棋AI还在发展进化中。诚如前文所述,新事物围棋AI,没有教师爷,无论是谁,千万别有这样的自信。别忘了,AI是科技的产物,而科技这个领域,职业棋手并不擅长。

二、方向比方法更重要

中华文化博大精深,留下许多警世真言。南辕北辙的故事大家都知道,驾车方向错了,驾车的方法和手段越是高明,得到的结果越是差的老远。崔文对拙作《有远神》的评点,恐怕南辕北辙了。

Katago大约是目前普通棋迷能使用的最强开源围棋AI,据说,20B权重,10K计算量下,人类已经难求一胜了。我曾在某Katago群文件里看到一个小视频,100K计算量让10K计算量二子且胜了,这是什么概念?不妨自己想想。因此,笔者以为,在当前条件下,就人类竞技而言,超高计算量研究人类对局,意义不大。打个比方,测量人体身高,用米作单位足够,用千米作为测量单位,于实际意义不大。当然,有达人有AI强机,追求超高计算量下,棋局更好的下法,这是在探索棋局的最优解了,那是另外一回事,因为AI想到的变化图,人类在实战中能想到十分之一,就已经难能可贵。

笔者的《有远神》一文立意十分清楚,周小松自评黑218手“有远神”,笔者目的是就这一自评进行验证,所以对局部进行了AI复盘,最初采用20b权重20K,虽不强,但是已经超出当下人类水平。笔者是依据人类竞技情况来决定使用的计算量的,同时对“有远神”三字是否成立也是依据人类的评判标准,用米(20K计算量)为测量单位而非公里,测试周小松的自评是否合理。Katago40b胖权100k的计算量目的是为了验证20k的计算结果,但是笔者分析之后意外的情况发生,40b胖权的评分高过了20b权重20k,所以笔者不得不对每一个冲突的着手进行分析。笔者在文中实事求是说到:“尽管周小松认为218‘有远神’但是Katago40bc384认为218不简明,只是第4候选点。”说白了,笔者以为,对于人类竞技来说,黑218到258手,当得起“有远神”三个字。

所以,并笔者并无意全面评价陈子仙、周小松二位大国手的棋力,如果说有所暗示,也仅限于此局局部表现的出来的而已。那么崔文对本文的过度解读为评价棋力,笔者只能敬谢不敏。也许原文中“爆表”一词让崔五段有所联想,但“爆表”,也是无法否认的事实。

其实按笔者的经验,即使用Katago20b20k的分析结果,也已经是超高分了,即便不用40b胖权验证,以人类的角度给个“有远神”的评价都不过分。然而40b胖权的分析结果只能说是一个惊喜,崔灿五段口口声声认为这个现象是因为20b的计算量不够,殊不知很多棋谱20b20k的得分都是低于40b胖权的,之所以称为反常,也是基于此。Katago20b20k分析此局不够,但这仅仅是个例,对绝大多数棋局是够的。这里涉及到AI评分的原理,AI的吻合度就是以AI为标尺,把对局者不吻合的棋挑出来,然后得到吻合的比例。但是这样做的前提假设是AI这个尺子足够长,换句话说AI的水平要远远高于对局者水平才能担当尺子的重任。那么katago20b20k是个什么概念呢?曾有人提出,1600po的计算量量就足以胜世界冠军了。换句话20k的计算量对于人类已经是一个很高的尺子。但是,在以前分析当湖十局的时候,曾出现过20b分析得分低于40b的情况,鉴于此局复杂,笔者才用40b胖权,还特意加上100k的计算量,尺子越长,都是100个刻度,读数应该越低。但是40b胖权100k还是得分高于20b20k,这才是爆表一词的来源。崔灿批评20k计算量不够,难道笔者不知道吗?不然为何提出“爆表”一词?但这不是崔灿提出要20b1000k才靠谱的理由,因为如果这样,就掩盖了大量20b20k得分低于40b胖权的对局,这个事情崔灿五段难道不知道吗?科研工作还是要做细呀!爱好者的知情权要保护。

退一步说,笔者很好奇对这段局部战斗,20b1000k的分析数据是什么?得分和40b胖权相比孰高孰低?崔文没说,笔者以为,不管崔灿五段对原文怎么理解,这个关键问题不澄清总是不够有力。另外,如果笔者没理解错,崔文既然在第一篇文章中提到应该用20b1000k是规范的。那么为何在第二篇中出现了40b胖权的1000k分析变化图呢?如此自相矛盾不知崔五段是怎么考虑的?结合前面的的吞吞吐吐,这样做的后果会让人产生一些不好的联想哦!大过年的,笔者没有时间去真的用1000k重新分析一遍,以上仅是猜想,诸位莫笑。

所以,崔文由于对笔者原文的过度解读,导致南辕北辙。当然用AI测评棋谱从而鉴定棋力本身是个好事情,崔文提出此点也是善莫大焉。

三、崔文中的一点技术疑问

首先,笔者认为崔文尽管内容丰富,言之凿凿,但是作者很显然混淆了棋谱评价和对局拆解的概念。具体的技术层面,在此先谈一点:陈周此局的233是争议很大的一手,因为这涉及到战斗的方向问题。而且这也是原文中katago20b与胖权有分歧的地方(其实234也是)。崔五段雄辩地指出笔者实战不是坏棋的结论错误,因为实战掉胜率不是3、4个点,而是30点,但是崔五段是用234手的分析图论证的,这就让人感到有些不自然。崔文给出的理由是原文的分析图中尖的变化计算量太少,但是也应该给出233手的分析图才有足够说服力。

为了解开疑惑,笔者重新分析了一下此手,见下图


Katago20b1000k,结果是尖是第二选点,而且与第一选点相差不多,计算量还超出。

看来AI之间也是有分歧的。那么笔者进一步增加计算量。


2000k,除了计算量分布变化,其他没有什么区别。


234手的分析,笔者也学习崔五段先进经验,1000k,发现白棋胜率变为62.7。

那么原文的胖权300k高达70多的得分怎么来的?笔者重新跑一下发现了意外。


300k计算量,黑胜率40.5,也就是白59.5,笔者原来的73再也跑不出来了。观察发现,计算量低的时候确实接近70,但是计算量提高之后就变成这样了。


进行到这里,笔者没有耐心继续了。尽管此图尖的下法计算量较少,但是结合前面20b的结果,笔者仍然认为实战绝非坏棋。那么崔文下降30点的结论是怎么来的呢?当然是和笔者的图比较而来。

这里就出现一个问题,显然由于AI计算有随机性,每次分析结果不会全部一致,这倒也无妨,问题是分析具体一步应该掉多少分,应该用同一次的分析结果,崔文没有给出233时的分析图,只是给出234的分析图然后与笔者的结果相减,这未免太不严肃,对于立意“规范”AI使用方法的崔文而言,此一瑕疵不免大大降低了权威性。当然,我们可以善意地揣测崔五段无心之失,1000k耗时漫长 ,临近春节崔五段也不免应酬,所以并没有坐在计算机前认真观察,事后也没有核实。

最后,笔者要多谈一点:笔者《有远神》一文主旨并不在评定水平,要说真的用于评定水平的是上一篇文章,《AI评聂卫平大局观》,那一篇的计算量也是20k, AI认为聂卫平的布局功力处于时代前列。所以建议崔文的标题改为《从《AI评聂卫平大局观》一文探讨围棋AI分析的研究规范》,否则有文不对题之嫌。

虽然提了些小小建议,但是瑕不掩瑜。我非常希望广大棋友都参与进来,选一些棋谱在同等研究条件下,和“有远神”此局对照一下即可。建议按原文先20b20k,然后胖权100k。当然,只是小小提议,合理的条件是什么,在没有围棋AI教师爷给出定论的时期,这个问题值得探讨,或许,也是崔文的最终目的。

先聊这么多。春节码字不容易,认为好给个打赏;认为差的,不妨踩一下,说不说踩的理由,自便。
附件: 您需要登录才可以下载或查看附件。没有帐号?注册

返回列表