返回列表 发帖

围棋统计学(1):AlphaGo Zero进化史

本帖最后由 天马行空 于 2018-7-4 13:57 编辑

2018年5月27日   棋友文采


全部数据全部来源于弈客鹰眼的分析。采用LeelaZero,ELF权重,GTX 1080Ti单卡,固定每步分析30s。

在《关于刘超疑似AI作弊事件,蘑菇的最后一文》文中,蘑菇大致介绍了如果利用胜率数据来进行分析。以下是用到的方法原理的太长不看版(虽然还是很长):

1. 胜率趋势曲线:反应一局棋的走势,曲线平滑度与对局者水平、棋局激烈程度正相关。

2. 胜率变化曲线:反应一局棋每手棋和AI判断的差异,水平低和棋局激烈,会导致峰变多变高。

3. 平均胜率差异与方差:与每手棋发挥的稳定性、对局者水平以及棋局激烈程度相关。发挥越稳定、对局者水平越高、局势一边倒,都会让双方这两个值变小。

4. 吻合度:与AI招法的吻合度,可以作为作弊的判定标准之一。

以上述四个数据,可以建立相当多的数学模型,来进一步分析。本期希望通过探讨AlphaGo-Zero进步过程中,不同时期的20盘棋,来进一步探讨这些数据的用途。

一、胜率趋势分析

这是20局棋胜率趋势图的合集,1-20局的顺序按照从左到右、从上到下的顺序排列。所有的胜率趋势图,均来自于弈客鹰眼自动生成。


Zero自战20局胜率趋势图

第一张图是AlphaGo-Zero的第一局对弈,懵懵懂懂的尝试反应在胜率图上就是激烈的波动。


Zero自战第一局胜率趋势图

放大一下观看,请自行体会。

可以看到,在水平较低的时候棋局进行的反复较多,胜率即便到80%以上,也会有各种逆转时刻。随着水平的提升,只有两种情况:① 一方缓慢的提升胜率,达成一盘艰苦的完胜;② 胜率围绕50%剧烈波动,一方在最后时刻险胜。并且,在较高水平下,从未出现高胜率被翻盘的情况。

对优势局面的把控能力,是水平高低的重要体现。这一点,胜率趋势图可以给出一定的反馈。

二、统计学参数

弈客鹰眼给出了20局棋,总计40个数据点的平均胜率差异与方差。


Zero自战20局统计学参数

做平均胜率差异-方差散点图,为了方便展示,纵横坐标均作了对数处理,并做逆序坐标。取x=2,y=10做参考线,将图分割为四个象限。


Zero自战20局统计学数据散点图

图中右下角色度带,按照红-蓝-绿的颜色渐变,标注不同对局的数据点,红色端为训练早期,绿色端为训练后期。由于坐标轴区间限制,上图中无第一局的两个点:(1269.77, 29.25 ) 与 ( 1281.29, 29.6 )。可以看到,随着水平的提升,数据点逐渐从左下角第三象限向右上角第一象限移动。进入到中后期之后,数据点又逐渐向左平移,最终稳定在大约 ( 20, 1.8 )附近。

究其原因,我们可以认为在达到某一个较高水平之前,棋力因素占据了首位:棋力与平均胜率差异和方差呈负相关,水平越高平均胜率差异和方差越小。在达到之后,棋局的激烈程度占据了主导。可以预料,在达到一定水平之后的AlphaGo Zero与分析用的ELF相比,每手棋胜率的差异并不会很大。在之前胜率趋势图中,也可以看到训练后期的AlphaGo Zero自战对局胜率围绕50%波动十分激烈,这是导致方差略微变大的关键因素。


AlphaGo-Zero水平增长曲线

反应到上图上,数据点向右上角快速移动的过程,可能是前期较为快速的增长过程。达到上图拐点之后,数据点开始在某个中心点附近稳定下来。


平均胜率差异数据拟合

做对局编号-平均胜率差异的散点图,并做数据拟合。结果表明,符合公式:


对局编号-平均胜率差异拟合公式

其中A=1.9354,B=4.2535,k=0.4509。R^2=0.96679,相关度非常好。拟合公式表明,在本方法下,平均胜率差异存在一个极限值A=1.9354,标准差σ=0.21794。


方差数据拟合

做对局编号-方差的散点图,并做数据拟合。结果表明,符合公式:


对局编号-方差拟合公式

其中A=22.49,B=4345.5406,k=1.24818。R^2=0.95209,相关度非常好。拟合公式表明,在本方法下,方差存在一个极限值A=22.49,标准差σ=10.54696。

两项极限值的存在,与水平后期增长大幅放缓相容,提示可能存在一个训练的极限水平。此外,我们可以认为AlphaGo Zero在本方法下,是以 ( 22.49, 1.9354 ) 为中心的分布,分布可能符合高斯分布或者泊松分布,需要进一步数据的验证。

三、吻合度分析

弈客鹰眼给出了20局棋,总计40个数据点的吻合度。


Zero自战20局吻合度

做对局编号-吻合度的散点图,并做数据拟合。


吻合度数据拟合

结果表明,符合公式:


吻合度-方差拟合公式

其中A=61.94971,B=-82.72247,k=0.32915。R^2=0.90839,相关度还不错。拟合公式表明,在本方法下,方差存在一个极限值A=61.94971,标准差σ=1.28109。结果表明,在本方法下,AlphaGo Zero与ELF的吻合度存在一个极限值,也就是61.95%。只有1.28的标准差,提示AlphaGo Zero与ELF的吻合度是一个比较窄的分布,主要集中在一个非常窄的区间内。

本项吻合度结果也表明了另一个事实,不同AI之间也相似度也并不是特别高。如果吻合度过高,提示被测试对象很可能与分析工具一致。
附件: 您需要登录才可以下载或查看附件。没有帐号?注册

返回列表