围棋统计学(1)：AlphaGo Zero进化史

本帖最后由天马行空于 2018-7-4 13:57 编辑

2018年5月27日棋友文采

全部数据全部来源于弈客鹰眼的分析。采用LeelaZero，ELF权重，GTX 1080Ti单卡，固定每步分析30s。

在《关于刘超疑似AI作弊事件，蘑菇的最后一文》文中，蘑菇大致介绍了如果利用胜率数据来进行分析。以下是用到的方法原理的太长不看版（虽然还是很长）：

1. 胜率趋势曲线：反应一局棋的走势，曲线平滑度与对局者水平、棋局激烈程度正相关。

2. 胜率变化曲线：反应一局棋每手棋和AI判断的差异，水平低和棋局激烈，会导致峰变多变高。

3. 平均胜率差异与方差：与每手棋发挥的稳定性、对局者水平以及棋局激烈程度相关。发挥越稳定、对局者水平越高、局势一边倒，都会让双方这两个值变小。

4. 吻合度：与AI招法的吻合度，可以作为作弊的判定标准之一。

以上述四个数据，可以建立相当多的数学模型，来进一步分析。本期希望通过探讨AlphaGo-Zero进步过程中，不同时期的20盘棋，来进一步探讨这些数据的用途。

一、胜率趋势分析

这是20局棋胜率趋势图的合集，1-20局的顺序按照从左到右、从上到下的顺序排列。所有的胜率趋势图，均来自于弈客鹰眼自动生成。

Zero自战20局胜率趋势图

第一张图是AlphaGo-Zero的第一局对弈，懵懵懂懂的尝试反应在胜率图上就是激烈的波动。

Zero自战第一局胜率趋势图

放大一下观看，请自行体会。

可以看到，在水平较低的时候棋局进行的反复较多，胜率即便到80%以上，也会有各种逆转时刻。随着水平的提升，只有两种情况：① 一方缓慢的提升胜率，达成一盘艰苦的完胜；② 胜率围绕50%剧烈波动，一方在最后时刻险胜。并且，在较高水平下，从未出现高胜率被翻盘的情况。

对优势局面的把控能力，是水平高低的重要体现。这一点，胜率趋势图可以给出一定的反馈。

二、统计学参数

弈客鹰眼给出了20局棋，总计40个数据点的平均胜率差异与方差。

Zero自战20局统计学参数

做平均胜率差异-方差散点图，为了方便展示，纵横坐标均作了对数处理，并做逆序坐标。取x=2，y=10做参考线，将图分割为四个象限。

Zero自战20局统计学数据散点图

图中右下角色度带，按照红-蓝-绿的颜色渐变，标注不同对局的数据点，红色端为训练早期，绿色端为训练后期。由于坐标轴区间限制，上图中无第一局的两个点：(1269.77, 29.25 ) 与 ( 1281.29, 29.6 )。可以看到，随着水平的提升，数据点逐渐从左下角第三象限向右上角第一象限移动。进入到中后期之后，数据点又逐渐向左平移，最终稳定在大约 ( 20, 1.8 ）附近。

究其原因，我们可以认为在达到某一个较高水平之前，棋力因素占据了首位：棋力与平均胜率差异和方差呈负相关，水平越高平均胜率差异和方差越小。在达到之后，棋局的激烈程度占据了主导。可以预料，在达到一定水平之后的AlphaGo Zero与分析用的ELF相比，每手棋胜率的差异并不会很大。在之前胜率趋势图中，也可以看到训练后期的AlphaGo Zero自战对局胜率围绕50%波动十分激烈，这是导致方差略微变大的关键因素。

AlphaGo-Zero水平增长曲线

反应到上图上，数据点向右上角快速移动的过程，可能是前期较为快速的增长过程。达到上图拐点之后，数据点开始在某个中心点附近稳定下来。

平均胜率差异数据拟合

做对局编号-平均胜率差异的散点图，并做数据拟合。结果表明，符合公式：

对局编号-平均胜率差异拟合公式

其中A=1.9354，B=4.2535，k=0.4509。R^2=0.96679，相关度非常好。拟合公式表明，在本方法下，平均胜率差异存在一个极限值A=1.9354，标准差σ=0.21794。

方差数据拟合

做对局编号-方差的散点图，并做数据拟合。结果表明，符合公式：

对局编号-方差拟合公式

其中A=22.49，B=4345.5406，k=1.24818。R^2=0.95209，相关度非常好。拟合公式表明，在本方法下，方差存在一个极限值A=22.49，标准差σ=10.54696。

两项极限值的存在，与水平后期增长大幅放缓相容，提示可能存在一个训练的极限水平。此外，我们可以认为AlphaGo Zero在本方法下，是以 ( 22.49, 1.9354 ) 为中心的分布，分布可能符合高斯分布或者泊松分布，需要进一步数据的验证。

三、吻合度分析

弈客鹰眼给出了20局棋，总计40个数据点的吻合度。

Zero自战20局吻合度

做对局编号-吻合度的散点图，并做数据拟合。

吻合度数据拟合

结果表明，符合公式：

吻合度-方差拟合公式

其中A=61.94971，B=-82.72247，k=0.32915。R^2=0.90839，相关度还不错。拟合公式表明，在本方法下，方差存在一个极限值A=61.94971，标准差σ=1.28109。结果表明，在本方法下，AlphaGo Zero与ELF的吻合度存在一个极限值，也就是61.95%。只有1.28的标准差，提示AlphaGo Zero与ELF的吻合度是一个比较窄的分布，主要集中在一个非常窄的区间内。

本项吻合度结果也表明了另一个事实，不同AI之间也相似度也并不是特别高。如果吻合度过高，提示被测试对象很可能与分析工具一致。

附件: 您需要登录才可以下载或查看附件。没有帐号？注册

返回列表

围棋统计学(1)：AlphaGo Zero进化史

[收藏此主题] [关注此主题的新回复]

[通过 QQ、MSN 分享给朋友]