返回列表 发帖

小论世界围棋等级分

来源:知乎 不会功夫的潘达 2016-06-15

伴随着阿尔法围棋-李世乭的五番棋大战,一个名为“goratings”的等级分进入大众视野。到目前为止,围棋界并未有官方的世界等级分。因此,出于比较阿尔法围棋与各路人类高手强弱的需要——以及网络媒体吸引眼球的刚需,goratings等级分在各大网络媒体上广为流传。随之而来的则是不止的争议:“阿尔法狗一共只下了十盘棋,排在第二位真的科学吗?” 本文将简单梳理一下网络上对围棋等级分的相关疑问,以及将goratings等级分批判一番。

本文看上去很长,不过多为引用列举的数据,第一遍阅读时可以跳过。

一、ELO等级分

ELO等级分制度是指由匈牙利裔美国物理学家Arpad Elo创建的一个衡量各类对弈活动水平的评价方法,是当今对弈水平评估的公认的权威方法。被广泛用于国际象棋、围棋、足球、篮球等运动。网络游戏英雄联盟、魔兽世界内的竞技对战系统也采用此分级制度。

——维基百科

——维基百科

具体的公式不重要。我们只需要知道,我们可以依据两名棋手的ELO等级分推断他们之间的对战胜率期望。 以下以nmcgw版等级分为例。去年年末,梦百合杯决赛前,柯洁的等级分是2820分,李世乭等级分是2678分。代入公式,得到柯洁对李世乭的(单局)胜率是69%。取K=16,柯洁胜李世乭一盘得5分,败则扣11分。相应地,李世乭赢一盘得11分,输一盘扣5分。可以看出,战胜强手可以得到大量的分数,而败于强手扣分不多,反之亦然。如果样本足够大,那么ELO等级分就能忠实地反应棋手的实力。

二、中国棋院等级分

中国棋院等级分采用的就是ELO体系。

这是中国棋院公布的2016年5月末的等级分(部分)。

其实资深棋迷扫一眼此图就能发现棋院版等级分的问题:过去一年正式对局数不超过十局的孔杰,仍然高居第33位。情况相似的还有位于第61位的俞斌。按照一般的标准,这两位棋手应该被列入不活跃棋手名单。

这只是棋院版等级分问题的冰山一角。我们知道,计入等级分的对局不止有国内比赛,还有国际比赛。那么非中国籍棋手的等级分怎么办呢?

国家体发(委)从1995年1月1日起试行围棋等级分制,具体细则摘要如下:一、 在围棋等级分启动阶段,原则上按棋手一次性确定各自的等级分。具体标准为:九段2560分、八段2520分、七段2480分、六段2440分、五段2400分、四段2360分、三段2320分、二段2280分、初段2240分。二、经过计算确定的棋手等级分,由国家体委列表于每年1月1日和7月1日各公布一次。必要时可适当增加公布次数。三、外国棋手参考等级分:2600分:小林光一、赵治勋、武宫正树、林海峰、藤泽秀行、大竹英雄、加藤正夫、曹薰铉、徐奉洙、李昌镐、刘昌赫。2560分:日本、韩国现有九段;小松英树。2520分:日本、韩国现有八段;富士通杯、东洋证券杯、真路杯、亚洲杯、中日擂台赛、中韩对抗赛、中韩新锐对抗赛等赛事出场的五段以上的棋手。外国棋手的参考等级分仅供国内使用,与国内棋手的等级分同时公布。

这是以前的制度,也就是赋予其他对手一个参考分数。不知道什么时候,中国棋院等级分里的外国棋手分数也开始了相应的动态变化,这样就科学了很多。

三、nmcgw版等级分

相传,中国棋院等级分是由一人手动录入到excel里算出来的。事实上,每个月公布的公示版等级分与正式分数总是有几盘棋的差异(统计遗漏),这似乎证实了上述传言。

由于日本棋院和韩国棋院都将棋手的对局记录及时公布在官方网站上,统计等级分自然不成问题。然而中国棋院......似乎没有考虑过公示对局记录——这是一个被批评了不知道多少年的问题。在2016年,这样的工作,对于一个拥有两千万爱好者,数百名注册职业棋手的运动的组织,本应是天经地义的事情,然而中国棋院始终没有做好。中国棋院坚持以内行领导内行,本是好事。只是,老棋手在某些方面的思维似乎跟不上这个时代。

不过,如果有人有足够的耐心,手动统计所有的正式对局,那么在中国棋院等级分的基础上,计算出世界等级分也并非难事。这就是nmcgw版等级分。

nmcgw版等级分始于2011年1月,初始等级分采用中国棋院版当月的等级分。其他设定包括:

1.统计一切公开成绩的赛事,原则是只要对局双方有争胜负的动力,对局的结果就能反应双方的相应实力。因此像野狐道场内部训练赛之类的赛事也计入本版等级分。

2.一年对局大于或等于12局的棋手方参与排名。

3.新初段的等级分一般设为2240分,除非是活跃的有等级分业余棋手入段,则继承之前的分数。

原贴由于tom棋友论坛改版,已经丢失。2013年-2014年的数据在九歌论坛的相应帖子,2015年1月以后的数据在tom论坛的新贴。

截止2016年6月12日,世界围棋职业棋手等级分前100名:

排名 棋手 棋院 段位 等级分  增减  短期分 中期分 中期胜局 中期局数 中期胜率
1  柯洁   中 9   2792   -18  2752  2816   89   111   80
2  朴廷桓  韩 9   2753    7  2710  2733   63   89   71
3  李世石  韩 9   2723    1  2731  2715   59   89   66
4  芈昱廷  中 9   2708   17  2781  2673   59   87   68
5  时越   中 9   2708    5  2657  2675   57   88   65
6  柁嘉熹  中 9   2686   -3  2740  2662   59   87   68
7  井山裕太 日 9   2685    3  2652  2756   43   51   84
8  金志锡  韩 9   2665   -7  2686  2614   54   84   64
9  朴永训  韩 9   2660   -2  2648  2689   47   66   71
10 姜东润  韩 9   2658    0  2659  2654   44   67   66
11 陈耀烨  中 9   2656   10  2605  2614   46   76   61
12 周睿羊  中 9   2653    1  2602  2635   45   75   60
13 唐韦星  中 9   2652   -7  2669  2637   56   91   62
14 江维杰  中 9   2641   -2  2615  2611   43   70   61
15 黄云嵩  中 5   2637    2  2592  2645   63   92   68
16 连笑   中 7   2637   -3  2601  2604   46   77   60
17 王檄   中 9   2632   -5  2687  2642   29   45   64
18 彭立尧  中 5   2632   -12  2631  2598   49   79   62
19 古力   中 9   2629   -2  2636  2616   39   73   53
20 李东勋  韩 5   2626   -3  2668  2609   53   83   64
21 申真谞  韩 5   2624    3  2668  2687   58   75   77
22 辜梓豪  中 4   2624    7  2666  2643   67   93   72
23 李钦诚  中 2   2624   18  2624  2605   56   92   61
24 元晟溱  韩 9   2621    4  2728  2633   50   67   75
25 檀啸   中 7   2607   -6  2508  2584   33   60   55
26 范廷钰  中 9   2604   -2  2609  2577   39   68   57
27 童梦成  中 5   2601   22  2643  2581   55   79   70
28 范蕴若  中 4   2601   11  2594  2575   63   96   66
29 崔哲瀚  韩 9   2596    4  2480  2574   40   66   61
30 罗玄   韩 6   2594    7  2649  2551   35   60   58

这是我认为,到目前为止,最为全面和科学的围棋等级分,出自一位棋迷之手。

四、goratings等级分

回到我们开头说的goratings等级分。goratings等级分采用WHR算法。

Whole-History Rating (WHR) is a new method to estimate the time-varying strengths of players involved in paired comparisons. Like many variations of the Elo rating system, the whole-history approach is based on the dynamic Bradley-Terry model. But, instead of using incremental approximations, WHR directly computes the exact maximum a posteriori over the whole rating history of all players. This additional accuracy comes at a higher computational cost than traditional methods, but computation is still fast enough to be easily applied in real time to large-scale game servers (a new game is added in less than 0.001 second). Experiments demonstrate that, in comparison to Elo, Glicko, TrueSkill, and decayed-history algorithms, WHR produces better predictions.
大意就是WHR算法是ELO算法的变种,但更加准确,能更好地反应棋手实力。

理论上来说,WHR算法的效果和ELO算法应该差不多。实际情况如何呢?nmcgw对nmcgw版等级分和goratings等级分之间的差异做了统计,结果如下(截取部分):

截止2016年5月31日,Go Ratings排行榜和本版对照棋手排名:

RT排名  中文名  RT等级分 本版等级分 本版排名
1   柯洁      3628   2810    1
2   朴廷桓     3576   2746    2
3   李世石     3544   2722    3
4   时越      3528   2703    4
5   芈昱廷     3519   2691    5
6   井山裕太    3519   2683    7
7   朴永训     3512   2662    9
8   金志锡     3511   2672    8
9   柁嘉熹     3503   2688    6
10  连笑      3497   2640    16
11  周睿羊     3481   2651    12
12  辜梓豪     3476   2617    23
13  姜东润     3475   2659    11
14  王檄      3475   2637    17
15  陈耀烨     3467   2647    13
16  唐韦星     3460   2660    10
17  黄云嵩     3457   2635    18
18  李钦诚     3455   2605    26
19  江维杰     3450   2643    15
20  李东勋     3450   2629    20
21  古力      3450   2631    19
22  彭立尧     3448   2644    14
23  申真谞     3435   2622    21
24  洪性志     3430   2561    44
25  檀啸      3428   2613    24
26  元晟溱     3424   2617    22
27  崔哲瀚     3422   2592    28
28  范廷钰     3416   2606    25
29  古灵益     3407   2587    34
30  谢尔豪     3404   2594    27
31  范蕴若     3403   2590    30
32  童梦成     3396   2579    37
33  杨鼎新     3394   2580    36
34  安成浚     3390   2588    31
35  许映皓     3389   2546    48
36  陶欣然     3389   2564    43
37  李志贤     3386   2551    46
38  孟泰龄     3383   2578    38
39  邬光亚     3381   2591    29
40  邱峻      3381   2533    59
41  尹峻相     3380   2567    42
42  金庭贤     3378   2549    47
43  李轩豪     3376   2585    35
44  李映九     3375   2574    40
45  陈时映     3374   2514    83
46  卞相壹     3374   2576    39
47  睦镇硕     3371   2539    54
48  郭闻潮     3371   2518    80
49  赵汉乘     3369   2588    32
50  罗玄      3368   2587    33
51  金明训     3367   2493    98
52  周贺玺     3362   2570    41
53  胡耀宇     3362   2536    57
54  孙腾宇     3359   2539    53
55  杨楷文     3359   2526    69
56  申旻埈     3356   2531    61
57  李喆      3356   2533    58
58  朴珉奎     3355   2501    93
59  陶忻      3353   2468   119
60  张立      3350   2491   102
61  安国铉     3348   2544    49
62  丁浩      3348   2459   123
63  高尾绅路    3347   2521    76
64  许家元     3347   2492    99
65  山下敬吾    3345   2533    60
66  李昌镐     3340   2492   100
67  河野临     3340   2528    67
68  王昊洋     3340   2522    75
69  尹灿熙     3338   2502    90
70  安冬旭     3338   2531    62
71  姜儒泽     3338   2525    72
72  蔡竞      3336   2518    78
73  朴正祥     3336   2476   111
74  韩尚勋     3335   2529    65
75  陈贤      3332   2540    52
76  白洪淅     3329   2537    56
77  金升宰     3329   2526    70
78  朴进率     3327   2497    95
79  舒一笑     3327   2373   222
80  孔杰      3327   2517    81
81  党毅飞     3326   2542    50
82  闵祥然     3324   2514    84
83  廖行文     3324   2558    45
84  朴文垚     3323   2539    55
85  胡跃峰     3321   2501    92
86  陈浩      3318   2420   167
87  於之莹     3314   2435   150
88  国宇征     3314   2492   101
89  钟文靖     3313   2530    63
90  余正麒     3310   2451   133
91  谢赫      3310   2526    71
92  金起用     3310   2508    85
93  金显灿     3309   2504    88
94  金世东     3309   2484   108
95  一力辽     3308   2457   125
96  张涛      3307   2524    73
97  韩雄奎     3305   2456   127
98  佟禹林     3305   2431   158
99  周鹤洋     3303   2508    86
100  刘星      3300   2527    68

误差超过10名的棋手,已经手动用下划线标出。不比不知道,一比吓一跳。前九名非常和谐,但从第十名开始,两版之间就开始出现差距。第五十名以后的棋手,两版之间的排名差距更是大到夸张。

差距来源于何处呢?我们以2016年5月31日,nmcgw排名51位,goratings排名126位的夏晨琨为例。根据nmcgw版等级分,夏晨琨中期对局记录(即过去一年内)是40胜25负。而查阅goratings等级分,夏晨琨同期对局记录为11胜21负。

......

怎么能差这么多?原来,goratings等级分的数据全部来源于http://go4go.net网站。由于该网站数据不全,特别是对于关注度不高的比赛缺乏记录,相应地,等级分在五十名之后的棋手,排名误差可以非常的大。像11胜21负和40胜25负这样的误差,足以说明goratings等级分不足以作为可靠的参考。

五、世界等级分

作为一项竞技,围棋有统一的世界等级分本应是自然的事。然而现实中,中韩日台三国四地棋院为了利益互相扯皮(看看中日韩台四个棋院四个不同规则的争议就可见一斑),统一等级分事实上遥遥无期。在此背景下,法国人Remi Coulum自创的goratings等级分渐为人熟知,并被媒体和民间接受。然而,goratings等级分由于数据严重缺失,事实上相当不可靠。反而是中国棋迷手动统计的nmcgw等级分更为可靠。

未来,围棋世界想要自给自足,必然要进一步地职业化,摆脱现有的五花八门的不职业的制度细节。建立统一的等级分体系势在必行。除了ELO或类ELO体系的等级分以外,另一种思路是类似网球的积分体系,以各赛事排名为依据计算积分。@高飞龙 在中国围棋究竟整体在国际上处于什么样的水平和地位? - 高飞龙的回答 答案中采用的就是这样的思路。这当然也是可行的,只是围棋世界赛事正赛名额有限,这样的排名若正式化,恐怕对上升期的新棋手并不友好。

无论如何,中国棋院都应当正视等级分中存在的问题,进一步改进中国棋院版等级分,并及时公布所有职业对局记录。这是为了世界等级分的建立做准备。要知道,韩国棋院的裴太一博士已经发布他的世界等级分有很多年了。如果毫无作为,中国棋院将来在世界等级分的协调上恐怕会失去话语权。
附件: 您需要登录才可以下载或查看附件。没有帐号?注册

返回列表