来源:知乎 不会功夫的潘达 2016-06-15
伴随着阿尔法围棋-李世乭的五番棋大战,一个名为“goratings”的等级分进入大众视野。到目前为止,围棋界并未有官方的世界等级分。因此,出于比较阿尔法围棋与各路人类高手强弱的需要——以及网络媒体吸引眼球的刚需,goratings等级分在各大网络媒体上广为流传。随之而来的则是不止的争议:“阿尔法狗一共只下了十盘棋,排在第二位真的科学吗?” 本文将简单梳理一下网络上对围棋等级分的相关疑问,以及将goratings等级分批判一番。
本文看上去很长,不过多为引用列举的数据,第一遍阅读时可以跳过。
一、ELO等级分
ELO等级分制度是指由匈牙利裔美国物理学家Arpad Elo创建的一个衡量各类对弈活动水平的评价方法,是当今对弈水平评估的公认的权威方法。被广泛用于国际象棋、围棋、足球、篮球等运动。网络游戏英雄联盟、魔兽世界内的竞技对战系统也采用此分级制度。
——维基百科
——维基百科
具体的公式不重要。我们只需要知道,我们可以依据两名棋手的ELO等级分推断他们之间的对战胜率期望。 以下以nmcgw版等级分为例。去年年末,梦百合杯决赛前,柯洁的等级分是2820分,李世乭等级分是2678分。代入公式,得到柯洁对李世乭的(单局)胜率是69%。取K=16,柯洁胜李世乭一盘得5分,败则扣11分。相应地,李世乭赢一盘得11分,输一盘扣5分。可以看出,战胜强手可以得到大量的分数,而败于强手扣分不多,反之亦然。如果样本足够大,那么ELO等级分就能忠实地反应棋手的实力。
二、中国棋院等级分
中国棋院等级分采用的就是ELO体系。
这是中国棋院公布的2016年5月末的等级分(部分)。
其实资深棋迷扫一眼此图就能发现棋院版等级分的问题:过去一年正式对局数不超过十局的孔杰,仍然高居第33位。情况相似的还有位于第61位的俞斌。按照一般的标准,这两位棋手应该被列入不活跃棋手名单。
这只是棋院版等级分问题的冰山一角。我们知道,计入等级分的对局不止有国内比赛,还有国际比赛。那么非中国籍棋手的等级分怎么办呢?
国家体发(委)从1995年1月1日起试行围棋等级分制,具体细则摘要如下:一、 在围棋等级分启动阶段,原则上按棋手一次性确定各自的等级分。具体标准为:九段2560分、八段2520分、七段2480分、六段2440分、五段2400分、四段2360分、三段2320分、二段2280分、初段2240分。二、经过计算确定的棋手等级分,由国家体委列表于每年1月1日和7月1日各公布一次。必要时可适当增加公布次数。三、外国棋手参考等级分:2600分:小林光一、赵治勋、武宫正树、林海峰、藤泽秀行、大竹英雄、加藤正夫、曹薰铉、徐奉洙、李昌镐、刘昌赫。2560分:日本、韩国现有九段;小松英树。2520分:日本、韩国现有八段;富士通杯、东洋证券杯、真路杯、亚洲杯、中日擂台赛、中韩对抗赛、中韩新锐对抗赛等赛事出场的五段以上的棋手。外国棋手的参考等级分仅供国内使用,与国内棋手的等级分同时公布。
这是以前的制度,也就是赋予其他对手一个参考分数。不知道什么时候,中国棋院等级分里的外国棋手分数也开始了相应的动态变化,这样就科学了很多。
三、nmcgw版等级分
相传,中国棋院等级分是由一人手动录入到excel里算出来的。事实上,每个月公布的公示版等级分与正式分数总是有几盘棋的差异(统计遗漏),这似乎证实了上述传言。
由于日本棋院和韩国棋院都将棋手的对局记录及时公布在官方网站上,统计等级分自然不成问题。然而中国棋院......似乎没有考虑过公示对局记录——这是一个被批评了不知道多少年的问题。在2016年,这样的工作,对于一个拥有两千万爱好者,数百名注册职业棋手的运动的组织,本应是天经地义的事情,然而中国棋院始终没有做好。中国棋院坚持以内行领导内行,本是好事。只是,老棋手在某些方面的思维似乎跟不上这个时代。
不过,如果有人有足够的耐心,手动统计所有的正式对局,那么在中国棋院等级分的基础上,计算出世界等级分也并非难事。这就是nmcgw版等级分。
nmcgw版等级分始于2011年1月,初始等级分采用中国棋院版当月的等级分。其他设定包括:
1.统计一切公开成绩的赛事,原则是只要对局双方有争胜负的动力,对局的结果就能反应双方的相应实力。因此像野狐道场内部训练赛之类的赛事也计入本版等级分。
2.一年对局大于或等于12局的棋手方参与排名。
3.新初段的等级分一般设为2240分,除非是活跃的有等级分业余棋手入段,则继承之前的分数。
原贴由于tom棋友论坛改版,已经丢失。2013年-2014年的数据在九歌论坛的相应帖子,2015年1月以后的数据在tom论坛的新贴。
截止2016年6月12日,世界围棋职业棋手等级分前100名:
排名 棋手 棋院 段位 等级分 增减 短期分 中期分 中期胜局 中期局数 中期胜率
1 柯洁 中 9 2792 -18 2752 2816 89 111 80
2 朴廷桓 韩 9 2753 7 2710 2733 63 89 71
3 李世石 韩 9 2723 1 2731 2715 59 89 66
4 芈昱廷 中 9 2708 17 2781 2673 59 87 68
5 时越 中 9 2708 5 2657 2675 57 88 65
6 柁嘉熹 中 9 2686 -3 2740 2662 59 87 68
7 井山裕太 日 9 2685 3 2652 2756 43 51 84
8 金志锡 韩 9 2665 -7 2686 2614 54 84 64
9 朴永训 韩 9 2660 -2 2648 2689 47 66 71
10 姜东润 韩 9 2658 0 2659 2654 44 67 66
11 陈耀烨 中 9 2656 10 2605 2614 46 76 61
12 周睿羊 中 9 2653 1 2602 2635 45 75 60
13 唐韦星 中 9 2652 -7 2669 2637 56 91 62
14 江维杰 中 9 2641 -2 2615 2611 43 70 61
15 黄云嵩 中 5 2637 2 2592 2645 63 92 68
16 连笑 中 7 2637 -3 2601 2604 46 77 60
17 王檄 中 9 2632 -5 2687 2642 29 45 64
18 彭立尧 中 5 2632 -12 2631 2598 49 79 62
19 古力 中 9 2629 -2 2636 2616 39 73 53
20 李东勋 韩 5 2626 -3 2668 2609 53 83 64
21 申真谞 韩 5 2624 3 2668 2687 58 75 77
22 辜梓豪 中 4 2624 7 2666 2643 67 93 72
23 李钦诚 中 2 2624 18 2624 2605 56 92 61
24 元晟溱 韩 9 2621 4 2728 2633 50 67 75
25 檀啸 中 7 2607 -6 2508 2584 33 60 55
26 范廷钰 中 9 2604 -2 2609 2577 39 68 57
27 童梦成 中 5 2601 22 2643 2581 55 79 70
28 范蕴若 中 4 2601 11 2594 2575 63 96 66
29 崔哲瀚 韩 9 2596 4 2480 2574 40 66 61
30 罗玄 韩 6 2594 7 2649 2551 35 60 58
这是我认为,到目前为止,最为全面和科学的围棋等级分,出自一位棋迷之手。
四、goratings等级分
回到我们开头说的goratings等级分。goratings等级分采用WHR算法。
Whole-History Rating (WHR) is a new method to estimate the time-varying strengths of players involved in paired comparisons. Like many variations of the Elo rating system, the whole-history approach is based on the dynamic Bradley-Terry model. But, instead of using incremental approximations, WHR directly computes the exact maximum a posteriori over the whole rating history of all players. This additional accuracy comes at a higher computational cost than traditional methods, but computation is still fast enough to be easily applied in real time to large-scale game servers (a new game is added in less than 0.001 second). Experiments demonstrate that, in comparison to Elo, Glicko, TrueSkill, and decayed-history algorithms, WHR produces better predictions.
大意就是WHR算法是ELO算法的变种,但更加准确,能更好地反应棋手实力。
理论上来说,WHR算法的效果和ELO算法应该差不多。实际情况如何呢?nmcgw对nmcgw版等级分和goratings等级分之间的差异做了统计,结果如下(截取部分):
截止2016年5月31日,Go Ratings排行榜和本版对照棋手排名:
RT排名 中文名 RT等级分 本版等级分 本版排名
1 柯洁 3628 2810 1
2 朴廷桓 3576 2746 2
3 李世石 3544 2722 3
4 时越 3528 2703 4
5 芈昱廷 3519 2691 5
6 井山裕太 3519 2683 7
7 朴永训 3512 2662 9
8 金志锡 3511 2672 8
9 柁嘉熹 3503 2688 6
10 连笑 3497 2640 16
11 周睿羊 3481 2651 12
12 辜梓豪 3476 2617 23
13 姜东润 3475 2659 11
14 王檄 3475 2637 17
15 陈耀烨 3467 2647 13
16 唐韦星 3460 2660 10
17 黄云嵩 3457 2635 18
18 李钦诚 3455 2605 26
19 江维杰 3450 2643 15
20 李东勋 3450 2629 20
21 古力 3450 2631 19
22 彭立尧 3448 2644 14
23 申真谞 3435 2622 21
24 洪性志 3430 2561 44
25 檀啸 3428 2613 24
26 元晟溱 3424 2617 22
27 崔哲瀚 3422 2592 28
28 范廷钰 3416 2606 25
29 古灵益 3407 2587 34
30 谢尔豪 3404 2594 27
31 范蕴若 3403 2590 30
32 童梦成 3396 2579 37
33 杨鼎新 3394 2580 36
34 安成浚 3390 2588 31
35 许映皓 3389 2546 48
36 陶欣然 3389 2564 43
37 李志贤 3386 2551 46
38 孟泰龄 3383 2578 38
39 邬光亚 3381 2591 29
40 邱峻 3381 2533 59
41 尹峻相 3380 2567 42
42 金庭贤 3378 2549 47
43 李轩豪 3376 2585 35
44 李映九 3375 2574 40
45 陈时映 3374 2514 83
46 卞相壹 3374 2576 39
47 睦镇硕 3371 2539 54
48 郭闻潮 3371 2518 80
49 赵汉乘 3369 2588 32
50 罗玄 3368 2587 33
51 金明训 3367 2493 98
52 周贺玺 3362 2570 41
53 胡耀宇 3362 2536 57
54 孙腾宇 3359 2539 53
55 杨楷文 3359 2526 69
56 申旻埈 3356 2531 61
57 李喆 3356 2533 58
58 朴珉奎 3355 2501 93
59 陶忻 3353 2468 119
60 张立 3350 2491 102
61 安国铉 3348 2544 49
62 丁浩 3348 2459 123
63 高尾绅路 3347 2521 76
64 许家元 3347 2492 99
65 山下敬吾 3345 2533 60
66 李昌镐 3340 2492 100
67 河野临 3340 2528 67
68 王昊洋 3340 2522 75
69 尹灿熙 3338 2502 90
70 安冬旭 3338 2531 62
71 姜儒泽 3338 2525 72
72 蔡竞 3336 2518 78
73 朴正祥 3336 2476 111
74 韩尚勋 3335 2529 65
75 陈贤 3332 2540 52
76 白洪淅 3329 2537 56
77 金升宰 3329 2526 70
78 朴进率 3327 2497 95
79 舒一笑 3327 2373 222
80 孔杰 3327 2517 81
81 党毅飞 3326 2542 50
82 闵祥然 3324 2514 84
83 廖行文 3324 2558 45
84 朴文垚 3323 2539 55
85 胡跃峰 3321 2501 92
86 陈浩 3318 2420 167
87 於之莹 3314 2435 150
88 国宇征 3314 2492 101
89 钟文靖 3313 2530 63
90 余正麒 3310 2451 133
91 谢赫 3310 2526 71
92 金起用 3310 2508 85
93 金显灿 3309 2504 88
94 金世东 3309 2484 108
95 一力辽 3308 2457 125
96 张涛 3307 2524 73
97 韩雄奎 3305 2456 127
98 佟禹林 3305 2431 158
99 周鹤洋 3303 2508 86
100 刘星 3300 2527 68
误差超过10名的棋手,已经手动用下划线标出。不比不知道,一比吓一跳。前九名非常和谐,但从第十名开始,两版之间就开始出现差距。第五十名以后的棋手,两版之间的排名差距更是大到夸张。
差距来源于何处呢?我们以2016年5月31日,nmcgw排名51位,goratings排名126位的夏晨琨为例。根据nmcgw版等级分,夏晨琨中期对局记录(即过去一年内)是40胜25负。而查阅goratings等级分,夏晨琨同期对局记录为11胜21负。
......
怎么能差这么多?原来,goratings等级分的数据全部来源于http://go4go.net网站。由于该网站数据不全,特别是对于关注度不高的比赛缺乏记录,相应地,等级分在五十名之后的棋手,排名误差可以非常的大。像11胜21负和40胜25负这样的误差,足以说明goratings等级分不足以作为可靠的参考。
五、世界等级分
作为一项竞技,围棋有统一的世界等级分本应是自然的事。然而现实中,中韩日台三国四地棋院为了利益互相扯皮(看看中日韩台四个棋院四个不同规则的争议就可见一斑),统一等级分事实上遥遥无期。在此背景下,法国人Remi Coulum自创的goratings等级分渐为人熟知,并被媒体和民间接受。然而,goratings等级分由于数据严重缺失,事实上相当不可靠。反而是中国棋迷手动统计的nmcgw等级分更为可靠。
未来,围棋世界想要自给自足,必然要进一步地职业化,摆脱现有的五花八门的不职业的制度细节。建立统一的等级分体系势在必行。除了ELO或类ELO体系的等级分以外,另一种思路是类似网球的积分体系,以各赛事排名为依据计算积分。@高飞龙 在中国围棋究竟整体在国际上处于什么样的水平和地位? - 高飞龙的回答 答案中采用的就是这样的思路。这当然也是可行的,只是围棋世界赛事正赛名额有限,这样的排名若正式化,恐怕对上升期的新棋手并不友好。
无论如何,中国棋院都应当正视等级分中存在的问题,进一步改进中国棋院版等级分,并及时公布所有职业对局记录。这是为了世界等级分的建立做准备。要知道,韩国棋院的裴太一博士已经发布他的世界等级分有很多年了。如果毫无作为,中国棋院将来在世界等级分的协调上恐怕会失去话语权。 |