返回列表 发帖

邬光亚:从零开始

来源:新浪博客  善良的琴棋一生  天地专栏4 (2018-08-15 22:14:05)


从零开始



去年十月份,Deepmind发布了他们的最新成果——AlphaGo Zero,棋界再一次为之震动。

和阿尔法零一同到来的还有一篇学术论文和60多局阿尔法零自我学习的棋谱。其中学术论文的发表直接影响了其他围棋人工智能的进展,如今腾讯研发的绝艺已经在野狐网和职业棋手展开让两子的较量,并且对非顶尖棋手战绩遥遥领先。其他的围棋AI也有了不同程度的突破。而六十局棋谱带来的震撼似乎要小一些,我想是因为之前Master的50局棋谱已经太过震撼。而且水平越高,棋谱就越难看懂,所谓曲高和寡。

比起前面这些,阿尔法零的进化之路更加令人惊心动魄。与之前版本的阿尔法不同,这次它完全不借鉴任何人类棋谱,从零开始。一开始他什么都不会,甚至连吃子的概念也没有。十几个小时后,慢慢摸索出了和人类下法相像的定式,30小时左右有了职业水准;50小时左右开始发现比人类下法更先进的定式,72小时后对阵强于李世石的版本已难求一败。40天,压倒性战胜在网络上横扫了所有顶尖高手的Master版本。惊讶之余,不禁让人思考:人类应该怎样学棋?

阿尔法零的学习出于一个基点,抛弃所有的框架。要知道,框架即是枷锁。比如说定式,当你觉得一个定式只能这么走时,你的枷锁就存在了。又比如说棋型,专业棋手对棋型的认知近乎执念,很多时候仅仅因为棋型就无法对局面进行理性分析。倚天屠龙记里张三丰教张无忌太极剑法,教了两遍后张无忌很快忘掉了,张三丰却说“不错,不错”。实则是张无忌忘掉了招式,习得了神髓。

大多数的职业棋手,下的年头越久,创造力就越不如前。在漫长的对局和比赛中,棋手会得到大量的‘招式’,而很多招式就成为了条件反射,逐渐形成了风格。到后来,我们不再对不同的局面重新分析,而是直接拿出自己固有的招式去迎战。而从这时开始就止步不前了。

走专业道路的孩子,在刚打上职业段位的那几年,计算力往往是最强的。乃至现在冲段少年做的死活题,身经百战的职业棋手也深感头疼。计算力似乎是现今唯一的训练标准。而这样训练的弊端是,因为没有对棋局整体的判断和方向的把控,不知道该在哪里进行计算。时常算了半天结果却是无用功。

为什么职业棋手看不懂阿尔法的棋,问题可能就出在‘计算’上。因为很多时候我们无法‘计算’出一手棋的好坏。别说是人,就算是最强的AI也无法用计算来解决围棋。而如果从子与子的配合,远近快慢、轻重缓急去看,也许会是另一番风景。

返回列表