漫谈人工智能之二，Master粲粲如星，挥洒缚豪英

2017年03月08日 08:18 创事记作者：褚达晨

　　文/褚达晨

　　国内的人工智能热很大程度上就是被AlphaGo炒起来的。机器围棋和哥德巴赫猜想、费尔马大定理一样，是一道举世公认的难题。围棋361个点，一盘棋的变化数目据说超过了宇宙中的原子数目，和其他博弈游戏相比是高出几十个数量级的差别。

　　在我看来，围棋规则异常简单：“交替落子，气尽棋灭”，却暗含宇宙中生命之妙。你看一个19路棋盘宛如苍茫大地，黑白棋从无而始，两支生命交替生长；中盘取势占地，扭杀守御，皆为棋子生存繁衍。一局终了，棋谱留世。围棋作为古人发明的智力游戏，妙处实不可言状。千万年后即使地球毁灭，外星来客若找到一张高手遗谱，我觉得他们大致可以探知人类当时所拥有的计算能力和智力水平。

　　AlphaGo的核心算法早已在Nature杂志上发表，解读的文章也很多。基本上就是说AlphaGo团队通过喂了狗狗几十万盘人类对局，让狗狗学会了下棋，到了一定水平后狗狗自己和自己下棋就能涨棋，水平会越来越强。

　　果然，2016年底升级版阿法狗——Master横空出世，在围棋网站上小试牛刀，战遍中日韩顶尖高手，求一败而不得。更为可怕的是60连胜棋谱传世之后，人类高手反复拆解，好像至今没有人敢说在60局中有某一局的某一个时刻人类棋手有过明显领先的时刻。从数学上讲，如果（60局棋）X（每局200步棋）X（每步可能的变化数）在这么大的概率空间里，人类高手都没有明确的获胜机会，那Master这个系统的水平和稳定性可谓深不可测。

　　作为深度围棋爱好者，让我震惊的是对局内容。去年AlphaGo和李世石的棋谱其实还比较循规蹈矩，就算被媒体追捧的第二局五路尖冲“外星招法”，其实也并不算太出格。今年Master的棋就不一样了，60局快棋中推翻人类棋手思维的下法简直俯拾皆是。比如序盘很早就点三三，习惯性尖冲无忧角，对人类已经沿用了几十年的“妖刀定式”“大雪崩定式”的彻底改造，等等，给很多围棋国手“要重新学围棋”的触动。打个比方，如果说去年的AlphaGo是集天下剑术之大成（毕竟刚刚从人类棋谱里学来）的高手，今年Master的感觉就已接近剑术通神的大师，手中无剑，天下万物为剑，飞花摘叶退敌千里。Master新年一出场，就是风清扬、扫地僧这样的世外高人范儿，轻轻松松饶天下英雄一先。

　　举个有点搞笑的例子，Master在对日本第一人井山的棋局中在右上角下出一步看起来很像初学者下出来的围空棋，人类研究后认为Master表示就这样随便下下就赢了，颇为推崇。事后替Master摆棋的“机器臂”黄士杰博士解释是他连续在电脑前摆那么多盘棋太累了，鼠标一滑摆错位置的结果。虽然有点尴尬，不过的确说明Master随便下下，中间打个盹歇一手也能追回来。

　　大师是怎样练成的？Master没有公开任何信息，外面基本上没有什么技术解读。作为业余爱好者，权且说说我的看法。

　　上一篇说了“深度子”的厉害，AlphaGo or Master不只是简单用到了深度学习技术，它用了两个“深度子”的乘法效应。具体而言，狗狗训练了两个深度神经网络，一个叫“策略网络”负责学习人类的“棋感”，就是通过人类棋谱猜测棋盘上哪几步是最有可能的“下一手”，帮助计算机剪枝，把宝贵的计算资源用在刀刃上。另一个“价值网络”负责做“形势判断”，就是计算在选用策略网络推荐 “下一手”时的获胜概率。这两个算法相辅相成，互相推动，产生了乘法效应。

　　狗狗的“棋感”一开始是跟人学的，但精确的形势判断能力是自己发展起来的。形势判断能力其实是下围棋的核心能力，这恰恰是人类的弱点和容易被忽视的地方。人类棋手在序盘和中盘用的“点目法”做形势判断的方法是非常非常粗糙的近似，无法和机器的量化方法（比如说把胜率精确到小数点后3位）抗衡。人脑其实剪枝能力超强，如果给予充分时间，高手也基本能把变化都算清楚，但是若是在选择下出对自己更有利的招法时犯糊涂，你说怎么下赢狗？

　　Master能通过“反人类思维”的招数战胜人类，是机器学习的一个巨大的进步！究其原因，一方面可能是过去一年狗狗在“价值网络”取得了大突破，在判断局势、把握局势走向的能力上远超人类，就是“控场能力爆表”。另一个方面，两个高水平狗狗双手互博，可以不断尝试超越人类“直觉”或者“经验”的选点，这样一些需要深度模拟才能推敲出来的好棋（比如人类需要反复推演30步才能得到的结论），就会被Master挖掘出来。

　　这次Master在布局阶段走出了不少以前被人类否定的下法，就是说已经摆脱了人类棋谱的思维限制，开始探索未入之境。人类下棋其实有个问题，就是借助于经验的成分远远大于临场发挥的成分。比如说学习和记忆定式，最多考虑一个四分之一棋盘，但是狗狗是通盘全局考虑的，Master新的棋谱就很明显，左上角是黑子还是白子，无忧角还是大飞角，左下角选择的定式可能完全不同。这种“牵一发而动全身”的战法给人很多启发，有棋手说“美的让人哭”。如果说一开始狗狗通过打人类棋谱学棋，现在是人类通过向狗老师学习来探索围棋的奥秘了。

　　翻译成机器学习的语言，狗狗是从监督学习（照棋谱学习）进入了非监督学习（自由探索）的阶段，AlphaGo的设计者让程序具备了自我进化的能力。人工智能算法的提升依赖于高质量的数据，在任何领域，高质量的标注数据（比如说高手的棋谱）都是有限的，或者说生产速度很慢，成本很高。AlphaGo一旦能够自我产生高水平的新数据，还通过自我博弈不断提高自身水平，就相当于有了自我进化的能力。所以说领先的AI技术一旦确立优势，很有可能一骑绝尘，让后来者难以追赶。

　　举例来说，日本zen是一个有10年发展历史的老牌围棋程序。他们引入alphago的“策略网络”技术后，很快就提高到了职业水平，但是后面再提升好像有点难。目前世界第二应该是腾讯主力部队开发的“绝艺”，开发半年多现在已经到了去年AlphaGo战胜李世石的水平。虽然距离Master还有差距，我非常希望这个国产围棋程序能迎头赶上，让Master不再寂寞。

　　在一个商业领域，如果人工智能技术能在机制上能不断自行产生优质数据从而自我进化，那么别人后来居上的可能性也就大大降低，这可能就是全球顶尖互联网公司在人工智能领域做疯狂的军备竞赛的动因。

　　好了，Master“粲粲如星，挥洒缚豪英”的故事就说到这里。既然已经提到了AI商业化，下一篇就回到我工作的领域，谈谈人工智能和商业结合。

附件: 您需要登录才可以下载或查看附件。没有帐号？注册

返回列表

漫谈人工智能之二，Master粲粲如星，挥洒缚豪英

[收藏此主题] [关注此主题的新回复]

[通过 QQ、MSN 分享给朋友]