最强AlphaGo已停止继续强化缔造者称正着手星际争霸

2017年10月20日 12:43 澎湃新闻

　　仅用3天时间，490万盘自我对弈的训练数据，一台机器和4个TPU就打败了战胜过韩国棋手李世石对弈的AlphaGo，DeepMind公司10月18日新发布的最强版AlphaGo Zero技惊四座。

　　在最新的论文和官方博客中，DeepMind联合创始人兼CEO 、AlphaGo之父戴密斯·哈萨比斯（Demis Hassabis）和AlphaGo团队负责人大卫·席尔瓦（Dave Sliver）将AlphaGo Zero的成功归咎于强化学习的升级。这一次，他们仅采用单一的神经网络，综合了策略网络和价值网络两种此前用的方法，在不用人类棋谱的情况下，完成了上所述的成就。

　　10月19日，大卫·席尔瓦与团队另一成员 Julian Schrittwieser 代表 AlphaGo ，在问答新闻社区Reddit上回答了网友的提问。

　　在问答过程中，席尔瓦透露，目前，DeepMind内部已经停止了强化 AlphaGo 的积极研究，但仍保留了研究试验台，以供 DeepMind 人员验证新思路和新算法。至于未来是否会开源给全球开发者共享。席尔瓦表示，DeepMind之前已经开源了大量的代码，但过程一直非常复杂。不幸的是，AlphaGo 项目的代码库更加复杂，甚至可以说复杂的过分了。

　　值得一提的是，据两位成员透露，在开发AlphaGo的过程中，DeepMind团队遇到的最大困难是在与李世石比赛期间出现的。当时，团队意识到 AlphaGo 偶尔会受到错觉（delusion）的影响。即对弈中，会持续多次系统地误解当前的棋局。他们尝试了很多方法来解决，如给程序灌输更多的围棋知识或人类元知识。这一次他们的解决方法是让系统的算法变得更加条理化，使用更少的知识，更多地依赖强化学习来生成更高质量的解决方案。从最终结果看，效果还不错。

　　AlphaGo Zero更多依靠强化学习算法，而不是人类数据的方法，也引发了算法和数据之间哪个更重要的讨论。在Julian Schrittwieser看来，目前算法仍然比数据更重要，只要看看 AlphaGo Zero 比之前几个版本的训练效率高出那么多就能理解。但这也表明，未来，数据在训练效率上的重要性还会有很大的提升。

　　另外，网友还特别关心了DeepMind星际争霸人工智能的开发进度，Julian Schrittwieser回答道：“我们宣布开放星际争霸 2 环境刚过去几个星期，所以现在还处于早期阶段。星际争霸的行动空间确实要比围棋更具挑战性，因为其观察空间要远大于围棋。从技术上讲，我认为两者最大的区别之一在于围棋是一种完美信息博弈，而星际争霸因为有战争迷雾，属于不完美信息博弈。”

　　在问答中，也有网友将DeepMind的人工智能与Facebook的研究做比较，两者究竟谁更胜一筹。对于这个问题，席尔瓦说：“Facebook 更关注监督学习，它能产生当时性能最优的模型；而我们更关注强化学习，因为我们相信它最终会超越人类已有的知识而进一步取得提升。我们最近的结果实际上表明，只有监督学习确实可实现令人惊叹的表现，但强化学习绝对是超越人类水平的关键。”

返回列表

最强AlphaGo已停止继续强化缔造者称正着手星际争霸

[收藏此主题] [关注此主题的新回复]

[通过 QQ、MSN 分享给朋友]

最强AlphaGo已停止继续强化 缔造者称正着手星际争霸

[收藏此主题] [关注此主题的新回复]

[通过 QQ、MSN 分享给朋友]

最强AlphaGo已停止继续强化缔造者称正着手星际争霸