1。 为什么 AlphaGo Zero 的训练如此稳定?深度强化学习极其不稳定且易于遗忘,自我对弈(self-play)也是,两者的结合如果没有很好的(基于模仿的)初始化和大量人类棋谱将是一个灾难。但是 AlphaGo Zero 从零开始,并且没有借助人类棋谱来防止遗忘或死循环。论文对于这点没有涉及,因此你们是如何做到的?
David Silver:相较于典型的(无模型)算法,如策略梯度或者 Q 学习,AlphaGo Zero 采用了一种相当不同的深度强化学习方法。借助 AlphaGo 搜索,我们显著提升了策略和自我对弈的结果,接着我们使用简单的基于梯度的更新训练下一个策略+价值网络。这要比累加的、基于梯度的策略提升更加稳定,并且不会遗忘先前的成果。
2。 你认为 AlphaGo 能解决 Igo Hatsuyoron 120 这个‘史上最难死活题’吗?即赢取一个给定的中局或者确定一个现有解决方案?
David Silver:我们刚刚请教了樊麾,他认为 AlphaGo 会解决这个问题,但更为有趣的是 AlphaGo 能否找到书中的答案,或者我们想不到的方案。而这正是我们在 AlphaGo 的训练中多次目睹的事情。
David Silver:Facebook 更关注监督学习,它能产生当时性能最优的模型;而我们更关注强化学习,因为我们相信它最终会超越人类已有的知识而进一步取得提升。我们最近的结果实际上表明,只有监督学习确实可实现令人惊叹的表现,但强化学习绝对是超越人类水平的关键。
8。 有开源 AlphaGo 的计划吗?
David Silver:我们之前已经开源了大量的代码,但过程一直非常复杂。不幸的是,AlphaGo 项目的代码库更加复杂,甚至有点过分。
9。 我们现在可以通过强大的国际象棋引擎给棋手做内部评级,一步一步地分析棋手的下棋过程进而评定 Elo 等级分。这可以使我们更有条理的做事,比如比较不同时代的棋手,而且还有可能提供研究人类认知的平台。这对 AlphaGo 也有效吗?我猜测这对围棋来说会更加复杂,因为在国际象棋中不需要考虑 margin of victory。