John Langford 还提到了此前DeepMind在电脑游戏中的表现,当时 DeepMind 凭借这项研究在Nature封面发表了论文《Human-level control through deep reinforcement learning》。他引用了论文中的一张图(如下)来进行说明,DeepMind 挑战 Atari 游戏的论文结果很有趣,但显然在 1/4 的游戏上的表现也不是那么令人印象深刻。他猜测这其中的原因是,DeepMind的解只做了局部均匀的随机分布(epsilon-greedy)风格的策略搜索,而不是全局的策略搜索,结果他们只能学习到解决短期收益值和贪婪算法可触及到的策略。而全局策略搜索的方式在确定性决策过程、马尔可夫决策过程(MDP)和无模型马尔可夫决策过程(MDPs without modeling )中以显著提升效率而著称。
John Langford认为,不适用这些策略的原因在于,它们主要基于表学习,而非函数拟合。这也是他在2006年的论文之后转向 Contextual Bandit 研究的原因。他们在这方面的积累足够多,可以支撑他们开始处理上下文的确定性决策过程,但是那个解决方案离实用还有很长距离。众所周知,有效的进行全局探索是仅仅是实现真正人工智能过程中已经充分认识到的和亟需解决的几个重要挑战之一。
John Langford说:‘这些东西对业内人士来说很容易理解,但通过媒体报道传递给公众时却有些失真。这非常危险,因为有可能会令人失望(比如说历史上的“人工智能寒冬(AI Winter)”)。如果可以完全杜绝这种‘从过度承诺到破灭’的周期,人工智能势必会发展的更好,因此,我才会鼓励人们对 DeepMind 的成功和研究进展程度保持一种平衡客观的态度。掌握围棋是一项伟大的进步,但这离人工智能中最重要的东西还差的很远。’
于目前人工智能的进展,Neil Lawrence 借用了蒸汽机研发历史上冷凝器的发明,我们现代人更容易将詹瓦特的名字与蒸汽机联系起来,而不是最初研发出煤炭驱动蒸汽机的Newcomen。原因就自阿雨,瓦特通过引入独立的冷凝器让蒸汽机更加实用,效率加倍。
到目前为止,机器学习依然处在缺失独立冷凝器的时刻。AlphaGo 的突破因此算是通往模拟人类智能道路上的一次突破吗? Lawrence 将其视为一个触发点;一个重要的阶段性目标;一次拍下沿途美景的良机。但这也仅是旅行中的一程,一个我们早就知道我们会到达的地方,但我们比预期更快的的抵达了这一阶段,这就是值得我们庆祝的一个自然原因。