不过,也正因为围棋的搜索量太大,完全精确的结果是不可能得到的。因而,阿尔法狗在蒙特卡洛树搜索算法(Monte Carlo Tree Search)的基础上,结合走棋网络(Policy Network)、快速走子(Fast rollout)和价值网络(Value Network)进行预测和评估,得到尽可能接近最优的解。虽然阿尔法狗这个过程中做出了巨大突破,但它本质上还是在搜索。
谷歌曾在《自然》杂志上发表文章,公布阿尔法狗的几个基本原理,分别为:走棋网络(Policy Network),给定当前局面,预测和采样下一步的走棋;快速走子(rollout),在适当牺牲走棋质量的条件下提高速度;价值网络(Value Network),给定当前局面,估计双方胜率;蒙特卡罗树搜索(Monte Carlo Tree Search,MCTS),把以上三个部分串联成一个完整的系统。