AlphaGo又有令人恐怖新版本 自学3天就完胜前辈
2017-10-20 08:04:54 新浪综合
今年5月,AlphaGo在人机大战第二季3:0完虐世界第一人柯洁,当时其就被称为“围棋上帝”。不过“围棋上帝”也有被虐的时候,昨天谷歌旗下人工智能研究部门DeepMind发布了新版AlphaGo,它可以完全靠自己学习围棋,更为恐怖的是经过40天训练后,它就可以击败AlphaGo Master(击败柯洁的系统),比分为89比11。扬子晚报记者 汤敏
自学3天就完胜“前辈”
今年5月乌镇人机大战第二季时,DeepMind CEO哈萨比斯表示,将在今年晚些时候公布战胜了柯洁的那版AlphaGo的技术细节。19日,这个承诺如约兑现,DeepMind将他们最新的内容发表于Nature的一篇论文中,详细介绍了迄今最强大的一版AlphaGo——AlphaGo Zero。文中透露最新版本的AlphaGo Zero,使用纯强化学习,将价值网络和策略网络整合为一个神经网络,3天训练后就以100比0击败了上一版本的AlphaGo,也就是那个4-1战胜李世石的版本。经过40天训练后,它就可以击败AlphaGo Master(击败柯洁的系统)。
这个阿尔法狗从零开始,所以,它的名字叫作零(Zero),完全靠自己对弈来摸索,而不需要任何人类围棋的经验。人类围棋虽然延续了千年,但在“阿尔法狗零”看来水平还是太差。下面是零自我学习的过程,实在太恐怖:自我学习3小时,零在乱下;10小时,发现简单定式;16小时,发现小雪崩定式;19小时,发现死活、厚势与实地的逻辑;24小时,发现小目一间高挂定式;36小时,发现星位一间夹点角定式;55小时,发现非人类定式;40天,与击败柯洁版本对战100番棋,89比11胜出。
人类学习的时间线是什么样的呢?今天的世界冠军级棋手,5岁学棋,15岁出关,20岁前拿冠军,否则终身无望。也就是说人类学棋十几年,不如阿尔法狗零学3天。
棋手的伤感,人类的进步
人机大战第二季对决中,世界第一人柯洁拼尽全力但最终仍以0-3负于AlphaGo,在第三局中,柯洁面对无懈可击的AlphaGo不禁落泪,赛后他感叹:“AlphaGo实在太完美了”!昨天,看到最新版AlphaGo Zero后,柯洁在微博中不禁再次感慨:“一个纯净、纯粹自我学习的AlphaGo是最强的……对于AlphaGo的自我进步来讲……人类太多余了”。
被AlphaGo Zero的消息所震撼的远不止柯洁一个人,世界冠军古力在微博中说道:“20年不抵3天啊!我们的伤感,人类的进步!”另一位世界冠军唐韦星发微博表示:“看了之后不知道说什么了,它确实不需要我们的知识,训练40天就能击败之前版本,似乎就是我们拖后腿了(意思是之前版本还借鉴了人类围棋的经验)”。古力随后在唐韦星的微博下表示赞同:“我们都是拖后腿的”。
革新性人工智能用处多
与前几个版本AlphaGo不同,此版本的AlphaGo Zero完全不受人类思维束缚,因此算作革新性人工智能。DeepMind CEO哈萨比斯表示,“人工智能有可能推动人类的智力向前发展,给全人类带来积极影响”。那么对人类的未来到底有什么具体帮助呢?
据了解,DeepMind与英国国家医疗服务体系(NHS)展开合作,除了将人工智能用于早期发现疑难杂症外,还将用于调整电力供需等方面。将来,还期待人工智能在依靠人类力量难以解决的新材料开发、探究蛋白质生成机制等方面做出贡献。此外,新技术将来还可能在产业方面做出贡献。例如,从大量数据中发现人类难以意识到的提升效率的方式等。
据悉,以各种用电数据为基础,人工智能将有助于节省电力。由于像AlphaGo Zero一样的人工智能可以“无师自通”,在宇宙和海洋等观测数据不足的领域也有可能做出贡献。 |