返回列表 发帖

围棋之后人工智能涉水足彩 访谈阿法球作者余博士

2017年11月23日11:43 新浪体育


余博士(右)与作者交流



  AlphaGo的诞生惊艳了世人,从AlphaGo Lee到AlphaGo Master,乃至目前的AlphaGo Zero,我们已经目睹了在被誉为最具人类智慧的游戏——围棋领域,被人工智能一步步的追赶、冲击、超越,乃至最终一骑绝尘远去的过程。事实上,人工智能已经延伸到投资、炒股、新闻写作、智能驾驶、图像识别、医学治疗、心理分析等等领域,逐渐延展到我们生活的各个角落。可以说,人工智能让我们再次体会到了革命性的时代巨变,撼动着当世每一个人的心灵。

  近期,笔者与一位结识多年的棋友相约新浪总部,他叫余小鲁,是一枚疯狂的围棋爱好者,也是一位学识渊博的物理学海归博士。许久不见相谈甚欢,我们就围棋与人工智能、以及他从事开发的新兴人工智能产品展开了畅聊。

  笔者:作为资深围棋迷,AlphaGo对你的冲击想必也非常太吧!听到你最近也在开发一项人工智能产品,你也准备培养一个人工智能的“怪物”吗?

  余小鲁:哈哈,培养“怪物”,愿景挺好,票房听起来很高,但道路很遥远啊!当然,AlphaGo对我们的冲击实在是太大了,AI(人工智能)能取得如此惊人的进步,真令人啧舌,它的开发团队DeepMind可以说是几乎已经征服了围棋领域,接下来在星际争霸等开放式游戏、疾病治疗、发明新材料等领域也准备大显神威。基于此,我也一直利用多年的专业知识,致力于AI方面的研究,我现在在开发一个叫“阿法球”的程序,是一个利用深度学习来探索和合理规划足彩投注的一个项目,这项目其实从我14年回国之前在密西西比州立大学时期就有初步构想了,可以说是我们前期开展的一个项目。


余博士在密西西比州立大学做研究学者期间



  笔者:AlphaGo已经甩人类很远了,那“阿法球”能打败足彩玩家吗余博士?

  余:那我也回答得直接露骨一点:阿法球目前的水平,从人工智能的角度远不如现在的阿法狗(即AlphaGo,下同),打个比方,就相当于是学会快速走子的阿法狗,还没有升级到自我博弈的程度。但统计击败业余足彩玩家是无可质疑的,用围棋的话说,目前的阿法球估计是个“业6”(业余6段,即业余豪强水平)。

  笔者:感觉围棋和足球完全不同啊,为什么对于围棋的人工智能可以用在对足球比赛的预测上呢?

  余:围棋和足球不仅没有不同,而且还很有关联,都是黑白的,哈哈。这看似两个不相干的领域,其实联系还真多。中国围棋国家队组建足球队,古力、常昊等国手们脚法出众你可是知道的,棋圣聂卫平更是铁杆球迷,在今年8月的中国围棋大会的座谈会上,聂老不是还说中国足球必须要好好学习围棋吗?用围棋思维去踢球,否则没有希望。足球要学会围棋的大局观,比如说中场大师的“大局观”一定非常正,该过人就过该塞就塞恰到好处,围棋高手们也是该杀该弃掌握得很精妙,所以足球赛和围棋高手对决都能给人赏心悦目行云流水之感;还有就是围棋也要学足球场上的顽强拼搏,不到最后一分钟比赛就没结束,这样很多“勺子”就丢不出去了。

  回归正题,阿法狗的快速走子,是看很多棋谱,通过神经网络训练出来高手的棋感,也就是任意局面下的落子选点及其对应的胜率判断。同样道理,阿法球是看很多足球比赛,神经网络训练出来球感,来预测比赛的结果和对应的胜率判断。

  笔者:机器看棋谱我能理解。但机器怎么看球赛呢?

  余:机器怎么看棋谱,其实也是一个大问题。我们可以直接对棋盘拍个照片,发给机器,让它去看去图像识别,但这样信息量太大。因此我们回过头来思考,人是怎么样看围棋的某个局面的?我们创造了一些概念,看谁厚谁薄,看谁空多谁空少,看谁有孤棋的负担等等。但适合人的概念未必适合机器。机器需要可以量化的特征。举个例子,阿法狗看棋谱,一个重要的特征就是气。棋盘上每一块棋每一时刻的气,都要当成一个特征输入参数。机器看一张棋谱,看到的就是类似于气这样一个个的数值参数。同样道理,机器要把球赛分解成为一堆特征参数,才能看球,才能学习。

  笔者:这样看球赛,感觉很无聊啊!足球赛有什么参数?阿法球机器在学习些什么呢?

  余:做个不是太严谨的类比,足球比赛的控球时间相当于围棋的气。控球时间长的球队占优势,这是一个统计判断,就像围棋里面的棋长一尺无眼自活。人脑对于概率性的判断有很大的缺陷,从进化论的角度讲,从原始人进化到现在,并不需要我们学会区分75%和80%的事件,所以我们大脑一直没有进化出来这部分的能力,机器学习在这方面的优势是压倒性的。因此足球比赛的控球时间就是机器看球的一个重要参数。关于机器的学习,可以分为两大类。一类叫监督学习,一类是无监督学习。

  阿法狗看棋谱训练快速走子,就是监督学习,因为把高手棋谱的下一手当成了学习的答案。机器看球赛也是监督学习,因为球赛有结果,有比分。举个例子,一盘棋可以分成十个关键局面,机器可以学习高手关键的十手棋,我们称之为手筋。一场球赛不止可以有上下半场的比分,同样可以分成十个关键局面,机器可以学习十次,我们可以称之为足球场上的“手筋”。

  机器学习必须严格给定规则,比如阿法围棋的学习给定的规则是中国围棋胜负规则,它即使是学习日本棋圣战的棋谱,背后也是中国规则。目前阿法球只学习五大联赛的数据,给定的训练学习是联赛足球的规则,投注训练给定的赔率数据由威廉希尔给定。只会预测五大联赛的比赛,并不能预测世界杯欧洲杯这些比赛。杯赛一般来说sensation(场外轰动效应)比较多,阿法球的学习需要一个相对封闭的环境,联赛相对于杯赛就封闭了许多,因此机器在联赛的预测表现优越和稳定了许多。


图注:五大联赛回报率的人工智能训练,横轴是投注阈值,绿线是最后阶段的训练结果



  笔者:你这么说我大概明白了。阿法围棋的快速走子,棋感太好了,我们这些业5根本就下不过它。其它市面软件如日本的zen,学会了阿法围棋的快速走子,也提高得很快,很厉害。不过zen下的棋,有时很奇怪,需要人机结合可能效果更好一些。阿法球存在这样的问题吗?

  余:只要是机器,总会有让人觉得不舒服的地方,这可能也正是人性所在。记得上次我俩第一次谈阿法球的时候,那晚刚好有英超。阿法球对英超的总体预测是很好的,无论是胜平负预测还是大小球预测。但程序界面的第一行,也就是那晚第一场曼联主场踢热刺的比赛,阿法球居然预测曼联主场要输球,因为是第一行非常显目也非常刺眼,我专门截图给你看了,你还记得吗?


阿法球界面



  笔者:是的,有这么一回事,我那晚故意去看了曼联的直播,下半场曼联进了一个球,一比零赢了热刺,阿法球错了,哈哈。

  余:在曼联直播之前,我还专门再查了一次阿法球后台的数据,没出错,机器就是这么预测的,让我们有时很不舒服。这里是新浪棋牌,我们还是用围棋的例子来说明比较好。我们完全照zen6甚至最新的zen7来跟弈城9下棋,统计上是能打败普通弈城9的。但过程里面机器棋总会让我们很不舒服的地方,有些完全不必要的交换,有些太过激进的走法(其实是成立的)。如果人机结合了,我们下起来心里舒坦很多。我们进行足彩的投注,除了科学上的硬核要过关,还需要投注的心理学,我们毕竟不是机器,心里舒坦还是重要的。但需要补充一句,当机器进化到像阿法围棋zero的时候,再去人机结合下棋恐怕就不合适了。目前的阿法球,不反对你进行人机结合。


图注:图为贝叶斯公式,阿法球机器学习正是基于贝叶斯主义的概率论。先验概率只是一种信仰,随着证据的变化需要不断更新,由此进一步组成贝叶斯网络



  笔者:我自己从98世界杯开始看球,也差不多20年了,也是比较狂热的球迷,多多少少有

  自己的“心水”。我只投注那些阿法球建议跟我“心水”一样的比赛,感觉这样是“双保险”,我用阿法球的试用版的时候,只看主界面上对胜平负大小球的预测,附带还有三个最可能的比分也结合看看。后面阿法球给出来具体的投注建议没太明白。你说阿法球的算法分成两大部分,一部分是用人工智能来预测球赛的结果,这部分现在基本清楚了。另一部分是在此基础上如何投注的算法。这里有点迷糊,不就是按照预测的结果进行投注就可以了吗?

  余:也许这么说你就明白了。预测球赛的结果像围棋的布局,很难完全科学化,还有“艺术”的成分。但如何投注像围棋的官子,是完全可以量化科学化的。科学有一个特点,就是可重复性。很多棋的官子(特别是小官子),三十年前的赵治勋来收,和现在的柯洁来收,是一模一样的。基于人工智能的预测结果,如何投注可以有一个完善的科学理论。阿法球背后用的主要是马克维茨的投资组合理论和凯利(John Kelly,贝尔实验室的物理学家)的投注判据。简单的说,凯利判据是基于正期望的前提下,如何决定我们的投注额度。但很多场球赛同时进行,每场球赛预测的准确度和对应赔率都不同,这时候需要决定具体的投资组合。即使我俩相信同样的预测,但我俩的有效资本不同,风险偏好不同,对投资组合的最优化也是不同的,阿法球在这一部分完全是私人订制的。


注:凯利判据,有“财富公式”之美誉。William Poundstone在 Fortune’s Formula一书中精彩的讲述数学家以此公式为基础征战华尔街的传奇故事



  笔者:你能简单说说凯利是解决了什么问题吗?

  余:抽象的谈理论有时容易晕,说些具体例子吧。比如我扔一个公平的银币,你来猜正反面只能投注某一面,赔率都是1.9,你如何进行投注呢?

  笔者:这个感觉是个坑啊……

  余:哈哈对的,这个游戏不能玩,假设你投注一百块在正面,那么你有1/2的机会赢90,1/2的机会输100,你的期望值是负的5块钱。谈论凯利判据,首先不能忘记这个大前提,期望值必须是正的。

  比如我扔一个公平的银币,你来猜正反面只能投注某一面,赔率都是2.1,很明显这个游戏是对你有利的。假设你投注一百块在正面,那么你有1/2的机会赢110,1/2的机会输100,你的期望值是5块钱,也就是统计平均你每次这样投注的获利。那么第一个问题是,假设你有一万块钱,我每天跟你玩一次这个游戏,你将如何进行投注才合理呢?简单的想,一次全压一万块钱期望值最大,但很容易破产,呵呵。每次压一块钱,你又觉得太稳当了,资本增长的速度太慢。那么中间必然存在着一个最优的投注额,凯利解决的核心问题就在于此。再讲个例子,比如我扔一个公平的骰子,有六面你来猜每次只能投注某一面,赔率都是6.3。假设你投注一百块在点数5,那么你有1/6的机会赢530,5/6的机会输100,你的期望值也是5块钱。对你来说,我扔银币和扔骰子两个游戏一样吗?能用相同的方式投注吗?

  笔者:我没仔细算,虽然这两个游戏都对我有利。但感觉应该是不一样的,我玩扔骰子的话很久才能中一次。

  余:你的感觉是对的。阿法球会毫不含糊的把所有足球比赛分成三类,第一类足球比赛相当是赔1.9的银币,告诉你不要去玩。第二类足球比赛相当是赔2.1的银币,第三类足球比赛相当是赔6.3的骰子。然后再结合你个人的风险偏好,给出具体量化的投注指导。

  笔者:你说的后面这一部分跟前面那些预测一样都是免费开放的吗?

  余:目前是的,都嵌套在同一个微信小程序上面,无需下载,无需注册,完全免费,一目了然。我俩都是念物理的,物理最要紧就是要有做实验证伪的可能性。给出来的东西不能含糊,要让别人做实验有证明你是错的可能。当别人还没证明你是错的时候,你的东西就是暂时成立的。所有好的科学都走在这个道路上,阿法球也是如此。


作者与余博士(右)畅聊三小时



  笔者:值得期待!对了,学术论文的话最后都有个acknowledgement(致谢),关于阿法球这个项目,你也来一段。

  余:记得以前看过李泽厚先生谈到三种人文学科的偏颇,说哲学系的缺点是空,好处是站得比较高。历史系的弱点是狭,好处是钻得比较深。中文系的缺点是浅,好处是涉猎比较博杂。我俩以前都是物理系的,我觉得物理系的缺点是容易眼高手低,好处是学术的硬核能弄得比较清楚,但对于实现整个项目来说是远远不够的。需要感谢的朋友很多,阿法球的算法开始于2013年在密西西比州立大学和戴睿博士的合作,算法完善和UI设计都得力于工程师沈任道的帮助,项目全程得到深圳市赤霄科技有限公司黄晓彦博士的支持。
附件: 您需要登录才可以下载或查看附件。没有帐号?注册

返回列表