2017/05/23 15:43

柯洁1/4子惜败，机器之心独家对话AlphaGo开发者导师 Martin Müller

机器之心报道

参与：杜夏德、李泽南

第一战，AlphaGo 赢了！几乎不出人意料。

5 月 23 日，中国围棋协会和浙江省体育局携手谷歌联合主办的「中国乌镇·围棋峰会」正式开幕，直到 5 月 27 日，柯洁与 AlphaGo 的三番棋人机大战以及人机团队赛、配对赛将陆续展开。

大赛启动仪式

关于这次围棋人机对话，有几大悬念引人注目。现役最强棋手柯洁是否有机会获胜还是将完全败北——这无疑是本轮对战的最大看点。此外，再次出战的 AlphaGo 是否已经是使用全新方式训练的新版本也是一大焦点。时隔 4 个多月，AlphaGo 的能力是否又有提升？它能否将人类对于围棋的理解带上一个更新的高度？这些问题即将在短短五天的对决中揭晓。

除了现场报道之外，机器之心邀请阿尔伯塔大学教授、计算机围棋顶级专家 Martin Müller 以及《深度强化学习综述》论文作者李玉喜博士，共同观看了比赛直播。Müller 教授所带领的团队在博弈树搜索和规划的蒙特卡洛方法、大规模并行搜索和组合博弈论方面颇有建树。实际上，参与了大师级围棋程序 AlphaGo 的设计研发的 David Silver 和黄士杰（Aja Huang）（他们分别是 DeepMind 的 AlphaGo 相关 Nature 论文的第一作者和第二作者）都曾师从于他。李玉喜博士是加拿大阿尔伯塔大学计算机系博士、博士后。致力于深度学习、强化学习、机器学习、人工智能等前沿技术及其应用。曾任电子科技大学副教授；在美国波士顿任资深数据科学家等。2017 年 1 月在 arXiv 上发表《Deep Reinforcement Learning: An Overview（深度强化学习综述）》论文。

Martin Müller 教授和机器之心一起观看直播

AlphaGo 第一局意料之中的胜利

下午 14:47，在经过了 4 小时 17 分钟的激烈比赛之后，AlphaGo 以四分之一子的优势获胜，这并不让人感到意外。

比赛前一天，柯洁在微博上表达了自己对即将到来的比赛的看法和期待，字里行间并没有透露出击败 AlphaGo 的信心，他在微博上写道：「无论输赢，这都将是我与人工智能最后的三盘对局……现在的 AI 进步之快远超我们的想象。像国产的绝艺、日产的 ZEN 虽然和 Alphago 还有着较大差距，但已经表现出超强的实力了... 我相信未来是属于人工智能的。」

这场比赛不仅是 DeepMind 的盛事，也得到了 Alphabet 高层的重点关注。DeepMind CEO Demis Hassabis 和 Alphabet 总裁 Eric Schmidt 都来到了现场。

「祝柯洁好运！」赛前，Hassabis 表示了对围棋界深深的谢意，他说，中国是人类围棋的诞生之地。此次比赛的宗旨在于探索新打法。围棋世界就好像宇宙一般，再过一万年也不可能穷尽所有的打法。或许人工智能可能提供新的启迪。去年和李世乭的比赛结束后回到伦敦，DeepMind 对 AlphaGo 进行了全新的架构更新，推出了升级版本 Master，希望 AlphaGo 能走自己创新打法的路。

Hassabis 强调：「这不是人机大赛，而是人类使用机器探索新的方法，AlphaGo 就像哈勃望远镜，能帮助我们看到更远的未知。不管结果如何，最终胜利属于人类。」

现年 19 岁的柯洁是中国围棋九段选手，祖籍浙江丽水。他从 5 岁就师从周宗强五段正式开始学棋，2008 年 10 岁升初段开启职业生涯。他曾获得第 2 届百灵杯世界围棋公开赛冠军、第 20 和 21 届三星杯世界围棋公开赛冠军、第 2 届梦百合杯世界围棋公开赛冠军，在世界大赛中曾创造过 14 连胜的战绩。在本次围棋人机大战开打前夕，围棋排名网站 Goratings 更新了截至 5 月 21 日的世界围棋等级分排名。将在 23 日-27 日和 AlphaGo 展开对决的柯洁九段继续毫无悬念继续领跑，他与第二名朴廷桓的分差已有 30 分之多。

这场围棋人机大战是从上午 10:30 开始的；中国棋院院长华以刚、世界围棋女子冠军徐莹组合与常昊张璇夫妇轮番进行了讲解。

柯洁执黑子，第一手棋，下在右上角，以示对对手的尊敬。黄博士代替 AlphaGo 执白子。与 AlphaGo 交手后，柯洁研究了一年多 AlphaGo 喜欢的三三式，吸取了教训，对 AlphaGo 的落子有所防范，并率先在右下角点三三，使出了 AlphaGo 的下法。「柯洁的这一步是 AlphaGo 的风格」Müller 说道。「在去年 AlphaGo 比赛之后，很多顶尖棋手都已分析了 AlphaGo 的棋风，并将其应用于实战，柯洁最近已在正式比赛中使用了这种下法并获胜。」柯洁棋风依旧强硬，AlphaGo 还是不走寻常路。

比赛过程中柯洁完全沉浸在自己的思考中，几乎未抬头看对面的黄博士一眼。

比赛 4 个小时之后，这场人机对弈大战结束，AlphaGo 以四分之一的子获胜。最终柯洁用时 2 小时 47 分，AlphaGo 用时 1 小时 30 分。自此，当前世界排名第一的棋手和人工智能 AlphaGo 的第一局比赛落下了帷幕，结果基本上没有超出任何人（包括柯洁自己）的预料。

结局盘面

柯洁与 AlphaGo 的第二局比赛将在 5 月 25 日上午 10:30 开赛，柯洁能否在下一场比赛上取得出人意料的成绩，让我们拭目以待。

AlphaGo 升级版

过去一年多，只要你稍微关注过科技新闻，就一定看到过 AlphaGo 的名字（有时也被人称为「阿尔法狗」）。去年 3 月份，AlphaGo 成为了世界上第一个击败世界顶级职业选手的围棋程序。在击败了李世乭后，AlphaGo 或许已经成为了世界上最著名的人工智能程序。

但大胜李世乭的 AlphaGo 版本终究还是输了一场，所以还并不完美。据了解，当时 AlphaGo 开始主要是依靠大量学习人类棋手的棋谱来提高棋艺。随后 AlphaGo 进入到完全的自我深度学习阶段，也就是完全摒弃人类棋手的思维方式，按照自己（左右互搏）的方式研究围棋。对于 AlphaGo 是否使用人类棋谱的问题，李玉喜博士评论说：「计算机围棋是一个优化问题，对于 AlphaGo，就是在优化它所采用的深度神经网络的参数。从优化的角度说，可以从任何初始值开始，利用随机梯度下降等算法进行优化。利用人类棋谱，可以帮助设置一组不错的初始值，很可能可以提高寻找最优参数的效率；而如果不用人类棋谱，理论上可以，但一开始对参数的搜索可能有些盲目，个人认为不应该采用这个方案。」

2016 年 1 月 28 日，Nature 杂志以封面论文的形式介绍了 DeepMind 团队开发的人工智能程序 AlphaGo，这也就是后来击败韩国棋手李世乭的 AlphaGo 版本。

AlphaGo 结合了监督学习与强化学习的优势。通过训练形成一个策略网络，将棋盘上的局势作为输入信息，并对有所可行的落子位置形成一个概率分布。然后，训练一个价值网络对自我对弈进行预测，以-1（对手的绝对胜利）到 1（AlphaGo 的绝对胜利）的标准，预测所有可行落子位置的结果。AlphaGo 将这两种网络整合进基于概率的蒙特卡罗树搜索（MCTS）中，实现了它真正的优势。

在获取棋局信息后，AlphaGo 会根据策略网络（policy network）探索哪个位置同时具备高潜在价值和高可能性，进而决定最佳落子位置。在分配的搜索时间结束时，模拟过程中被系统最繁琐考察的位置将成为 AlphaGo 的最终选择。在经过先期的全盘探索和过程中对最佳落子的不断揣摩后，AlphaGo 的探索算法就能在其计算能力之上加入近似人类的直觉判断。

但是新版的 AlphaGo 产生大量自我对弈棋局，为下一代版本提供了训练数据，此过程循环往复。

AlphaGo 的棋风一直为人惊叹，与其交战过的大多数棋手都感叹它的不可琢磨，可谓是违和感十足，却极具杀伤力。金成龙曾表示：「AlphaGo 机器人下棋的方法是人类想不出来的。它有几次小的失误，之前我认为这种失误对李世石是有利的，现在看起来 AlphaGo 是以小失误换取更大的胜利。」

AlphaGo 的强大之处不在于一招一式，而在于对每一局比赛展现出的全新视角。虽然围棋风格略显抽象，但 AlphaGo 的策略展示了灵活与开放的精神：没有先入为主的训练让它找到了最有效的下棋方式。实用哲学让 AlphaGo 经常走出违反直觉——但却最为合理的走子。

尽管围棋是一个有关圈地的游戏，但胜负手却在于对不同战区之间的取舍平衡，而 AlphaGo 擅长创造这种平衡。具体来说，AlphaGo 擅长运用「影响力」——已有棋子对自己周围的影响为自己谋取优势。虽然 AlphaGo 的价值网络不能准确地计算出影响的数值，但它的价值网络能够一次性考虑棋盘上的所有棋子，以微妙和精确的方式做出判断。正是这样的能力让 AlphaGo 把自己在局部的优势转化为整个比赛的胜势。

作为 David Silver 与黄士杰在阿尔伯塔大学的导师，Martin Müller 对他的学生们感到骄傲：「我对他们感到非常骄傲，他们都曾是我的博士/博士后学生，在阿尔伯塔也得到了强化学习的先驱 Richard Sutton 的教导。在阿尔伯塔期间，深度学习技术还未发展起来。那时我们的围棋程序还非常简单，没有加入蒙特卡洛树搜索机制，只应用了强化学习。随后他们在 DeepMind 获得了大量资源，这也为其后的成功打下了基础。」

此前，在 4 月 10 日下午，谷歌在北京的中国棋院召开新闻发布会，正式宣布 AlphaGo 将于今年 5 月 23 日在浙江乌镇对决以柯洁为代表的中国顶尖棋手。与此同时，DeepMind 官方也发表了一篇博客对新版 AlphaGo 的下棋思路进行了讲解。作为 AlphaGo 的一员，樊麾在 DeepMind 的这篇博客中写到：AlphaGo 在最近的比赛里展现出了开创性的棋风，其中最引人瞩目的是早期点三三和全新的「妖刀」变化——每个都违反了常规理论，但在更深入的研究中被证明是高明的下法。

实际上，DeepMind 可能之前已经对新的算法进行过了测试。2016 年年底，AlphaGo 化名 Master，在网络上与人类顶尖棋手下了 60 盘测试棋，取得 60 局全胜的骄人战绩。通过那次测试，谷歌旗下的 DeepMind 又发现了 AlphaGo 不少需要完善的地方，2017 年 5 月中下旬即将与柯洁进行正式人机大战的将是「AlphaGo 2.0 版本」。

Müller 认为目前 AlphaGo 的性能已经提升到了新的高度。「将蒙特卡洛树搜索和策略网络结合来提高策略网络的性能？」Müller 说道。「尽管这样需要花费大量的时间用于训练策略网络，但鉴于 DeepMind 是谷歌旗下的公司，他们可以利用到谷歌的强大硬件，甚至新一代 TPU。在去年与李世乭的对决后，DeepMind 的团队可以尝试在很多方面上进行改进。」

对于与 AlphaGo 相近的机器对手，Müller 还表示腾讯的「绝艺」已是目前世界第二强的计算机围棋程序，在未来或许会有击败 AlphaGo 的实力。

AlphaGo 未来还有多场比赛，包括史无前例的多人对战。机器之心还将继续跟踪解读，为读者第一时间带来更有价值的技术解读。

Martin Müller 将作为演讲嘉宾亮相 5 月 27 日- 28 日机器之心举办的 GMIS 2017 大会上，他将带来主题为「深度学习时代的启发式搜索（Heuristic Search in the Age of Deep Learning）」的演讲。获取人机大战和全球机器智能峰会的最新信息，请点击阅读原文或关注大会官网 gmis.jiqizhixin.com。

理论AlphaGoMartin Müller谷歌Deepmind产业围棋阿尔伯塔大学李玉喜