阿尔法围棋是于2014年开始由英国伦敦Google DeepMind公司开发的人工智能围棋程序。AlphaGo是第一个打败人类职业棋手的计算机程序,也是第一个打败围棋世界冠军的计算机程序,可以说是历史上最强的棋手。
技术上来说,AlphaGo的算法结合了机器学习(machine learning)和树搜索(tree search)技术,并使用了大量的人类、电脑的对弈来进行训练。AlphaGo使用蒙特卡洛树搜索(MCTS:Monte-Carlo Tree Search),以价值网络(value network)和策略网络(policy network)为指导,其中价值网络用于预测游戏的胜利者,策略网络用于选择下一步行动。价值网络和策略网络都是使用深度神经网络技术实现的,神经网络的输入是经过预处理的围棋面板的描述(description of Go board)。
AlphaGo系统的神经网络最初是从人类游戏玩法的专业知识中引导(bootstrap)出来的,试图通过使用大约3000万次移动的数据库来匹配记录的历史游戏中的专业棋手的动作。一旦达到了一定的熟练程度,就会进行进一步的训练,通过强化学习的试错来调整自己的策略,直至打败人类顶级围棋选手。训练AlphaGo需要巨大的计算资源,如2015年10月的分布式运算版本AlphaGo使用了1,202块CPU及176块GPU,DeepMind公司是使用Google云端平台训练AlphaGo。
来源:
Wikipedia: https://en.wikipedia.org/wiki/AlphaGo
DeepMind:https://deepmind.com/research/alphago/
Google Blog:https://blog.google/topics/machine-learning/alphago-machine-learning-game-go/
发展历史
一直以来,相比起国际象棋,计算机要在围棋方面胜过人类的难度更大,因为围棋有着更大的分支因子(branching factor)使得使用传统的AI方法(如alpha-beta修剪,树遍历和启发式搜索)变得非常困难。 1997年,IBM公司的计算机程序Deep Blue在比赛中击败了国际象棋世界冠军Garry Kasparov。在此后的近20年时间里,使用人工智能技术的最强大的Go程序仅仅达到了业余5段围棋选手级别,且在无让子的情况下仍然无法击败专业的Go棋手。2012年,运行在四台个人计算机集群上的软件程序Zen分别以让5子和让4子的情况下两次击败了日本9段选手武宫正树(Masaki Takemiya)。2013年,计算机程序Crazy Stone在让4子的情况下击败了日本9段棋手石田芳夫(Yoshio Ishida)。
据DeepMind公司介绍,AlphaGo研究项目始于2014年,目的是为了测试一个使用深度学习的神经网络如何在Go上竞争。 AlphaGo比以前的Go程序有了显着的改进,在与其他可用围棋程序(包括Crazy Stone和Zen)的500场比赛中,在单台计算机上运行的AlphaGo赢得了除一个之外的所有胜利,而运行在多台计算机上的AlphaGo赢得了与其他Go程序对战的所有500场比赛,在与单台计算机上运行的AlphaGo比赛中赢下了77%的对阵。 2015年10月的分布式版本使用了1,202个CPU和176个GPU,当时它以5: 0的比分击败了欧洲围棋冠军樊麾先生(职业2段选手),轰动一时。这是计算机围棋程序第一次在全局棋盘(19 x 19)且无让子的情况下击败了人类职业棋手。2016年3月,通过自我对弈进行练习的加强版AlphaGo在比赛中以4: 1击败了世界围棋冠军李世石,成为第一个在无让子情况下击败围棋职业九段棋手的计算机程序,载入史册。赛后,AlphaGo被韩国棋院授予名誉职业九段的称号。2016年12月至2017年1月,再度升级的AlphaGo在未公开真实身份的情况下,以Master名义在网上和中韩日台等一流职业棋手过招,取得了60战全胜的佳绩。2017年5月的乌镇围棋峰会上,进阶版的AlphaGo以3: 0的比分击败了当时世界第一围棋手柯洁。进阶版的AlphaGo相比起李世石版本,运算资源消耗更少,赛后,中国围棋协会授予AlphaGo职业围棋九段的称号。
2017年10月,DeepMind发布最新强化版的AlphaGo Zero,这是一个无需用到人类专业棋谱的版本,比之前的版本都强大。通过自我对弈,AlphaGo Zero经过三天的学习就超越了AlphaGo Lee版本的水平,21天后达到AlphaGo Maseter的实力,40天内超越之前所有版本。2017年12月,DeepMind发布AlphaZero论文,进阶版的AlphaZero算法将围棋领域扩展到国际象棋、日本象棋领域,且无需人类专业知识就能击败各自领域的世界冠军。
主要事件
年份 | 事件 | 相关论文 |
2016年 | DeepMind公司在Nature上发布了击败欧洲围棋冠军樊麾(Fan Hui)的AlphaGo版本论文,结合深度神经网络和树搜索技术 | Silver, D., Huang, A., Maddison, C. J., Guez, A., Sifre, L., Van Den Driessche, G., ... & Dieleman, S. (2016). Mastering the game of Go with deep neural networks and tree search. Nature, 529(7587), 484-489. |
2016年 | 2016年3月,通过自我对弈学习的加强版AlphaGo在比赛中以4:1击败了世界围棋冠军李世石,成为第一个在无让子情况下击败职业围棋九段选手的计算机 | |
2016年 | 2016年12月至2017年1月,升级版的AlphaGo在未公开真实身份的情况下,以Master的名义在网上和顶级棋手比赛,取得了60战全胜的佳绩。 | |
2017年 | 2017年5月的乌镇围棋峰会上,进阶版的AlphaGo以3: 0的比分击败了当时世界第一围棋选手柯洁 | |
2017年 | DeepMind公司在Nature发布了AlphaGo Zero论文,和之前的AlphaGo相比,新版本的AlphaGo Zero无需人类的知识,计算机程序通过自我对弈学习升级。 | Silver, D., Schrittwieser, J., Simonyan, K., Antonoglou, I., Huang, A., Guez, A., ... & Chen, Y. (2017). Mastering the game of go without human knowledge. Nature, 550(7676), 354. |
2017年 | DeepMind公司发布AlphaZero论文,进阶版的AlphaZero算法将围棋领域扩展到国际象棋、日本象棋领域,且无需人类专业知识就能击败各自领域的世界冠军 | Silver, D., Hubert, T., Schrittwieser, J., Antonoglou, I., Lai, M., Guez, A., ... & Lillicrap, T. (2017). Mastering Chess and Shogi by Self-Play with a General Reinforcement Learning Algorithm. arXiv preprint arXiv:1712.01815. |
发展分析
瓶颈
-AlphaGo目前只是在围棋、国际象棋、日本象棋等棋类游戏中表现优异,离通用人工智能这个目标还太遥远。如遇到复杂策略或分层策略如星际争霸等游戏中,计算机程序还任重道远。
未来发展方向
-AlphaZero的出现意味我们朝通用强化学习(general reinforcement learning)又近了一步。正如DeepMind公司所讲,未来我们可以在蛋白质折叠(protein folding),减少能源消耗(reduce energy consumption)或者寻找革命性的新材料(searching for revolutionary new materials)方面寻找新的突破口。
Contributor: Yufeng Xiong