从强化学习到MCTS,从星际争霸AI到自动驾驶,上海人工智能实验室开源决策智能平台OpenDILab,自带最优参数,一键上手SOTA决策AI算法,AI开发者们赶快试试这个新开源的国产决策AI平台OpenDILab。
撰文 | 机器之心编辑部
开源是推动人工智能技术进步的重要力量。
近年来,AI开发者们也一直在享受着开源带来的技术红利:前沿算法、数据、AI框架、甚至算力。这些开源资源为开发者们带来了极大的便利,而反过来,通过汇聚开发者们的力量,这些开源项目也得到了极大的发展。
在意识到开源的力量之后,国内高校、企业也纷纷加入到开源社区。
昨日,在2021世界人工智能大会上,上海人工智能实验室就做出了开源新动作:开源决策智能平台OpenDILab。
2021WAIC大会科学前沿全体会议上,上海人工智能实验室青年科学家刘宇博士发布OpenDILab开源决策AI平台
据介绍,它是首个覆盖最全学术界算法和工业级规模的决策AI平台。也就是说,OpenDILab不仅实现了最全面的算法覆盖,例如强化学习,还提供了丰富的工业级应用环境,可应用于自动驾驶、游戏竞技等领域。
如今,OpenDILab已经被放到Github上。就让我们对此项目一探究竟。
GitHub:https://github.com/opendilab/
一 为什么要开源OpenDILab?
首先,为什么要做这样一个平台?
我们知道,过去10年,感知AI已经让机器具备了从「看清」到「看懂」的能力,例如,给定一张猫的图片,机器能够判别出这是一只猫。
然而相较于这种感知层面的人工智能,决策AI问题是一项更加复杂的任务,它需要进行推理、决策、规划等。
因此,决策AI是下一代AI的重要方向已经是业界共识。
目前决策AI主要存在两大难题:
一是决策类问题因涉及多模态数据空间、跨尺度计算逻辑、多领域算法融合,这些问题很难标准化。与感知类AI单纯的视觉信息不同,决策类AI通常需要同时处理诸如图像、语音、结构化数据等多种复杂模态的数据类型。此外,单机单卡与多机多卡甚至跨集群计算的决策AI计算逻辑也完全不同。不同任务间的最优算法配置也差别较大。
二是作为一个前沿领域,决策AI的问题定义和研究视角在学术界和工业界之间存在巨大差距,诸多新奇的学术算法缺少环境和计算pipeline上的通用性,很多情况下只能局限于toy model级别的实验环境,无法转化到真正的工业场景上去,而从工业界本身来看,如何将实际问题抽象为适合现有的决策AI算法解决的环境,仍是阻碍决策AI技术应用实践的核心门槛。
针对决策AI的技术难题,以及产学研协同创新过程中的困难,上海人工智能实验室开源了OpenDILab平台。它首次将产业应用中对于训练系统、环境接口、算法设计的需求与学术界进行了有效连接。
作为一套完备的决策 AI 训练与组织框架,OpenDILab 平台自顶而下覆盖了应用层、算法层、训练层和支持层,适配了从单机到服务器集群规模的全尺度高效训练pipeline。
OpenDILab平台概览。
· 应用层:涵盖多种决策场景,支持多模态数据空间的表示和变换,并提供大量性能优异的算子,助力AI做出最优决策;
· 算法层:提供多种常用模块化组件,可在此基础上构建不同的算法模型,支持用户多维度的扩展和定制,完成决策AI算法的大统一;
· 训练层:内置多种类型的执行计算图,并深度优化了相应数据吞吐和资源利用率,可为小到学术研究,大到工业级应用的多种规模问题提供支持;
· 支持层:尝试了CUDA异构计算和决策AI算法的结合,而在资源调度方面,OpenDILab可依据算法和资源,动态管理整个训练过程,提供异常自动化维护等多种微服务。作为一个系统工程,OpenDILab为AI+SYSTEM带来了全新形态。
二 一键实现决策算法与应用
OpenDILab (beta) 开源后,研究者和开发者们可以访问github,获取最强最全的决策AI算法Zoo,查看自动驾驶、游戏AI等工业问题在OpenDILab平台加持下的具体实践,以及诸多决策AI系统设计和优化的相关组件。
在OpenDILab(beta)的开源版本里,我们可以看到它已经开放了四个核心代码库,最底层的DI-engine,致力于解决决策AI环境算力标准化的训练问题;中层的算法抽象层DI-zoo,提供了目前最全最强的决策AI算法集合。还有顶部应用生态层,开源了基于 DI-engine的自动驾驶决策平台DI-drive和面向策略游戏《星际争霸II》的大规模分布式训练平台DI-star。
DI-engine是一个通用的决策智能引擎,不仅支持 DQN、PPO、SAC 等大多数基础的深度强化学习(DRL)算法,而且支持诸多特定研究领域的算法,如多智能体RL中的QMIX、逆向RL中的GAIL 和探索和稀疏奖励问题中的HER,RND等等。对于每种算法,可以从多种环境和多种训练pipeline的角度探索决策AI技术的不同形态。
DI-zoo则可以为开发者提供当前最全、最强的决策AI算法集,拥有包括强化学习、MARL、MCTS等20多种跨领域决策AI算法,支持10多个决策AI环境,并原生集成了大量研究员的算法调优经验。这为开发者省去了调参困扰,方便在统一平台对比性能。
而说到应用层的两个代码库:DI-star、DI-drive,可以说是研究决策AI最合适的场景。
从国际象棋、围棋到麻将、斗地主,各类游戏一直都是AI挑战的对象,而这些复杂的游戏也成为了研究AI技术的绝佳场景。星际争霸2作为目前难度最高的游戏之一,为检验人工智能决策能力提供了合适的舞台。
基于DI-engine的底层支持和大规模分布式深度强化学习训练技术,DI-star打造出了人类大师分段水平星际争霸2智能体,并把完整的技术实现细节和与人机对战测试(仅需Windows系统+1060以上显卡)开放给所有人,希望借此促进通用人工智能的研究。
同时OpenDILab团队也希望借助DI-star,汇聚更多社区开发者的力量优化大规模深度强化学习训练效率等方面的问题,将AlphaStar级别的智能体设计简化到原来的1/20~1/30。
自动驾驶同样也是当前人工智能的热门研究方向。决策、规划与控制是自动驾驶任务的大脑,被各大公司视作高度保密技术。DI-drive是自动驾驶领域第一个开源的,人人可以参与的研究平台。
DI-drive支持各种模仿学强化学习等决策算法,支持多模态类型的输入输出,支持高度定制的可视化模块,为自动驾驶和决策 AI 搭建了至关重要的桥梁。DI-drive 还自主研发设计了 Casezoo 这一从实车采集数据转化而成的测试场景,在及贴近真实的驾驶环境中训练和测试决策模型,促进自动驾驶领域仿真研究在实车环境中的推广和应用。
未来,OpenDILab还将提供诸如AutoML、信控等更多的工业级生态应用,加速下一代人工智能的重大技术突破和创新应用的落地。
而对我们开发者来说,一个开源平台是否有意义在于能为我们带来哪些方面的增益,OpenDILab平台的开源也不例外。
无论你是想入门决策AI的技术萌新,还是志在探索算法真理的研究员,又或是想应用决策AI技术到各类实际应用中的工程师,都可以通过OpenDILab平台获得在算法,系统,工程等方面的经验和工具支持。而现今开源的OpenDILab (beta) ,也正在期待更多的开发者使用、反馈并逐渐完善它,整个社区一起共同构建最强最好用的决策AI平台。
Exploration and Exploitation,就从现在开始!