清华大学人工智能研究院开源「天授」强化学习平台
深度强化学习(deep RL)近年来取得了令人瞩目的进步,在 Atari 游戏、围棋等领域战胜了人类。但是,在面对不确定环境、不完全信息的任务时仍然面临很大的挑战。如何求解非完全信息、不确定条件下的决策问题成为当前人工智能面临的重要挑战。清华大学人工智能研究院基础理论研究中心聚焦这一问题,开展了一系列理论和关键技术研究,自研了深度强化学习算法平台「天授」,日前向业界开源 (https://github.com/thu-ml/tianshou)。「天授」源自《史记》,意为「取天所授而非学自人类」,刻画了强化学习通过与环境进行交互自主学习,而不需要像监督学习一样需要大量人类标注数据。「天授」针对现有平台训练速度慢的缺点,在并行采样基础上提高数据收集能力,采用了 cache_buffer 配合 trainer 联动即可达到每秒 5000-6000 fps 的速度;同时注重代码模块化设计,通过避免不必要的额外运算,将 reward normalization 等现有各类实现中被证明行之有效的各种改进吸纳进「天授 0.2」版本。「天授」是继「珠算」可微分概率编程库(https://github.com/thu-ml/zhusuan)之后,该中心推出的又一个面向复杂决策任务的编程库。