由上海人工智能实验室白辰甲博士,哈工大赵英男博士,天津大学教授郝建业博士等联合编写的强化学习专著《强化学习:前沿算法与应用》由机械工业出版社出版发行,官方地址 https://item.jd.com/10077221594315.html .
1.内容提要
强化学习是机器学习的重要分支,是实现通用人工智能(AI)的重要途径。与其他机器学习方法不同,强化学习通过与环境交互试错来获得经验,通过最大化奖励来学习长周期策略。从2015年以来,强化学习驱动的雅塔利游戏智能体、AlphaZero自我博弈围棋智能体、Alphastar星际争霸多智能体、人类反馈大语言模型等研究相继取得突破,使强化学习领域获得了越来越多的关注。近年来,包括算法层面和应用层面,整个强化学习领域都获得了突飞猛进的发展,在通用决策、机器人、大语言模型等人工智能核心应用中发挥了关键作用。本书聚焦于强化学习的前沿算法和前沿应用,介绍完整的强化学习理论体系,构建从理论算法到实践应用的知识框架。
本书的作者长期进行强化学习领域研究,积累了丰富科研经验。本书系统地阐述强化学习的前沿算法和应用,内容包括值函数学习、策略梯度学习、值分布式学习、基于模型学习、环境探索、多目标学习、层次化学习、技能学习、离线学习、元学习、表示学习等强化学习方法,同时介绍了强化学习在智能控制、机器视觉、自然语言、医疗等领域应用。本书提供了大量的实现细节,提供了相应源代码,是一本学习、掌握和应用强化学习难得的书籍。
本书深入浅出、结构清晰、重点突出,系统地阐述了强化学习的前沿算法和应用。适合从事人工智能、机器学习、优化控制、机器人、游戏AI等工作的专业技术人员阅读,还可作为计算机、人工智能、智能科学相关专业的研究生和高年级本科生的教材使用。配合开源代码,能够更快的加深对理论的理解,从而将强化学习算法应用到解决实际问题中。
2. 专家推荐评语
本书获得了多位人工智能领域专家的鼎力推荐。由吴飞教授作序,由悉尼科技大学张成奇教授,哈尔滨工业大学刘挺教授、北京大学邓小铁教授撰写推荐语。
吴飞
浙江大学求是特聘教授,浙江大学上海高等研究院常务副院长,
浙江大学人工智能研究所所长,国家杰青
中国新一代人工智能包含从数据到知识到决策的大数据智能、从处理单一类型媒体数据到不同模态(视觉、听觉和自然语言等)综合利用的跨媒体智能、从“个体智能”研究到聚焦群智涌现的群体智能、从追求“机器智能”到迈向人机混合的增强智能、从机器人到智能自主系统等智能形态,本书内容可为学习和应用新一代人工智能技术提供有益帮助。“欲粟者务时,欲治者因势”。强化学习作为一种通用的策略学习框架,向人们展示了其强大的能力和应用前景。祝贺本书出版,祝贺本书作者所取得的亮丽成果。
张成奇
悉尼科技大学教授,澳大利亚人工智能理事会理事长
强化学习的快速发展是令人振奋的,但目前仍缺乏系统阐述强化学习前沿算法和应用的书籍尤其是缺少中文版的书籍资料。本书及时填补了这一空白。本书作者系统地介绍了强化学习的基础知识,又将最前沿和最核心的研究成果汇集到这里,同时包含了理论算法和应用实例。本书可以作为强化学习非常好的教程供初学者入门学习,又可以供对强化学习感兴趣的研究人员、工程师和从业人员学习。我相信本书将会对国内强化学习领域的人才培养及科学研究贡献一份力量。
刘挺
哈工大副校长,计算学部主任,国家级领军人才
强化学习是近年来热门的研究方向,本书兼顾了基础知识和前沿算法,使读者可以根据自身的实际情况由浅入深地了解强化学习。本书同时介绍了强化学习在机器人、机器视觉、自然语言处理等领域的应用,对于促进人工智能交叉研究有积极的推动作用,为不同领域的研究人员提供了桥梁。特别是近年来许多强化学习算法应用在自然语言处理问题中,用于解决文本理解、知识图谱机器翻译等问题,此类交叉硏究有良好的前景,有助于进一步推动文本理解的发展。
邓小铁
北京大学教授,ACM / IEEE Fellow
强化学习近年来在广度和深度上均获得了快速发展,逐渐成为相关研究和开发人员需要学习和了解的必备知识之一。本书从经典强化学习出发深入浅出地介绍了模型学习、探索与利用、多目标学习、层次化学习、技能学习等算法,并衍生出一些新兴的研究领域如使用离线学习、表示学习元学习等提升算法的高效性和泛化能力。此外,结合智能控制、机器视觉、自然语言处理、医疗推荐、金融等应用领域探讨了强化学习在复杂问题中的解决方案。本书提供了相关知识的讲解和系统性的分析,给读者介绍了完整的强化学习理论与应用的方法论。
3. 作者简介
本书作者均为强化学习和人工智能领域的一线研究人员,拥有国内外一流大学博士学位。
白辰甲. 上海人工智能实验室青年研究员,博士毕业于哈尔滨工业大学计算学部,曾在加拿大多伦多大学联合培养,2022年获哈工大优秀博士论文奖。在高水平国际会议和期刊上发表论文20余篇,获机器学习顶会ICML、ICLR、NeurIPS亮点论文。研究方向包括强化学习、博弈智能和具身智能。
赵英男. 哈尔滨工程大学助理教授,博士毕业于哈尔滨工业大学计算学部,曾在加拿大阿尔伯塔大学进行联合培养,主要研究方向为深度强化学习,表征学习等,在国际会议和期刊上发表多篇学术论文。
郝建业. 天津大学智算学部副教授,华为诺亚方舟决策推理实验室主任。主要研究方向为深度强化学习、多智能体系统。发表人工智能领域国际会议和期刊论文100余篇,专著2部。 主持国家科技部2030重大项目课题、国防科技创新重点项目课题及企业横向课题等项目10余项,研究成果荣获国际会议最佳论文奖3次,NeurIPS20-22大会竞赛冠军4次。相关成果在工业基础软件智能化、自动驾驶、游戏AI、广告及推荐、5G优化、物流调度等领域落地应用。
刘鹏. 哈尔滨工业大学教授,博士生导师,模式识别与智能系统研究中心主任。主要研究方向为图像处理、模式识别、机器学习。发表学术论文50余篇,获发明专利10余项,获黑龙江省科技进步一等奖1项。
王震. 西北工业大学教授,网络空间安全学院书记,国家保密学院常务副院长,Elected Member of Academia Europaea (EA), European Academy of Sciences and Arts (EASA),AAIA Fellow, 全球高被引科学家,国家杰青,国防创新团队负责人。围绕博弈智能,人工智能基础理论,网络空间智能对抗,在Nature Communications,PNAS,Science Advance,AAAI,NeurIPS,ICML,ICLR等发表系列成果,WoS引用2万余次,编制完成行标5项。获科学探索奖,中国青年五四奖章,教育部、陕西省、学会科学技术奖一等奖等。
4.目录结构
本书分为三个部分,分别介绍强化学习基础算法,前沿算法与前沿应用。
基础算法部分:
第一章:强化学习基础
第二章:强化学习研究范畴和应用领域
第三章:学习值函数的强化学习算法
第四章:策略迭代的强化学习算法
前沿算法部分:
第五章:基于模型的强化学习算法
第六章:值分布式强化学习算法
第七章:强化学习的探索算法
第八章:多目标强化学习算法
第九章:层次化强化学习算法
第十章:基于技能的强化学习算法
第十一章:离线强化学习算法
第十二章:元强化学习算法
第十三章:高效的离线强化学习表示算法
前沿应用部分:
第十四章:强化学习在智能控制中的应用
第十五章:强化学习在机器视觉中的应用
第十六章:强化学习在语言处理中的应用
第十七章:强化学习在其他领域中的应用