Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

新书出版!《强化学习:前沿算法与应用》

由上海人工智能实验室白辰甲博士,哈工大赵英男博士,天津大学教授郝建业博士等联合编写的强化学习专著《强化学习:前沿算法与应用》由机械工业出版社出版发行,官方地址 https://item.jd.com/10077221594315.html .

1.内容提要

强化学习机器学习的重要分支,是实现通用人工智能(AI)的重要途径。与其他机器学习方法不同,强化学习通过与环境交互试错来获得经验,通过最大化奖励来学习长周期策略。从2015年以来,强化学习驱动的雅塔利游戏智能体、AlphaZero自我博弈围棋智能体、Alphastar星际争霸多智能体、人类反馈大语言模型等研究相继取得突破,使强化学习领域获得了越来越多的关注。近年来,包括算法层面和应用层面,整个强化学习领域都获得了突飞猛进的发展,在通用决策、机器人、大语言模型人工智能核心应用中发挥了关键作用。本书聚焦于强化学习的前沿算法和前沿应用,介绍完整的强化学习理论体系,构建从理论算法到实践应用的知识框架。

本书的作者长期进行强化学习领域研究,积累了丰富科研经验。本书系统地阐述强化学习的前沿算法和应用,内容包括值函数学习、策略梯度学习、值分布式学习、基于模型学习、环境探索、多目标学习、层次化学习、技能学习、离线学习、元学习、表示学习等强化学习方法,同时介绍了强化学习在智能控制、机器视觉、自然语言、医疗等领域应用。本书提供了大量的实现细节,提供了相应源代码,是一本学习、掌握和应用强化学习难得的书籍。

本书深入浅出、结构清晰、重点突出,系统地阐述了强化学习的前沿算法和应用。适合从事人工智能机器学习、优化控制、机器人、游戏AI等工作的专业技术人员阅读,还可作为计算机、人工智能、智能科学相关专业的研究生和高年级本科生的教材使用。配合开源代码,能够更快的加深对理论的理解,从而将强化学习算法应用到解决实际问题中。

2. 专家推荐评语

本书获得了多位人工智能领域专家的鼎力推荐。由吴飞教授作序,由悉尼科技大学张成奇教授,哈尔滨工业大学刘挺教授、北京大学邓小铁教授撰写推荐语。

吴飞

浙江大学求是特聘教授,浙江大学上海高等研究院常务副院长,

浙江大学人工智能研究所所长,国家杰青

中国新一代人工智能包含从数据到知识到决策的大数据智能、从处理单一类型媒体数据到不同模态(视觉、听觉和自然语言等)综合利用的跨媒体智能、从“个体智能”研究到聚焦群智涌现的群体智能、从追求“机器智能”到迈向人机混合的增强智能、从机器人到智能自主系统等智能形态,本书内容可为学习和应用新一代人工智能技术提供有益帮助。“欲粟者务时,欲治者因势”。强化学习作为一种通用的策略学习框架,向人们展示了其强大的能力和应用前景。祝贺本书出版,祝贺本书作者所取得的亮丽成果。



张成奇

悉尼科技大学教授,澳大利亚人工智能理事会理事长

强化学习的快速发展是令人振奋的,但目前仍缺乏系统阐述强化学习前沿算法和应用的书籍尤其是缺少中文版的书籍资料。本书及时填补了这一空白。本书作者系统地介绍了强化学习的基础知识,又将最前沿和最核心的研究成果汇集到这里,同时包含了理论算法和应用实例。本书可以作为强化学习非常好的教程供初学者入门学习,又可以供对强化学习感兴趣的研究人员、工程师和从业人员学习。我相信本书将会对国内强化学习领域的人才培养及科学研究贡献一份力量。

刘挺

哈工大副校长,计算学部主任,国家级领军人才

强化学习是近年来热门的研究方向,本书兼顾了基础知识和前沿算法,使读者可以根据自身的实际情况由浅入深地了解强化学习。本书同时介绍了强化学习在机器人、机器视觉自然语言处理等领域的应用,对于促进人工智能交叉研究有积极的推动作用,为不同领域的研究人员提供了桥梁。特别是近年来许多强化学习算法应用在自然语言处理问题中,用于解决文本理解、知识图谱机器翻译等问题,此类交叉硏究有良好的前景,有助于进一步推动文本理解的发展。

邓小铁

北京大学教授,ACM / IEEE Fellow

强化学习近年来在广度和深度上均获得了快速发展,逐渐成为相关研究和开发人员需要学习和了解的必备知识之一。本书从经典强化学习出发深入浅出地介绍了模型学习、探索与利用、多目标学习、层次化学习、技能学习等算法,并衍生出一些新兴的研究领域如使用离线学习、表示学习元学习提升算法的高效性和泛化能力。此外,结合智能控制、机器视觉自然语言处理、医疗推荐、金融等应用领域探讨了强化学习在复杂问题中的解决方案。本书提供了相关知识的讲解和系统性的分析,给读者介绍了完整的强化学习理论与应用的方法论。

3. 作者简介

本书作者均为强化学习人工智能领域的一线研究人员,拥有国内外一流大学博士学位。

白辰甲.  上海人工智能实验室青年研究员,博士毕业于哈尔滨工业大学计算学部,曾在加拿大多伦多大学联合培养,2022年获哈工大优秀博士论文奖。在高水平国际会议和期刊上发表论文20余篇,获机器学习顶会ICML、ICLR、NeurIPS亮点论文。研究方向包括强化学习、博弈智能和具身智能。

赵英男.  哈尔滨工程大学助理教授,博士毕业于哈尔滨工业大学计算学部,曾在加拿大阿尔伯塔大学进行联合培养,主要研究方向为深度强化学习表征学习等,在国际会议和期刊上发表多篇学术论文。

郝建业.  天津大学智算学部副教授,华为诺亚方舟决策推理实验室主任。主要研究方向为深度强化学习多智能体系统。发表人工智能领域国际会议和期刊论文100余篇,专著2部。 主持国家科技部2030重大项目课题、国防科技创新重点项目课题及企业横向课题等项目10余项,研究成果荣获国际会议最佳论文奖3次,NeurIPS20-22大会竞赛冠军4次。相关成果在工业基础软件智能化、自动驾驶、游戏AI、广告及推荐、5G优化、物流调度等领域落地应用。

刘鹏.  哈尔滨工业大学教授,博士生导师,模式识别与智能系统研究中心主任。主要研究方向为图像处理模式识别机器学习。发表学术论文50余篇,获发明专利10余项,获黑龙江省科技进步一等奖1项。

王震.  西北工业大学教授,网络空间安全学院书记,国家保密学院常务副院长,Elected Member of Academia Europaea (EA), European Academy of Sciences and Arts (EASA),AAIA Fellow, 全球高被引科学家,国家杰青,国防创新团队负责人。围绕博弈智能,人工智能基础理论,网络空间智能对抗,在Nature Communications,PNAS,Science Advance,AAAI,NeurIPS,ICML,ICLR等发表系列成果,WoS引用2万余次,编制完成行标5项。获科学探索奖,中国青年五四奖章,教育部、陕西省、学会科学技术奖一等奖等。

4.目录结构

本书分为三个部分,分别介绍强化学习基础算法,前沿算法与前沿应用。

基础算法部分:

第一章:强化学习基础

第二章:强化学习研究范畴和应用领域

第三章:学习值函数的强化学习算法

第四章:策略迭代强化学习算法

前沿算法部分:

第五章:基于模型的强化学习算法

第六章:值分布式强化学习算法

第七章:强化学习的探索算法

第八章:多目标强化学习算法

第九章:层次化强化学习算法

第十章:基于技能的强化学习算法

第十一章:离线强化学习算法

第十二章:元强化学习算法

第十三章:高效的离线强化学习表示算法

前沿应用部分:

第十四章:强化学习在智能控制中的应用

第十五章:强化学习机器视觉中的应用

第十六章:强化学习在语言处理中的应用

第十七章:强化学习在其他领域中的应用

理论强化学习
1
相关数据
华为机构

华为创立于1987年,是全球领先的ICT(信息与通信)基础设施和智能终端提供商。

https://www.huawei.com/cn/
刘挺人物

哈工大人工智能研究院副院长,国内NLP方向领军人物。

深度强化学习技术

强化学习(Reinforcement Learning)是主体(agent)通过与周围环境的交互来进行学习。强化学习主体(RL agent)每采取一次动作(action)就会得到一个相应的数值奖励(numerical reward),这个奖励表示此次动作的好坏。通过与环境的交互,综合考虑过去的经验(exploitation)和未知的探索(exploration),强化学习主体通过试错的方式(trial and error)学会如何采取下一步的动作,而无需人类显性地告诉它该采取哪个动作。强化学习主体的目标是学习通过执行一系列的动作来最大化累积的奖励(accumulated reward)。 一般来说,真实世界中的强化学习问题包括巨大的状态空间(state spaces)和动作空间(action spaces),传统的强化学习方法会受限于维数灾难(curse of dimensionality)。借助于深度学习中的神经网络,强化学习主体可以直接从原始输入数据(如游戏图像)中提取和学习特征知识,然后根据提取出的特征信息再利用传统的强化学习算法(如TD Learning,SARSA,Q-Learnin)学习控制策略(如游戏策略),而无需人工提取或启发式学习特征。这种结合了深度学习的强化学习方法称为深度强化学习。

AlphaZero技术

DeepMind 提出的 AlphaZero 不仅征服了围棋,也在将棋、国际象棋等复杂游戏中实现了超越人类的表现。DeepMind 推出的 AlphaGo 曾在围棋项目中取得了超越人类的表现,其研究曾经两次登上 Nature。2018 年 12 月,AlphaGo 的「完全自我博弈加强版」AlphaZero 的论文又登上另一大顶级期刊 Science 的封面。在论文中,AlphaZero 不仅征服了围棋,也在将棋、国际象棋等复杂游戏中实现了超越人类的表现。

策略迭代技术

策略迭代算法直接操纵策略,而不是通过最优值函数间接找到策略。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

调度技术

调度在计算机中是分配工作所需资源的方法。资源可以指虚拟的计算资源,如线程、进程或数据流;也可以指硬件资源,如处理器、网络连接或扩展卡。 进行调度工作的程序叫做调度器。调度器通常的实现使得所有计算资源都处于忙碌状态,允许多位用户有效地同时共享系统资源,或达到指定的服务质量。 see planning for more details

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

提升算法技术

Boosting是一种主要用于减少偏差的机器学习集成元算法,也是监督学习的一个变化,是一种将弱学习器转换为强学习器的机器学习算法家族。 Boosting是基于Kearns和Valiant(1988,1989)提出的问题:一组弱学习器能创造一个强大的学习器吗?一个弱的学习器被定义为一个分类器,它与真实的分类只有轻微的相关性(它可以比随机猜测更好地标注示例)。相反,强大的学习器是一个与真实分类任意相关的分类器。

模式识别技术

模式识别(英语:Pattern recognition),就是通过计算机用数学技术方法来研究模式的自动处理和判读。 我们把环境与客体统称为“模式”。 随着计算机技术的发展,人类有可能研究复杂的信息处理过程。 信息处理过程的一个重要形式是生命体对环境及客体的识别。其概念与数据挖掘、机器学习类似。

元学习技术

元学习是机器学习的一个子领域,是将自动学习算法应用于机器学习实验的元数据上。现在的 AI 系统可以通过大量时间和经验从头学习一项复杂技能。但是,我们如果想使智能体掌握多种技能、适应多种环境,则不应该从头开始在每一个环境中训练每一项技能,而是需要智能体通过对以往经验的再利用来学习如何学习多项新任务,因此我们不应该独立地训练每一个新任务。这种学习如何学习的方法,又叫元学习(meta-learning),是通往可持续学习多项新任务的多面智能体的必经之路。

策略梯度学习技术

Policy Gradient是一种策略搜索强化学习方法,求解强化学习问题的一种方法,类似于SVM——不估计后验概率而直接优化学习目标。

表征学习技术

在机器学习领域,表征学习(或特征学习)是一种将原始数据转换成为能够被机器学习有效开发的一种技术的集合。在特征学习算法出现之前,机器学习研究人员需要利用手动特征工程(manual feature learning)等技术从原始数据的领域知识(domain knowledge)建立特征,然后再部署相关的机器学习算法。虽然手动特征工程对于应用机器学习很有效,但它同时也是很困难、很昂贵、很耗时、并依赖于强大专业知识。特征学习弥补了这一点,它使得机器不仅能学习到数据的特征,并能利用这些特征来完成一个具体的任务。

知识图谱技术

知识图谱本质上是语义网络,是一种基于图的数据结构,由节点(Point)和边(Edge)组成。在知识图谱里,每个节点表示现实世界中存在的“实体”,每条边为实体与实体之间的“关系”。知识图谱是关系的最有效的表示方式。通俗地讲,知识图谱就是把所有不同种类的信息(Heterogeneous Information)连接在一起而得到的一个关系网络。知识图谱提供了从“关系”的角度去分析问题的能力。 知识图谱这个概念最早由Google提出,主要是用来优化现有的搜索引擎。不同于基于关键词搜索的传统搜索引擎,知识图谱可用来更好地查询复杂的关联信息,从语义层面理解用户意图,改进搜索质量。比如在Google的搜索框里输入Bill Gates的时候,搜索结果页面的右侧还会出现Bill Gates相关的信息比如出生年月,家庭情况等等。

机器翻译技术

机器翻译(MT)是利用机器的力量「自动将一种自然语言(源语言)的文本翻译成另一种语言(目标语言)」。机器翻译方法通常可分成三大类:基于规则的机器翻译(RBMT)、统计机器翻译(SMT)和神经机器翻译(NMT)。

图像处理技术

图像处理是指对图像进行分析、加工和处理,使其满足视觉、心理或其他要求的技术。 图像处理是信号处理在图像领域上的一个应用。 目前大多数的图像均是以数字形式存储,因而图像处理很多情况下指数字图像处理。

多智能体系统技术

一个多智能体系统,是由一个在一个环境中交互的多个智能体组成的计算系统。多智能体系统也能被用在解决分离的智能体以及单层系统难以解决的问题。智能可以由一些方法,函数,过程,搜索算法或加强学习来实现。尽管存在相当大的重叠,然而一个多智能体系统并不总是一个基于智能体的模型表现一致。

自然语言处理技术

自然语言处理(英语:natural language processing,缩写作 NLP)是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言;自然语言认知则是指让电脑“懂”人类的语言。自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化为计算机程序更易于处理的形式。

强化学习技术

强化学习是一种试错方法,其目标是让软件智能体在特定环境中能够采取回报最大化的行为。强化学习在马尔可夫决策过程环境中主要使用的技术是动态规划(Dynamic Programming)。流行的强化学习方法包括自适应动态规划(ADP)、时间差分(TD)学习、状态-动作-回报-状态-动作(SARSA)算法、Q 学习、深度强化学习(DQN);其应用包括下棋类游戏、机器人控制和工作调度等。

语言模型技术

语言模型经常使用在许多自然语言处理方面的应用,如语音识别,机器翻译,词性标注,句法分析和资讯检索。由于字词与句子都是任意组合的长度,因此在训练过的语言模型中会出现未曾出现的字串(资料稀疏的问题),也使得在语料库中估算字串的机率变得很困难,这也是要使用近似的平滑n元语法(N-gram)模型之原因。

群体智能技术

集群智能(Swarm Intelligence),是指在某群体中,若存在众多无智能的个体,它们通过相互之间的简单合作所表现出来的智能行为,集群机器人便是集群智能一类。它由Gerardo Beni和Jing Wang于1989年在细胞机器人系统的背景下引入。

通用人工智能技术

通用人工智能(AGI)是具有一般人类智慧,可以执行人类能够执行的任何智力任务的机器智能。通用人工智能是一些人工智能研究的主要目标,也是科幻小说和未来研究中的共同话题。一些研究人员将通用人工智能称为强AI(strong AI)或者完全AI(full AI),或称机器具有执行通用智能行为(general intelligent action)的能力。与弱AI(weak AI)相比,强AI可以尝试执行全方位的人类认知能力。

5G技术

第五代移动通信系统(5th generation mobile networks),简称5G,是4G系统后的延伸。美国时间2018年6月13日,圣地牙哥3GPP会议订下第一个国际5G标准。由于物理波段的限制,5G 的网络也将会与其他通信技术并用,包含长距离的其他传统电信波段。

机器视觉技术

机器视觉(Machine Vision,MV)是一种为自动化检测、过程控制和机器人导航等应用提供基于图像的自动检测和分析的技术和方法,通常用于工业领域。

围棋技术

围棋是一种策略性棋类,使用格状棋盘及黑白二色棋子进行对弈。起源于中国,中国古时有“弈”、“碁”、“手谈”等多种称谓,属琴棋书画四艺之一。西方称之为“Go”,是源自日语“碁”的发音。

北京大学机构

北京大学创办于1898年,初名京师大学堂,是中国第一所国立综合性大学,也是当时中国最高教育行政机关。辛亥革命后,于1912年改为现名。2000年4月3日,北京大学与原北京医科大学合并,组建了新的北京大学。原北京医科大学的前身是国立北京医学专门学校,创建于1912年10月26日。20世纪三、四十年代,学校一度名为北平大学医学院,并于1946年7月并入北京大学。1952年在全国高校院系调整中,北京大学医学院脱离北京大学,独立为北京医学院。1985年更名为北京医科大学,1996年成为国家首批“211工程”重点支持的医科大学。两校合并进一步拓宽了北京大学的学科结构,为促进医学与人文社会科学及理科的结合,改革医学教育奠定了基础。

官网,http://www.pku.edu.cn/
推荐文章
暂无评论
暂无评论~