Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

逆向强化学习

「对于很多强化学习应用而言,很难编写出明确的奖励函数来指定究竟应该如何权衡不同的需求。事实上,工程师通常需要花费大量精力来调整奖励函数,以便为他们想解决的任务找到最优的策略。比如,驾驶汽车的任务就需要权衡多种需求,比如速度、跟车距离、车道偏好、变道频率、距路沿的距离等。为驾驶任务指定奖励函数需要明确这些特征之前的权衡。」而在逆向强化学习中,工程师观察专家(expert)执行任务,然后推理出它们优化的奖励函数。 

简介

「对于很多强化学习应用而言很难编写出明确的奖励函数来指定究竟应该如何权衡不同的需求。事实上,工程师通常需要花费大量精力来调整奖励函数,以便为他们想解决的任务找到最优的策略。比如,驾驶汽车的任务就需要权衡多种需求,比如速度、跟车距离、车道偏好、变道频率路沿的距离等。为驾驶任务指定奖励函数需要明确这些特征之前的权衡。」在逆向强化学习中,我们是观察专家expert执行任务,然后推理它们优化的奖励函数。

[描述来源: https://link.springer.com/referenceworkentry/10.1007%2F978-0-387-30164-8_ 417 ]

主要事件

年份事件相关论文/Reference
1999第一篇 IRL 论文(Ng and Russelhttps://ai.stanford.edu/~ang/papers/icml00-irl.pdf
2004第二篇重要 IRL 论文Abbeel and Nghttps://ai.stanford.edu/~ang/papers/icml04-apprentice.pdf
2008第三篇重要 IRL 论文(Ziebart et alhttps://www.aaai.org/Papers/AAAI/2008/AAAI08-227.pdf

发展分析

瓶颈

  • 泛化用于未曾见过的状态;
  • 工程设计(或学习一个特征空间; 
  • 对抗奖励设计古德哈特定律的一个案例):优化所学习的奖励函数的智能体可以学习达到真实奖励低于所学到的奖励的状态; 
  • 计算成本:策略需要重新训练许多次以推断真实奖励函数,因为要得到对奖励函数的当前最佳估计需要训练一个策略来评估梯度。

未来发展方向

  • 深度逆向强化学习(也被称为深度引导式成本学习) 
  • 对抗逆向强化学习(引导式成本学习的改进形式)

Contributor: Sören Mindermann

多伦多 Vector Institute 的人工智能安全研究实习生。曾在加州大学伯克利分校的 Center for Human-compatible AI 和牛津大学人类未来学院工作拥有伦敦大学学院的机器学习硕士学位

简介