「对于很多强化学习应用而言,很难编写出明确的奖励函数来指定究竟应该如何权衡不同的需求。事实上,工程师通常需要花费大量精力来调整奖励函数,以便为他们想解决的任务找到最优的策略。比如,驾驶汽车的任务就需要权衡多种需求,比如速度、跟车距离、车道偏好、变道频率、距路沿的距离等。为驾驶任务指定奖励函数需要明确这些特征之前的权衡。」而在逆向强化学习中,我们是观察专家(expert)执行任务,然后推理它们优化的奖励函数。
[描述来源: https://link.springer.com/referenceworkentry/10.1007%2F978-0-387-30164-8_ 417 ]
主要事件
年份 | 事件 | 相关论文/Reference |
1999 | 第一篇 IRL 论文(Ng and Russel) | https://ai.stanford.edu/~ang/papers/icml00-irl.pdf |
2004 | 第二篇重要 IRL 论文(Abbeel and Ng) | https://ai.stanford.edu/~ang/papers/icml04-apprentice.pdf |
2008 | 第三篇重要 IRL 论文(Ziebart et al) | https://www.aaai.org/Papers/AAAI/2008/AAAI08-227.pdf |
发展分析
瓶颈
- 泛化用于未曾见过的状态;
- 工程设计(或学习)一个特征空间;
- 对抗奖励设计(古德哈特定律的一个案例):优化所学习的奖励函数的智能体可以学习达到真实奖励低于所学到的奖励的状态;
- 计算成本:策略需要重新训练许多次以推断真实奖励函数,因为要得到对奖励函数的当前最佳估计,需要训练一个策略来评估梯度。
未来发展方向
- 深度逆向强化学习(也被称为深度引导式成本学习)
- 对抗逆向强化学习(引导式成本学习的改进形式)
Contributor: Sören Mindermann
多伦多 Vector Institute 的人工智能安全研究实习生。曾在加州大学伯克利分校的 Center for Human-compatible AI 和牛津大学人类未来学院工作过,拥有伦敦大学学院的机器学习硕士学位。