序列决策任务可以表示为以下形式:一个决策代理(decision agent)与离散的时间动态系统进行迭代地交互。 在每个时间步的开始时,系统会处于某种状态。基于代理的决策规则,它会观察当前的状态,并从有限状态集中选择一个。然后,动态系统会进入下一个新的状态并获得一个对应的收益。这样循环进行状态选择,以获得一组最大化收益。
一般而言,序列决策问题可以分为三个类型:
- 系统下一步可能出现的状态的概率分布是已知的,这类问题也被称为马尔可夫决策问题。
- 这类问题被称为马尔可夫博弈,也称为随机博弈(stochastic game)。它由一系列代理组成。在每一阶段的起始,博弈处于某种特定状态。每一参与者选择某种行动,然后会获得取决于当前状态和所选择行动的收益。之后,博弈发展到下一阶段,处于一个新的随机状态,这一随机状态的分布取决于先前状态和各位参与者选择的行动。在新状态中重复上述过程,然后博弈继续进行有限或无限个数的阶段。
- 系统假设状态是由马尔可夫过程决定的,但是无法直接的观测潜在状态,这类问题被称为部分可观察的马尔可夫决策过程(POMDPS)
这几类问题的区别可以用下图进行区分:
[描述来源:Littman, M. L. (1996). Algorithms for sequential decision making. URL:file:///Users/fzh/Downloads/download.pdf; Wikipedia,URL:https://en.wikipedia.org/wiki/Stochastic_game ]
现阶段比较流行的强化学习可以被归结为MDP问题的一部分,它根据决策过程的不同也可以分为四种:
[图片来源:Littman, M. L. (1996). Algorithms for sequential decision making. URL:file:///Users/fzh/Downloads/download.pdf]
发展历史
序贯决策任务包含很多分支,包括MDP和POMDPS等。1957年,MDP被提出。自序贯模型被提出以来,被应用在了很多领域,如实验室中的处理天然气管道控制问题、口语识别、以及实际应用中的飞行模拟器学习等。2013年,深度强化学习Q-learning被提出。2017年,Q-LDA被提出,用于序贯决策问题。
主要事件
年份 | 事件 | 相关论文/Reference |
1957 | 马尔可夫决策过程被提出 | Bellman, R. (1957). A Markovian decision process. Journal of Mathematics and Mechanics, 679-684. |
1983 | 提出使用序贯决策处理天然气管道控制问题 | Goldberg, D. E. (1983). Computer-aided gas pipeline operation using genetic algorithms and rule learning. |
1985 | 序贯决策问题处理杆平衡问题 | Selfridge, O. G., Sutton, R. S., & Barto, A. G. (1985, August). Training and Tracking in Robotics. In IJCAI (pp. 670-672). |
1987 | 序贯决策应用于口语识别问题 | Marslen-Wilson, W. D. (1987). Functional parallelism in spoken word-recognition. Cognition, 25(1-2), 71-102. |
1990 | 将序贯决策应用到实际中:飞行模拟器学习战术决策规则的问题 | Grefenstette, J. J., Ramsey, C. L., & Schultz, A. C. (1990). Learning sequential decision rules using simulation models and competition. Machine learning, 5(4), 355-381. |
1998 | 对序贯学习中的强化学习分支进行了归纳和总结 | Sutton, R. S., & Barto, A. G. (1998). Reinforcement learning: An introduction (Vol. 1, No. 1). Cambridge: MIT press. |
2005 | 将序贯决策方法应用到气候突变的威胁 | Read, P., & Lermit, J. (2005). Bio-energy with carbon storage (BECS): a sequential decision approach to the threat of abrupt climate change. Energy, 30(14), 2654-2671. |
2012 | 将马尔可夫决策过程应用在机器人的行为控制上 | Kober, J., & Peters, J. (2012). Reinforcement learning in robotics: A survey. In Reinforcement Learning (pp. 579-610). Springer, Berlin, Heidelberg. |
2013 | Mnih et al. 提出深度 Q 学习(DQN) | Mnih, V., Kavukcuoglu, K., Silver, D., Graves, A., Antonoglou, I., Wierstra, D., & Riedmiller, M. (2013). Playing atari with deep reinforcement learning. arXiv preprint arXiv:1312.5602. |
2017 | 提出了一个概率模型Q-LDA,用于文本的序贯决策问题 | Chen, J., Wang, C., Xiao, L., He, J., Li, L., & Deng, L. (2017). Q-LDA: Uncovering Latent Patterns in Text-based Sequential Decision Processes. In Advances in Neural Information Processing Systems (pp. 4984-4993). |
发展分析
瓶颈
强化学习作为序贯学习的一部分,现阶段得到广泛的应用。但是,由于强化学习的黑箱本质,用户很难理解序贯学习中的隐变量的含义。而且现阶段一些论文中提出的复杂的强化学习方法,标准基准环境中的不确定性和不同方法之间的内在差异更增加了复现的难度。
未来发展方向
发展深度强化学习是序贯学习的一个重要分支。强化学习是人工智能的未来。未来智能系统需要能够在不接受持续监督的情况下自主学习,而强化学习正是其中的最佳代表之一。
Contributor:Yilin Pan