2019/01/17 16:38

强化学习在金融市场中的应用（上）

强化学习基本概念

强化理论最开始是心理学的概念，它是过程型激励理论之一，最早要追溯到美国的心理学家斯金纳。斯金纳认为人的行为是对其所获刺激的函数。如果这种刺激对他有利，则这种行为就会重复出现；若对他不利，则这种行为就会减弱直至消失。根据强化的性质和目的，可以分为正强化和负强化两大类型。斯金纳认为通过奖惩的设计，可以改变人或者动物的行为习惯。

在强化学习的基本概念和斯金纳的差不多，强化学习通过agent与环境的动作/交互Action，得到与之对应的奖励或者惩罚，并在这样的环境中进行迭代，与环境的交互意味着agent可以不断在经验中修正自己的决策，也就是policy。

大致框架如下图所示：

下面我们来举一个大家都熟悉的例子，来帮助大家理解强化学习的基本概念：

Pacman大家小时候在街机或者游戏机上可能都玩过，下面我们用强化学习的术语来定义pacman这个problem。

环境 Environment

在强化学习中，我们通常对环境的定义是所有于agent进行交互的东西。在我们这个例子里，pacman的环境包含了机器人agent的游戏世界，比如迷宫的形状、迷宫的不可穿墙性，也包含了游戏规则，比如机器人pacman可以吃豆子变无敌、无敌的时间、无敌时候可以吃掉敌人、敌人还可以再生等等。简单说是可以可以容纳agent的一个“容器”，同时它有它自己的世界和规则。

专业用户独享

本文为机器之心深度精选内容，专业认证后即可阅读全文

开启专业认证

登录后开启专业认证去登录

入门强化学习智慧金融