强化学习基本概念
强化理论最开始是心理学的概念,它是过程型激励理论之一,最早要追溯到美国的心理学家斯金纳。斯金纳认为人的行为是对其所获刺激的函数。如果这种刺激对他有利,则这种行为就会重复出现;若对他不利,则这种行为就会减弱直至消失。根据强化的性质和目的,可以分为正强化和负强化两大类型。斯金纳认为通过奖惩的设计,可以改变人或者动物的行为习惯。
在强化学习的基本概念和斯金纳的差不多,强化学习通过agent与环境的动作/交互Action,得到与之对应的奖励或者惩罚,并在这样的环境中进行迭代,与环境的交互意味着agent可以不断在经验中修正自己的决策,也就是policy。
大致框架如下图所示:
下面我们来举一个大家都熟悉的例子,来帮助大家理解强化学习的基本概念:
Pacman大家小时候在街机或者游戏机上可能都玩过,下面我们用强化学习的术语来定义pacman这个problem。
环境 Environment
在强化学习中,我们通常对环境的定义是所有于agent进行交互的东西。在我们这个例子里,pacman的环境包含了机器人agent的游戏世界,比如迷宫的形状、迷宫的不可穿墙性,也包含了游戏规则,比如机器人pacman可以吃豆子变无敌、无敌的时间、无敌时候可以吃掉敌人、敌人还可以再生等等。简单说是可以可以容纳agent的一个“容器”,同时它有它自己的世界和规则。