强化学习介绍

2018-11-12

memo

我们有两种学习方式：

当episode结束时（智能体到达一个“终止状态”），智能体视其总共的累计奖励来知晓它做的怎么样。在蒙特卡罗方法中，只有在游戏的最后才会收到奖励。

然后，带着新增的知识开启一轮新游戏。智能体每次迭代会做出更好的决策。

强化学习智能体的目标是最大化期望的累计奖励，然而，我们会陷入一个共同的陷阱。

我们必须定义一个规则帮助我们处理这种权衡。

解决强化学习问题的三种方法是：基于值、基于策略、基于模型。

在基于值的强化学习中，目标是优化值函数

值函数告知我们智能体在每个状态得到的最大期望将来奖励

每个状态的值是在那个状态的智能体期望在将来累计的奖励总数。
$$
V_\pi(s)=\mathbb{E_\pi}[R_{t+1}+\gamma R_{t+2}+\gamma ^2 R_{t+3}+…|S_t =s]
$$
智能体会使用这个值函数去在每一步选择一个状态，选择的状态具有最大的值。

在基于策略的强化学习中，我们想不使用值函数而直接优化策略函数$\mathtt{\pi}(s)$。

策略是在一个给定的时间对智能体行为的定义。
$$
a=\pi(s)
$$
我们学习一个策略函数，使每个状态映射到对应的最好动作。

我们有两种策略：

$$
\text{Stochastic policy:} \ \pi(a|s)=\mathbb{P}[A_t=a|S_t=s]
$$

策略直接表明每一步应该采取的最好动作。

在基于模型的强化学习中，我们对环境建模。这意味着我们创建了一个环境行为的模型。