强化学习介绍

 memo
 

蒙特卡罗 VS TD学习方法

我们有两种学习方式:

  • 在episode的最后收集奖励并计算最大期望将来奖励:蒙特卡罗方法
  • 估计每一步的奖励:时序差分学习
蒙特卡罗

当episode结束时(智能体到达一个“终止状态”),智能体视其总共的累计奖励来知晓它做的怎么样。在蒙特卡罗方法中,只有在游戏的最后才会收到奖励。

然后,带着新增的知识开启一轮新游戏。智能体每次迭代会做出更好的决策。

探索/开发的权衡

  • 探索是发现有关环境的更多信息
  • 开发是开发已知的信息,使得奖励最大化

强化学习智能体的目标是最大化期望的累计奖励,然而,我们会陷入一个共同的陷阱。

我们必须定义一个规则帮助我们处理这种权衡。

强化学习的三种方法

解决强化学习问题的三种方法是:基于值、基于策略、基于模型。

基于值

在基于值的强化学习中,目标是优化值函数

值函数告知我们智能体在每个状态得到的最大期望将来奖励

每个状态的值是在那个状态的智能体期望在将来累计的奖励总数。
$$
V_\pi(s)=\mathbb{E_\pi}[R_{t+1}+\gamma R_{t+2}+\gamma ^2 R_{t+3}+…|S_t =s]
$$
智能体会使用这个值函数去在每一步选择一个状态,选择的状态具有最大的值。

基于策略

在基于策略的强化学习中,我们想不使用值函数而直接优化策略函数$\mathtt{\pi}(s)$。

策略是在一个给定的时间对智能体行为的定义。
$$
a=\pi(s)
$$
我们学习一个策略函数,使每个状态映射到对应的最好动作。

我们有两种策略:

  • 固定策略:一种在给定状态总会返回相同动作的策略。
  • 随机策略:随动作输出分布概率。

$$
\text{Stochastic policy:} \ \pi(a|s)=\mathbb{P}[A_t=a|S_t=s]
$$

策略直接表明每一步应该采取的最好动作。

基于模型

在基于模型的强化学习中,我们对环境建模。这意味着我们创建了一个环境行为的模型。

问题是每个环境都需要一个不同的模型表示。