蒙特卡罗 VS TD学习方法
我们有两种学习方式:
- 在episode的最后收集奖励并计算最大期望将来奖励:蒙特卡罗方法
- 估计每一步的奖励:时序差分学习
蒙特卡罗
当episode结束时(智能体到达一个“终止状态”),智能体视其总共的累计奖励来知晓它做的怎么样。在蒙特卡罗方法中,只有在游戏的最后才会收到奖励。
然后,带着新增的知识开启一轮新游戏。智能体每次迭代会做出更好的决策。
探索/开发的权衡
- 探索是发现有关环境的更多信息
- 开发是开发已知的信息,使得奖励最大化
强化学习智能体的目标是最大化期望的累计奖励,然而,我们会陷入一个共同的陷阱。
我们必须定义一个规则帮助我们处理这种权衡。
强化学习的三种方法
解决强化学习问题的三种方法是:基于值、基于策略、基于模型。
基于值
在基于值的强化学习中,目标是优化值函数
值函数告知我们智能体在每个状态得到的最大期望将来奖励
每个状态的值是在那个状态的智能体期望在将来累计的奖励总数。
$$
V_\pi(s)=\mathbb{E_\pi}[R_{t+1}+\gamma R_{t+2}+\gamma ^2 R_{t+3}+…|S_t =s]
$$
智能体会使用这个值函数去在每一步选择一个状态,选择的状态具有最大的值。
基于策略
在基于策略的强化学习中,我们想不使用值函数而直接优化策略函数$\mathtt{\pi}(s)$。
策略是在一个给定的时间对智能体行为的定义。
$$
a=\pi(s)
$$
我们学习一个策略函数,使每个状态映射到对应的最好动作。
我们有两种策略:
- 固定策略:一种在给定状态总会返回相同动作的策略。
- 随机策略:随动作输出分布概率。
$$
\text{Stochastic policy:} \ \pi(a|s)=\mathbb{P}[A_t=a|S_t=s]
$$
策略直接表明每一步应该采取的最好动作。
基于模型
在基于模型的强化学习中,我们对环境建模。这意味着我们创建了一个环境行为的模型。
问题是每个环境都需要一个不同的模型表示。