Tag: Reinforcement Learning | 99°

强化学习介绍

2018-11-12

memo

蒙特卡罗 VS TD学习方法

我们有两种学习方式：

在episode的最后收集奖励并计算最大期望将来奖励：蒙特卡罗方法
估计每一步的奖励：时序差分学习

Reinforcement Learning