关键概念

列出了一些需要注意的名词与概念,可结合下文具体内容学习,也可在学完后回顾这些概念是够已经掌握。

model-based VS model-free (S,A,P?,R?γ?)(S,A,P?,R?,\gamma?);

prediction = estimation 即最终评估出 vπv_\pi;
control = estimation + improvement 即最终得到最优策略π\pi^*;
experience;
first-visit or every-visit;
递增计算均值 incremental implementation ;
exploring start 随机分配初始状态,来保证所有的状态行为都被选中;
on-policy vs off-policy 就是采样产生数据(生成episode)的策略μ\boldsymbol\mu要去评估与改善的策略π\boldsymbol\pi是否一致;
重要性采样 importance sampling.


具体内容

自己曾经做的PPT,思路还可以






















可以参考的网站

《强化学习导论》:Monte Carlo Methods

强化学习系列(五):蒙特卡罗方法(Monte Carlo)