Reinforcement Learning笔记3-Dynamic Program
Bellman最优解策略 - 动态规划法(Dynamic Programming Methods) 动态规划是一种通过把复杂问题划分为子问题,并对自问题进行求解,最后把子问题的解结合起来解决原问题的方法。 「动态」是指问题由一系列的状态组成,而且状态能一步步地改变。 「规划」即优化每一个子问题。因为MDP 的 Markov 特性,即某一时刻的子问题仅仅取决于上一时刻的子问题的 action,并且