贝尔曼方程

$$
\begin{gather}
v_{\pi}(s)=\sum_{a,s’}\pi(a|s)p(s’|s,a){r(s,a,s’)+\gamma v_\pi(s’)}
\end{gather}
$$

$$
\begin{gather}
q_\pi(s,a)=\sum_{s’}p(s’|s,a){r(s,a,s’)+\gamma \sum_{a’}\pi(a’|s’)q_\pi(s’,a’) }
\end{gather}
$$

贝尔曼最优方程

$$
v_*(s)=\mathop{max}\limits_{a} \sum_{s’}p(s’|s,a){r(s,a,s’)+\gamma v_*(s’)}
$$

$$
q_*(s,a)=\sum_{s’}p(s’|s,a){r(s,a,s’)+\gamma \mathop{max}\limits_{a’}q_*(s’,a’) }
$$

最优策略

$$
\begin{gather}
\begin{split}
\mu_*(s) & =\mathop{argmax}a\ q(s,a) \
& =\mathop{argmax}a \sum{s’}p(s’|s,a){r(s,a,s’) + \gamma v_
(s’) }
\end{split}
\end{gather}
$$