SARSA法による倒立振子 (Q値を見える化)
gymの倒立振子を使って強化学習SARSA法 Q-learningとSARSA法の違い 次のアクション(next_action)を学習の前に求める(SARSA法)か、学習の後で決定する(Q-learning)かが違います。先に求めるSARSA法だとε-greedy法によりランダムになる場合が出てきます。 むずかしいことはわかりませんが、Q-learningのメリットははランダム要素が少なく結果が早く収束することだと思います。SARSA法のメリットはランダム要素により収束まで時間はかかりますが最適な方向へより安定した結果を出せることだと思います。(間違ってたらごめんなさい) まとめるとSARSA…
2019/11/30 09:00