【強化学習】Q-Learningの更新式から結果考察まで。ハイパーパラメータ依存性【Part2】
[latexpage] 前回の記事 で、Q-Learningの更新式の説明を行いました。 そして、今回は、実際にQ-Learningで学習した結果をまとめたいと思います。 設定 学習する環境は、以下の通りです。 この状況下で、できるだけ多くの点が取れるように学習します。 探索方法は、ε-greedy法で行います。 コード コードは、こちらです。 pointgameQ8_4-4-4_3D.py コードの書き方が悪かった(探索式が悪かった)ので、εが1以下になっておらず、しかも、むしろεが小さいほど貪欲となる探索式になっています。 コードの探索方法の部分は、以下のようになっています。 def get_action(next_state, episode): #徐々に最適行動のみをとる、ε-greedy法 epsilon = 10. * (1 / (episode + 1)) if epsilon
2019/08/29 10:04