QLearning

更新式

$ Q(s_t, a_t) \leftarrow Q(s_t, a_t) + \\ \, \, \alpha \left\{r_{t+1} + \gamma \max_{a}Q(s_{t+1}, a) - Q(s_t, a_t) \right\}\\ where\\ s \in \{(x,y) \in {\mathbb N}^2 \mid 0 \leq x \leq W - 1, 0 \ \leq y \leq H - 1\} \\ a \in \{up, right, down, left\} $

行動決定

$\epsilon$ - greedy法

スケジューリング

$ if \\ \frac{E}{10}i \leq episode < \frac{E}{10}(i+1) \\ then \\ \epsilon = \frac{i}{10} $

学習パラメータ設定

学習エピソード数$E$:

学習ステップ数$T$:

学習率$\alpha$:

割引率$\gamma$:

壁にぶつかった時の報酬$r_{wall}$:

ワンステップ進むごとの報酬$r_{step}$:

ゴール報酬$r_{goal}$:

迷路の設定

縦: 横:
迷路をクリックでスタート/ゴールの変更や通路/壁の切り替え
通路/壁スタートゴール

強化学習

更新式

行動決定

スケジューリング

学習パラメータ設定

迷路の設定

学習結果