更新式
\(
Q(s_t, a_t) \leftarrow Q(s_t, a_t) + \\
\, \, \alpha \left\{r_{t+1} + \gamma \max_{a}Q(s_{t+1}, a) - Q(s_t, a_t) \right\}\\
where\\
s \in \{(x,y) \in {\mathbb N}^2 \mid 0 \leq x \leq W - 1, 0 \ \leq y \leq H - 1\} \\
a \in \{up, right, down, left\}
\)
行動決定
$\epsilon$ - greedy法
スケジューリング
\(
if \\
\frac{E}{10}i \leq episode < \frac{E}{10}(i+1) \\
then \\
\epsilon = \frac{i}{10}
\)