算法1：随机线性二次最优控制的Q-learning算法

1) 初始化矩阵使 $Q_{2} (0) = I_{d}$ ， $Q_{1} (0) = {[1, \dots, 1]}_{1 \times d}$

2) for $t = 0, T$ ：

3) $Q_{2} (t + 1) = Q_{2} (t) + α [E (N + γ Λ^{T} Q_{2} (t) Λ) - Q (t)]$

4) $Q_{1} (t + 1) = Q_{1} (t) + α [E (γ Γ 1 (Q_{2} (t), Q_{1} (t)) Λ) - Q_{1} (t)]$

5) $K_{0} (t) = \frac{1}{1 - γ} Γ 0 (Q_{2} (t), Q_{1} (t))$

6) $t = t + 1$

end for