超参数
Steps
2e6
最大ϵ概率
1
最小ϵ概率
0.05
ϵ概率衰减步长
5e4
经验回放池容量
5e3
Batch size
32
更新步数
50
学习率
5e-4
最大单回合步数
50