超参数

Steps

2e6

最大ϵ概率

1

最小ϵ概率

0.05

ϵ概率衰减步长

5e4

经验回放池容量

5e3

Batch size

32

更新步数

50

学习率

5e-4

最大单回合步数

50