参数

经验回放器M的空间大小

50,000

批处理大小B

32

折扣系数γ

0.75

学习率α

0.0001

目标网络更新步长C

150

总回合数N

200

评估网络E的训练回合数P

100

迭代次数

800