参数
值
经验回放器M的空间大小
50,000
批处理大小B
32
折扣系数γ
0.75
学习率α
0.0001
目标网络更新步长C
150
总回合数N
200
评估网络E的训练回合数P
100
迭代次数
800