参数名称

经验回放器 M 的空间

100,000

训练总回合数E

700

时间步长T

3600

智能体总数量N

49

奖励权衡系数 β

0.2

批样本M

1024

折扣因子 γ

0.95

目标网络参数更新次数C

5

软更新参数 τ

0.99

Adam学习率lr

1e−4