参数名称	值
经验回放器 $M$ 的空间	100,000
训练总回合数E	700
时间步长T	3600
智能体总数量N	49
奖励权衡系数 $β$	0.2
批样本M	1024
折扣因子 $γ$	0.95
目标网络参数更新次数C	5
软更新参数 $τ$	0.99
Adam学习率lr	1e−4