| 参数名称 | 值 |
| 经验回放器 的空间 | 100,000 |
| 训练总回合数E | 700 |
| 时间步长T | 3600 |
| 智能体总数量N | 49 |
| 奖励权衡系数 | 0.2 |
| 批样本M | 1024 |
| 折扣因子 | 0.95 |
| 目标网络参数更新次数C | 5 |
| 软更新参数 | 0.99 |
| Adam学习率lr | 1e−4 |