参数名称 | 值 |
经验回放器 的空间 | 100,000 |
训练总回合数E | 700 |
时间步长T | 3600 |
智能体总数量N | 49 |
奖励权衡系数 | 0.2 |
批样本M | 1024 |
折扣因子 | 0.95 |
目标网络参数更新次数C | 5 |
软更新参数 | 0.99 |
Adam学习率lr | 1e−4 |