| 参数 | 取值 |
| 训练总回合数episodes | 100 |
| 每回合训练迭代次数N | 800 |
| 每回合仿真时长T | 5400 s |
| 学习率α | 0.001 |
| 最大、最小探索率εmax、εmin | 0.8、0.1 |
| 批量大小 | 128 |
| 折扣系数γ | 0.75 |
| 经验回放缓冲区最大容量 | 50,000 |
| 目标网络更新频率 | 5 |
| 绿灯相位 、黄灯相位 | 10 s、3 s |
| 网格长度 、检测范围 | 7 m、280 m |