参数 | 取值 |
训练总回合数episodes | 100 |
每回合训练迭代次数N | 800 |
每回合仿真时长T | 5400 s |
学习率α | 0.001 |
最大、最小探索率εmax、εmin | 0.8、0.1 |
批量大小 | 128 |
折扣系数γ | 0.75 |
经验回放缓冲区最大容量 | 50,000 |
目标网络更新频率 | 5 |
绿灯相位 、黄灯相位 | 10 s、3 s |
网格长度 、检测范围 | 7 m、280 m |