参数

取值

训练总回合数episodes

100

每回合训练迭代次数N

800

每回合仿真时长T

5400 s

学习率α

0.001

最大、最小探索率εmax、εmin

0.8、0.1

批量大小

128

折扣系数γ

0.75

经验回放缓冲区最大容量 N B

50,000

目标网络更新频率 N c

5

绿灯相位 T g 、黄灯相位 T y

10 s、3 s

网格长度 l 、检测范围 L

7 m、280 m