参数/超参数
值
包裹运输完成奖励( β )
100
AGV移动惩罚因子( ∂ )
2
货物缓存区最大缓存(N)
30
学习率( κ )
0.001
折扣因子( μ )
0.98
PPO 裁剪系数( ϵ )
0.1
广义优势估计器( g λ )
0.95