参数/超参数

包裹运输完成奖励( β )

100

AGV移动惩罚因子( )

2

货物缓存区最大缓存(N)

30

学习率( κ )

0.001

折扣因子( μ )

0.98

PPO 裁剪系数( ϵ )

0.1

广义优势估计器( g λ )

0.95