算法4:训练神经规划器

输入:训练集,学习率lr, EPOCHS,BATHSIZE

输出:下一时刻位置

1. for ep←1 to EPOCHSdo

2. for i←1 to N/ BATHSIZE do

3. PlannerNet梯度清零

4. 从中取出BATHSIZE个训练样本 F t a s k

5. 预测结果 P n e x t ←PlannerNet ( F t a s k )

6. 计算预测误差 L P

7. 反向传播

8. 更新参数 θ p