算法4:训练神经规划器
输入:训练集,学习率lr, EPOCHS,BATHSIZE
输出:下一时刻位置
1. for ep←1 to EPOCHSdo
2. for i←1 to N/ BATHSIZE do
3. PlannerNet梯度清零
4. 从中取出BATHSIZE个训练样本 F t a s k
5. 预测结果 P n e x t ←PlannerNet ( F t a s k )
6. 计算预测误差 L P
7. 反向传播
8. 更新参数 θ p