输入:无人机和巡检点的状态信息 输出:动作序列、累计奖励和估计值网络 |
1: 初始化回放缓冲区 2: 初始化估计值网络参数 ,目标值网络参数 3: 初始化探索因子 ,最小探索因子 ,探索因子下降率 ,批次大小 4: 循环每次训练周期: 5: 初始化状态 6: 循环每个时间步: 7: 用概率 选择一个随机动作 8: 否则,对当前网络的 值进行掩码操作,选择 值最大的动作 9: 无人机执行动作 ,获得奖励 和下一时刻状态 |
10: 将 存储至 中 11: 从 中均匀随机采样 条样本数据 12: 根据式(18)计算目标值 13: 进行梯度下降计算 14: 更新估计值网络参数和目标值网络参数 15: 结束时间步循环 16: 根据式(19)更新探索因子 17: 结束训练周期循环 |