输入:无人机和巡检点的状态信息

输出:动作序列、累计奖励和估计值网络

1: 初始化回放缓冲区 D

2: 初始化估计值网络参数 θ ,目标值网络参数 θ *

3: 初始化探索因子 ε ,最小探索因子 ε min ,探索因子下降率 ε d e c a y ,批次大小 B

4: 循环每次训练周期: e p i s o d e = 1 , e p o c h

5: 初始化状态 s t

6: 循环每个时间步: t = t 0 , t Δ T

7: 用概率 ε 选择一个随机动作 a t

8: 否则,对当前网络的 Q 值进行掩码操作,选择 Q 值最大的动作 a t

9: 无人机执行动作 a t ,获得奖励 r t 和下一时刻状态 s t + 1

10: 将 ( s t , a t , r t , s t + 1 ) 存储至 D

11: 从 D 中均匀随机采样 B 条样本数据 ( s j , a j , r j , s j + 1 ) , j | B |

12: 根据式(18)计算目标值

13: 进行梯度下降计算

14: 更新估计值网络参数和目标值网络参数

15: 结束时间步循环

16: 根据式(19)更新探索因子 ε

17: 结束训练周期循环