输入：无人机和巡检点的状态信息

输出：动作序列、累计奖励和估计值网络

1: 初始化回放缓冲区 $D$

2: 初始化估计值网络参数 $θ$ ，目标值网络参数 $θ^{*}$

3: 初始化探索因子 $ε$ ，最小探索因子 $ε_{\min}$ ，探索因子下降率 $ε_{d e c a y}$ ，批次大小 $B$

4: 循环每次训练周期： $e p i s o d e = 1, e p o c h$

5: 初始化状态 $s_{t}$

6: 循环每个时间步： $t = t_{0}, t_{Δ T}$

7: 用概率 $ε$ 选择一个随机动作 $a_{t}$

8: 否则，对当前网络的 $Q$ 值进行掩码操作，选择 $Q$ 值最大的动作 $a_{t}$

9: 无人机执行动作 $a_{t}$ ，获得奖励 $r_{t}$ 和下一时刻状态 $s_{t + 1}$

10: 将 $(s_{t}, a_{t}, r_{t}, s_{t + 1})$ 存储至 $D$ 中

11: 从 $D$ 中均匀随机采样 $B$ 条样本数据 $(s_{j}, a_{j}, r_{j}, s_{j + 1}), j \in | B |$

12: 根据式(18)计算目标值

13: 进行梯度下降计算

14: 更新估计值网络参数和目标值网络参数

15: 结束时间步循环

16: 根据式(19)更新探索因子 $ε$

17: 结束训练周期循环