算法1 3DQN_MDAM算法训练流程

输入：采样时间步t交叉口的原始交通状态s_t

初始化：当前Q网络参数 $Θ = {θ, β, ω}$ 、目标Q网络参数 $\bar{Θ} = {\bar{θ}, \bar{β}, \bar{ω}}$ ( $\bar{Θ} = Θ$ )；

for $e \in {1, 2, \dots, e p i s o d e s}$ do

重置交叉口环境；

for $t \in {1, 2, \dots, T / T_{g}}$ do

智能体观测交叉口环境获得当前状态s_t；

s_t经过嵌有MDAM的特征提取网络以构建状态特征图的通道依赖和空间依赖关系，利用式(18)获得隐藏状态 ${\hat{s}}_{t}$ ；

隐藏状态 ${\hat{s}}_{t}$ 经过策略评估网络，利用式(19)计算当前Q值 $Q_{t}$ ；

以 $ε$ 的概率从动作空间A中随机选择一个动作 $a_{t}$ ，否则取 $a_{t} = \arg \max_{a^{'}} Q_{t}$ ；

智能体执行当前动作 $a_{t}$ 后，进入下一个状态 $s_{t + 1}$ ，并由式(1)计算环境当前反馈的奖励 $r_{t}$ ，将序列 $(s_{t}, a_{t}, r_{t}, s_{t + 1})$ 存放在经验回放缓冲区B中；

if $| B | \geq N_{B}$ then 溢出旧的经验数据；

end for

for $n \in {1, 2, \dots, N}$ do

从缓冲区B中随机抽取一小批量经验数据，利用式(20)计算损失函数 $L (Θ)$ ；

更新当前Q网络参数 $Θ = Θ - α \times \nabla_{Θ} L (Θ)$ ；

if $n % N_{c} = = 0$ then $\bar{Θ} = Θ$ ;

end for

输出：更新后的Q网络参数 $Θ$