| 算法1 3DQN_MDAM算法训练流程 |
| 输入:采样时间步t交叉口的原始交通状态st |
| 初始化:当前Q网络参数 、目标Q网络参数 ( ); |
| for do |
| 重置交叉口环境; |
| for do |
| 智能体观测交叉口环境获得当前状态st; |
| st经过嵌有MDAM的特征提取网络以构建状态特征图的通道依赖和空间依赖关系,利用式(18)获得隐藏状态 ; |
| 隐藏状态 经过策略评估网络,利用式(19)计算当前Q值 ; |
| 以 的概率从动作空间A中随机选择一个动作 ,否则取 ; |
| 智能体执行当前动作 后,进入下一个状态 ,并由式(1)计算环境当前反馈的奖励 ,将序列 存放在经验回放缓冲区B中; |
| if then 溢出旧的经验数据; |
| end for |
| for do |
| 从缓冲区B中随机抽取一小批量经验数据,利用式(20)计算损失函数 ; |
| 更新当前Q网络参数 ; |
| if then ; |
| end for |
| end for |
| 输出:更新后的Q网络参数 |