算法1 3DQN_MDAM算法训练流程 |
输入:采样时间步t交叉口的原始交通状态st |
初始化:当前Q网络参数 、目标Q网络参数 ( ); |
for do |
重置交叉口环境; |
for do |
智能体观测交叉口环境获得当前状态st; |
st经过嵌有MDAM的特征提取网络以构建状态特征图的通道依赖和空间依赖关系,利用式(18)获得隐藏状态 ; |
隐藏状态 经过策略评估网络,利用式(19)计算当前Q值 ; |
以 的概率从动作空间A中随机选择一个动作 ,否则取 ; |
智能体执行当前动作 后,进入下一个状态 ,并由式(1)计算环境当前反馈的奖励 ,将序列 存放在经验回放缓冲区B中; |
if then 溢出旧的经验数据; |
end for |
for do |
从缓冲区B中随机抽取一小批量经验数据,利用式(20)计算损失函数 ; |
更新当前Q网络参数 ; |
if then ; |
end for |
end for |
输出:更新后的Q网络参数 |