参数
数值
actor网络的学习率
0.001
critic网络的学习率
0.001
奖励折扣系数γ
0.99
记忆回放空间RM
1,000,000
小批量取样M
64