参数

数值

actor网络的学习率

0.001

critic网络的学习率

0.001

奖励折扣系数γ

0.99

记忆回放空间RM

1,000,000

小批量取样M

64