参数

隐藏层的节点数量num_layers

4

抽样批次batch_size

100

学习率learning_rate

0.001

总的尝试次数training_epochs

800

最小存储数量memory_size_min

800

最大存储数量memory_size_max

20000

输出的动作数量num_actions

4

折扣因子gamma

0.75

迭代轮数total_episodes

200