| 参数 | 值 |
| 隐藏层的节点数量num_layers | 4 |
| 抽样批次batch_size | 100 |
| 学习率learning_rate | 0.001 |
| 总的尝试次数training_epochs | 800 |
| 最小存储数量memory_size_min | 800 |
| 最大存储数量memory_size_max | 20000 |
| 输出的动作数量num_actions | 4 |
| 折扣因子gamma | 0.75 |
| 迭代轮数total_episodes | 200 |