参数 | 值 |
隐藏层的节点数量num_layers | 4 |
抽样批次batch_size | 100 |
学习率learning_rate | 0.001 |
总的尝试次数training_epochs | 800 |
最小存储数量memory_size_min | 800 |
最大存储数量memory_size_max | 20000 |
输出的动作数量num_actions | 4 |
折扣因子gamma | 0.75 |
迭代轮数total_episodes | 200 |