优化器

批大小

学习率

迭代次数

动量参数

Adam

2

0.0001

500

β_1 = 0.9

β_2 = 0.999