参数名称
参数值
优化器
AdamW
初始学习率
0.01
参数衰减(Weight-Decay)
1e-4
训练批大小(Batchsize)
8
训练总轮数(Epoch)
100