超参数名
超参数值
序列长度(max_length)
256
每批大小(batch_size)
32
学习率(learning_rate)
2e−5
dropout
0.1
迭代轮次
9