超参数名

超参数值

序列长度(max_length)

256

每批大小(batch_size)

32

学习率(learning_rate)

2e−5

dropout

0.1

迭代轮次

9