名称

含义

取值

hidden_size

模型向量维度

768

num_attention_heads

模型注意力头数

12

batch_size (预训练)

模型每批处理大小

4096

learning_rate (预训练)

学习速率

1e−4

batch_size (微调)

模型每批处理大小

24

learning_rate (微调)

学习速率

5e−5