名称 | 含义 | 取值 |
hidden_size | 模型向量维度 | 768 |
num_attention_heads | 模型注意力头数 | 12 |
batch_size (预训练) | 模型每批处理大小 | 4096 |
learning_rate (预训练) | 学习速率 | 1e−4 |
batch_size (微调) | 模型每批处理大小 | 24 |
learning_rate (微调) | 学习速率 | 5e−5 |