| 参数 | 参数值 |
| 隐层值(hidden_size) | 768 |
| 隐层数目(num_hidden_layers) | 12 |
| 注意力头数目(num_attention_heads) | 12 |
| 隐层随机下降值(hidden_dropout_prob) | 0.1 |
| 注意力层随机下降值(attention_probs_dropout_prob) | 0.1 |
| 输入最大文本长度(max_position_embeddings) | 512 |
| 标准化范围(initializer_range) | 0.02 |
| 归一化范围(layer_norm_eps) | 1e−12 |