参数 | 参数值 |
隐层值(hidden_size) | 768 |
隐层数目(num_hidden_layers) | 12 |
注意力头数目(num_attention_heads) | 12 |
隐层随机下降值(hidden_dropout_prob) | 0.1 |
注意力层随机下降值(attention_probs_dropout_prob) | 0.1 |
输入最大文本长度(max_position_embeddings) | 512 |
标准化范围(initializer_range) | 0.02 |
归一化范围(layer_norm_eps) | 1e−12 |