参数

参数值

隐层值(hidden_size)

768

隐层数目(num_hidden_layers)

12

注意力头数目(num_attention_heads)

12

隐层随机下降值(hidden_dropout_prob)

0.1

注意力层随机下降值(attention_probs_dropout_prob)

0.1

输入最大文本长度(max_position_embeddings)

512

标准化范围(initializer_range)

0.02

归一化范围(layer_norm_eps)

1e−12