参数名

Transformer层数

12

注意力头数量

12

注意力层Dropout率

0.1

最大位置嵌入向量维度

512