参数名
值
Transformer层数
12
注意力头数量
12
注意力层Dropout率
0.1
最大位置嵌入向量维度
512