参数

数值

词典大小

3000

字向量维度

768

句子最大长度

512

学习率

0.0001

迭代周期

100

隐层维数

256

Transformer层

12