参数
数值
词典大小
3000
字向量维度
768
句子最大长度
512
学习率
0.0001
迭代周期
100
隐层维数
256
Transformer层
12