参数
数值
编码器层数
3/4/5
解码器层数
3/4/5
Dropout
0.2
Batch size
256
学习率
0.001
平滑率
0.1
多头注意力的头数
4
嵌入层隐藏节点数
512