参数

数值

编码器层数

3/4/5

解码器层数

3/4/5

Dropout

0.2

Batch size

256

学习率

0.001

平滑率

0.1

多头注意力的头数

4

嵌入层隐藏节点数

512