序号

超参数

1

输入维度

32

2

块尺寸

4

3

隐藏层维度

256

4

注意力头个数

8

5

前馈神经网络维度

128

6

Dropout率

0.05