序号
超参数
值
1
输入维度
32
2
块尺寸
4
3
隐藏层维度
256
4
注意力头个数
8
5
前馈神经网络维度
128
6
Dropout率
0.05