参数
双流Swinc Transformer
学习率
0.002
批量大小
30
网络层数
[2, 6, 2]
移动窗口大小
7
隐藏层维度
96(C)
注意力头数
[3, 6, 12]
丢弃率
0.3