参数
数值
初始学习率
1e−3
微调后BERT模块的学习率
1e−5
Dropout比率
0.5
GCN层数
2
BERT层数
4
词嵌入维度
200