参数

数值

初始学习率

1e−3

微调后BERT模块的学习率

1e−5

Dropout比率

0.5

GCN层数

2

BERT层数

4

词嵌入维度

200