超参数

参数值

学习率

1e−5

权重衰减

0.05

batch size

8

字向量维度

100

指针标注阈值

0.5

dropout率

0.5