参数类型

参数值

迭代次数

500 k

字典大小

50 k

学习率

10e−4

batch_size (T5-PEGASUS)

32

batch_size (指针网络)

16

新闻最大长度

512

摘要最大长度

64

训练集:测试集

8:2

隐层(T5-PEGASUS)

768维

隐层(指针网络)

256维

注意力头(T5-PEGASUS)

12

训练时长

6 d 10 h