参数类型 | 参数值 |
迭代次数 | 500 k |
字典大小 | 50 k |
学习率 | 10e−4 |
batch_size (T5-PEGASUS) | 32 |
batch_size (指针网络) | 16 |
新闻最大长度 | 512 |
摘要最大长度 | 64 |
训练集:测试集 | 8:2 |
隐层(T5-PEGASUS) | 768维 |
隐层(指针网络) | 256维 |
注意力头(T5-PEGASUS) | 12 |
训练时长 | 6 d 10 h |