参数配置

超参数

数值

说明

迭代轮次

10

迭代轮次(Epoch),控制训练过程中的迭代轮数。

学习率

0.00003

学习率(Learning Rate)是在梯度下降的过程中更新权重时的超参数,过高会导致模型难以收敛,过低则会导致模型收敛速度过慢,平台已给出默认推荐值,可根据经验调整。

保存日志间隔

1

日志保存间隔步数

序列长度

4096

单条数据的长度,单位为token。如果数据集中每条数据的长度(输入)都在4096 tokens以内,建议选择4096,针对短序列可以达到更优的训练效果。

预热比例

0.1

学习率预热的步数占比

正则化系数

0.01

正则化系数(Weight_decay),用于防止模型对训练数据过拟合。但系数过大,可能导致欠拟合。