参数配置 | ||
超参数 | 数值 | 说明 |
迭代轮次 | 10 | 迭代轮次(Epoch),控制训练过程中的迭代轮数。 |
学习率 | 0.00003 | 学习率(Learning Rate)是在梯度下降的过程中更新权重时的超参数,过高会导致模型难以收敛,过低则会导致模型收敛速度过慢,平台已给出默认推荐值,可根据经验调整。 |
保存日志间隔 | 1 | 日志保存间隔步数 |
序列长度 | 4096 | 单条数据的长度,单位为token。如果数据集中每条数据的长度(输入)都在4096 tokens以内,建议选择4096,针对短序列可以达到更优的训练效果。 |
预热比例 | 0.1 | 学习率预热的步数占比 |
正则化系数 | 0.01 | 正则化系数(Weight_decay),用于防止模型对训练数据过拟合。但系数过大,可能导致欠拟合。 |