创建强化学习训练任务
创建任务

新建运行
进入强化学习的任务运行配置页,填写基本信息。

数据配置

训练配置
知名的大语言模型,由BigScience研发并开源,能够以46种语言和13种编程语言输出文本。
由SFT所建,强化学习更匹配私有业务场景。
在平台奖励模型的基础上,继续完成强化训练,训练出最大化靠近人类反馈的模型。
超参数 | 简单描述 |
---|---|
迭代轮次 | 迭代轮次(epoch),控制训练过程中的迭代轮数。 |
批处理大小 | 批处理大小(Batchsize)表示在每次训练迭代中使用的样本数。较大的批处理大小可以加速训练,但可能会导致内存问题。 |
学习率 | 学习率(learning_rate)是在梯度下降的过程中更新权重时的超参数,过高会导致模型难以收敛,过低则会导致模型收敛速度过慢,平台已给出默认推荐值,可根据经验调整。 |

修改于 超过 1 年前