创建 Post-pretrain 任务

大模型预训练是开发者可以基于大量的无标注数据使用Post-pretrain的方式训练出一个定制的预训练模型。
在Post-pretrain任务中调优预训练模型提升模型效果，完成预训练后，可以在SFT调优预训练模型。

登录到千帆大模型操作台，在左侧功能列选择Post-pretrain，进入大模型预训练的主任务界面。

创建任务

您需要在Post-pretrain任务界面，选择“创建训练任务”按钮。

填写好任务名称后，在范围内选择所属行业和应用场景，再进行500字内的业务描述即可。

当您选择“下一步”则直接开启训练模型的运行配置界面；“完成创建”仅创建任务不创建训练模型的运行。

新建运行

您可以在创建任务时选择“下一步”，或者在Post-pretrain任务列表中，选择指定任务的“新建运行”按钮。
进入模型训练的任务运行配置页，填写基本信息。

训练配置

训练配置大模型参数，调整好基本配置。

在Post-pretrain训练任务中，可以选择开启增量训练开关
开关打开后，需要选择Post-pretrain的基准模型，此模型来源于运行中的Post-pretrain任务。所以您开启增量训练任务的前提有已经在运行中的Post-pretrain任务。

当前仅支持选择三个月内训练的模型发起增量训练。

注意：基础模型继承基准模型版本，所以当您选定基准模型后，基础模型及版本不可变更。

您也可以选择直接不使用增量训练，这样直接在基础模型上进行Post-pretrain。

·Llama-2

Qianfan-Chinese-Llama-2-13b，千帆团队在Llama-2-13b基础上的中文增强版本。千帆团队在Llama-2-13b基础上的中文增强版本，在CMMLU、C-EVAL等中文数据集上表现优异。

参数配置

超参数	简单描述
迭代轮次	迭代轮次（epoch），控制训练过程中的迭代轮数。
批处理大小	批处理大小（Batchsize）表示在每次训练迭代中使用的样本数。较大的批处理大小可以加速训练，但可能会导致内存问题。
学习率	学习率（learning_rate）是在梯度下降的过程中更新权重时的超参数，过高会导致模型难以收敛，过低则会导致模型收敛速度过慢，平台已给出默认推荐值，可根据经验调整。
正则化系数	正则化系数（Weight_decay），用于防止模型对训练数据过拟合。但系数过大，可能导致欠拟合。

数据配置

训练任务的选择数据及相关配置，大模型调优任务需要匹配泛文本无标注的数据集。

数据集来源可以为千帆平台已发布的数据集版本或者预置数据集，也可以为已有数据集的BOS地址，详细内容可查看数据集部分内容。
需注意：任务运行推荐数据量至少10亿tokens，如您试用的话，则推荐1千万tokens及以上的数据量。
混合训练：支持用户使用自身数据与通用语料数据混合训练，其中包含多行业、多维度的通用语料数据由千帆大模型平台提供。
注意：开启数据配比后，会增加整体训练tokens数，参与计费。

通用语料数据共200B token数，请您根据自身数据量进行配比：

数据拆分比例：比如设置20，则表示选定数据集版本总数的80%作为训练集，20%作为验证集。

若数据集保存在BOS中，请勿在提交任务后修改BOS数据。修改后可能会导致任务失败！

百度BOS服务开通申请，关于训练费用可查看价格文档。

以上所有操作完成后，点击“开始训练”，则发起模型训练的任务。

需要注意的是：Post-pretrain训练任务规模大，任务需要后台审核后才能开启。另外，数据量至少10亿tokens，如您试用的话，则1千万tokens及以上的数据量会凸显训练效果。

创建任务#

新建运行#

训练配置#

·Llama-2#

数据配置#

创建任务

新建运行

训练配置

·Llama-2

数据配置