百度智能云千帆大模型平台常用概念

数据服务相关

数据是模型训练的基础，在整个模型效果中起着至关重要的作用。平台提供统一的数据集管理接口，将分散的数据进行集中式纳管，节省数据集收集和管理成本。

概念名	描述
数据集管理	集中管理数据集，对数据进行导入和删除等操作；进行数据集的版本控制，数据纳管标准化运行。
BOS目录	导入数据集常用。集中保存数据集的BOS桶，选择Bucket地址和文件夹地址，导入该目录下的数据集，该层目录下子文件目录及非相关内容（包括压缩包格式等）不导入，使用BOS需要先开通服务。
分享链接	导入数据集常用，第三方数据集链接，仅支持来自百度BOS、阿里OSS、华为OBS的共享链接。
文本对话-非排序	此类数据集用于SFT，一个提示词(prompt)对应一个标注(response)。
文本对话-含排序	此类数据集用于奖励模型训练，一个提示词(prompt)对应多个标注(response)，并且依据人类反馈对标注进行排序。
query问题集	此类数据集用于强化学习训练，无需标注，做为问题集组合，会利用prompt对奖励模型进行质问。
众测标注	将数据标注任务发布至百度众测平台，百度众测团队具备10年以上的数据服务经验和丰富的标注人力，完成数据标注。
单轮对话	只涉及一个核心问题，对话的双方只需要针对这个问题进行回答和交流，不需要对之前的回答进行进一步的追问或解释。
多轮对话	对话的双方需要在一系列问题中进行多次交流和回答，每次回答都可能引出下一个问题。

大模型训练是本平台的核心功能，统一查看模型的训练状态选择更加适合的模型训练方式。

概念名	描述
训练轮次	Epoch，训练轮次可以由步长 x 数据批大小/数据量的形式换算。例如，1w条样本在数据批大小为32的情况下，建议训练轮次至少设置为2。
数据批	Batch_size，即一次训练所抓取的数据样本数量，Batch_size大小影响训练速度和模型的优化。
学习率	Learning rate （LR），是在梯度下降的过程中更新权重时的超参数，过高会导致模型难以收敛，过低则会导致模型收敛速度过慢，平台已给出默认推荐值，可根据经验调整。
全量更新	训练过程中对大模型的全部参数进行更新。
Prompt Tuning	在固定预训练大模型本身的参数的基础上，增加prompt embedding参数，并且训练过程中只更新prompt参数。
LoRA	在固定预训练大模型本身的参数的基础上，在保留自注意力模块中原始权重矩阵的基础上，对权重矩阵进行低秩分解，训练过程中只更新低秩部分的参数。
奖励模型	训练的最终目的是刻画模型的输出是否在人类看来表现不错。
强化学习	再励学习、评价学习或增强学习，利用问题集质问奖励模型，合成问题最优解的应答。

集中管理平台训练、压缩及预置的生成式大模型，支持对模型进行评估、压缩及部署。

概念名	描述
BOS目录	导入第三方模型时常用。集中保存第三方大模型的BOS桶，选择Bucket地址和文件夹地址，导入该目录下的模型，该层目录下子文件目录及非相关内容（包括压缩包格式等）不导入，使用BOS需要先开通服务。
HuggingFace > Transformers	支持导入的第三方模型格式，详细目录可查看模型格式。
续写模式	导入模型时的输入输出格式，适用Pretrain或Post-Pretrain Base模型。
对话模式	导入模型时的输入输出格式，对话模式适用经过指令精调的Chat模型。
评估数据集	模型进行评估时，通常是在与训练数据集相似的情况下收集的，用来代表真实世界的样本数据，可以是平台数据集或预置数据集。
基于裁判员模型	模型评估时，使用能力更强的大模型（ERINE-BOT）作为裁判员，对被评估模型的生成结果进行自动化打分，适用于开放性或复杂问答场景。
量化压缩	模型压缩时，同等QPS目标下，降低推理显存占用。
稀疏化	模型压缩时，在同等算力资源下，降低单Token时延、提升QPS。

发布公有云服务，将训练完成的模型部署在百度云服务器，通过云服务接口调用模型。

概念名	描述
私有资源池	服务托管在私有资源池时，可设定在线服务部署的算力单元来保障QPS。
温度	temperature，较高的数值会使输出更加随机，而较低的数值会使其更加集中和确定。建议该参数和top_p只设置1个。
多样性	top_p，影响输出文本的多样性，取值越大，生成文本的多样性越强。建议该参数和temperature只设置1个。
重复惩罚	penalty_score，用通过对已生成的token增加惩罚，减少重复生成的现象。说明：值越大表示惩罚越大。
AK/SK	在创建应用时生成的API Key和Secret Key，调用应用时不轻易泄露的重要凭证。

平台支持对Prompt模板的使用和管理，并且可以对单独或批量的Prompt进行优化。

概念名	描述
prompt	提示词，简单的理解成它是给大模型的指令。它可以是一个问题、一段文字描述，甚至可以是带有一堆参数的文字描述。大模型会基于 prompt 所提供的信息，生成对应的文本或者图片。
思维链条	在prompt优化时常用，拆解Prompt内容，逐步进行推理，建议仅在数学计算或逻辑推理场景下开启。

Tip：API相关内容可查看API列表。