创建数据集

平台支持统一纳管自训模型的数据集，并对数据样本集可自主进行版本迭代、继续导入和删除等操作。
如果您当前未准备可用的数据集的话也可以选择平台的预置数据集，进行调优或评估操作。

登录到千帆大模型操作台，在左侧功能列选择数据集管理，进入数据集管理主任务界面。

其中不同标注类型的文本，将用于不同的模型训练方式，重点关注标注类型相关内容，单/多轮对话区别和示例可文中进行参考。

列表查看

数据集支持对已经建立的数据按数据集组为粒度分行展示。如下图所示：

可根据实际需求对上图中的字段进行名称变更、新增版本、导入数据和删除等操作。

需输入数据集名称，默认数据类型为文本，数据集版本从V1开始迭代，“完成创建”即可创建一个空数据集，“创建并导入”则直接进入数据导入页面。

标注类型

标注类型分为以下类型：

文本类：

文本对话

非排序模版：单轮或多轮的文本对话数据，单个提问和回答一一对应，作为后续SFT、 prompt tuning以及delta tuning的训练输入。

含排序模版：单轮或多轮的文本对话数据，单个提问对应多个回答，需要对多个回答进行排序，作为后续奖励模型的训练输入。

泛文本无标注：特定行业方向/场景下的大规模无标注数据语料，作为后续post-pretrain的训练输入。

query问题集：单轮或多轮的提问语料数据，作为后续RLHF的训练输入。

跨模态类：

1.文生图：特定行业需求下的输入相关propmpt，大模型自动返回图片格式数据。

导入数据

创建数据集后，在数据集管理页面中，找到该数据集，点击右侧操作列下的“导入”按钮，即可进入导入数据页面。
其中导入对话文本数据可参考文本对话数据导入、导入无标注泛文本数据可参考泛文本无标注数据导入、导入query问题集数据可参考query问题集数据导入、导入文生图数据可参考文生图数据导入
已发布的数据集版本，不再支持导入。

保存位置

在您创建数据集成功后，可以选择平台存储数据集或者BOS存储数据集。
需注意：非平台存储的数据集，在进行数据管理、标注、处理时需用户自行保证数据地址有效,如您存储选择BOS，导出数据时也会到出到BOS。

新增数据集版本

如您在本数据集的基础上想要增加版本，可以选择“新增版本”按钮，新版本数据可以选择是否继承历史版本，如不继承，可重新选择标注类型。

预置数据集

平台为方便用户快速完成平台使用并验证训练效果，置入多款预置数据集。

进入数据集管理功能界面，在功能选择进入预置数据集。

预置数据集支持类型如下：

标注类型	任务类型	领域类型	应用场景
文本对话（非排序）泛文本无标注	post-pretrain 限定式问答逻辑推理开放式问答角色扮演数学价值观对齐代码生成文本创作	通用教育能源金融科技医疗	调优评测

详情

在预置数据集功能页，点击指定数据集，即可查看本数据集的具体内容，如下图所示：

选择“数据预览”操作列的“查看”即可展示当前数据集的具体内容：

评估

预置数据集可以作为评估数据集在“模型评估”中进行任务创建，详细操作可查看模型评估相关内容。

创建数据集

列表查看#