创建数据集
平台支持统一纳管自训模型的数据集,并对数据样本集可自主进行版本迭代、继续导入和删除等操作。
如果您当前未准备可用的数据集的话也可以选择平台的预置数据集,进行调优或评估操作。
登录到千帆大模型操作台,在左侧功能列选择数据集管理,进入数据集管理主任务界面。
其中不同标注类型的文本,将用于不同的模型训练方式,**重点关注标注类型相关内容,单/多轮对话区别和示例可文中进行参考**。
列表查看
数据集支持对已经建立的数据按数据集组为粒度分行展示。如下图所示:
可根据实际需求对上图中的字段进行名称变更、新增版本、导入数据和删除等操作。
创建数据集
需输入数据集名称,默认数据类型为文本,数据集版本从V1开始迭代,“完成创建”即可创建一个空数据集,“创建并导入”则直接进入数据导入页面。
标注类型
标注类型分为以下类型:
- 文本类:
- 文本对话
- 非排序模版:单轮或多轮的文本对话数据,单个提问和回答一一对应,作为后续SFT、 prompt tuning以及delta tuning的训练输入。
- 含排序模版:单轮或多轮的文本对话数据,单个提问对应多个回答, 需要对多个回答进行排序,作为后续奖励模型的训练输入。
- 泛文本无标注:特定行业方向/场景下的大规模无标注数据语料,作为后续post-pretrain的训练输入。
- query问题集:单轮或多轮的提问语料数据,作为后续RLHF的训练输入。
跨模态类:
1.文生图:特定行业需求下的输入相关propmpt,大模型自动返回图片格式数据。
导入数据
- 创建数据集后,在数据集管理页面中,找到该数据集,点击右侧操作列下的“导入”按钮,即可进入导入数据页面。
其中导入对话文本数据可参考文本对话数据导入、导入无标注泛文本数据可参考泛文本无标注数据导入、导入query问题集数据可参考query问题集数据导入、导入文生图数据可参考文生图数据导入
已发布的数据集版本,不再支持导入。
保存位置
在您创建数据集成功后,可以选择平台存储数据集或者BOS存储数据集。
需注意:非平台存储的数据集, 在进行数据管理、标注、处理时需用户自行保证数据地址有效,如您存储选择BOS,导出数据时也会到出到BOS。
相关链接:开通百度BOS
新增数据集版本
如您在本数据集的基础上想要增加版本,可以选择“新增版本”按钮,新版本数据可以选择是否继承历史版本,如不继承,可重新选择标注类型。
预置数据集
平台为方便用户快速完成平台使用并验证训练效果,置入多款预置数据集。
预置数据集支持类型如下:
标注类型 | 任务类型 | 领域类型 | 应用场景 |
---|---|---|---|
文本对话(非排序) 泛文本无标注 | post-pretrain 限定式问答 逻辑推理 开放式问 答角色扮演 数学 价值观对齐 代码生成 文本创作 | 通用 教育 能源 金融 科技 医疗 | 调优 评测 |
详情
在预置数据集功能页,点击指定数据集,即可查看本数据集的具体内容,如下图所示:
选择“数据预览”操作列的“查看”即可展示当前数据集的具体内容:
评估
预置数据集可以作为评估数据集在“模型评估”中进行任务创建,详细操作可查看模型评估相关内容。
最后修改时间: 1 年前