文心一言-千帆大模型平台
数据集管理
复制页面
文心一言-千帆大模型平台
体验中心
常见问题
大模型技术测试服务协议
账号与权限管理
账号创建与权限分配
通过子账户隔离实现账单隔离
产品简介
什么是百度智能云千帆大模型平台
百度智能云千帆大模型平台产品优势
百度智能云千帆大模型平台常用概念
新手指南
SFT调优快速手册
SFT最佳实践
平台使用快速开始
导入并部署第三方模型
快速导入并部署第三方模型
SQLCoder自定义模型导入·详细操作
模型广场
查看与管理预置模型
预置调用免费模型列表
我的模型
创建我的模型
查看与管理我的模型
Prompt 工程
什么 Prompt 工程
Prompt 模板
Prompt 优化
Prompt 工程使用技巧
Prompt 的使用技巧
基础的 Basic Prompt Framework
丰富的 CRISPE Prompt Framework
轻量化的 Few-shot Prompt
模型服务
应用接入
在线服务
调用统计
模型调优
模型精调
Post-pretrain
什么是 Post-pretrain
创建 Post-pretrain 任务
查看与管理 Post-pretrain
SFT
创建 SFT 任务
查看与管理 SFT 运行
RLHF
什么是 RLHF 训练
创建奖励模型训练任务
查看与管理奖励模型训练运行
创建强化学习训练任务
查看与管理强化学习训练运行
模型评估
创建模型评估任务
查看与管理模型评估任务
模型压缩
创建模型压缩任务
查看模型压缩任务
数据管理
数据回流
数据集对应关系说明
数据集管理
创建数据集
数据分析
导入文本对话数据
导入泛文本无标注数据
导入 query 问题集数据
导入文生图数据
管理数据集版本
导出数据
数据集的其他操作
数据标注
在线标注
众测标注
数据处理
数据清洗
数据增强
知识库
什么是千帆大模型知识库
知识库管理
命中测试
系统配置
计算资源
计费管理
插件编排
什么是插件应用
插件编排使用说明
应用创建
对话场景类应用
生成场景类应用
插件
插件列表
自定义插件
插件开发者文档
API 鉴权及调用
API 介绍
API 列表
API 调用指南
API 调用流程
错误码
API 在线调试
鉴权认证
鉴权介绍
使用网页调试工具获取 access_token
获取 access_token
对话 Chat
Llama-2
Llama-2-7b-chat
Llama-2-13b-chat
Llama-2-70b-chat
ERNIE-Bot 4.0
ERNIE-Bot
ERNIE-Bot-turbo
BLOOMZ-7B
Qianfan-BLOOMZ-7B-compressed
Mistral-7B-Instruct
Qianfan-Chinese-Llama-2-7B
Qianfan-Chinese-Llama-2-13B
Linly-Chinese-LLaMA-2-7B
Linly-Chinese-LLaMA-2-13B
ChatGLM2-6B
ChatGLM2-6B-32K
ChatGLM2-6B-INT4
Baichuan2-13B-Chat
XVERSE-13B-Chat
Falcon-7B
Falcon-40B-Instruct
AquilaChat-7B
RWKV-4-World
RWKV-4-pile-14B
RWKV-Raven-14B
OpenLLaMA-7B
Dolly-12B
MPT-7B-Instruct
MPT-30B-instruct
OA-Pythia-12B-SFT-4
Falcon-180B-Chat
RWKV-5-World
Flan-UL2
续写 Completions
SQLCoder-7B
CodeLlama-7b-Instruct
AquilaCode-multi
Cerebras-GPT-13B
Pythia-12B
GPT-J-6B
GPT-NeoX-20B
GPT4All-J
StarCoder
StableLM-Alpha -7B
Pythia-6.9B
Cerebras-GPT-6.7B
向量 Embeddings
Embedding-V1
bge-large-zh
bge-large-en
图像 Images
Stable-Diffusion-XL
自定义模型调用 API
自定义模型调用 API
续写模式
模型服务
创建服务
查询服务详情
模型管理
获取模型版本详情
获取模型详情
训练任务发布为模型
模型调优
创建训练任务
创建任务运行
获取任务运行详情
停止任务运行
数据管理
创建数据集
发起数据集发布任务
发起数据集导入任务
获取数据集详情
获取数据集状态详情
发起数据集导出任务
删除数据集
获取数据集导出记录
获取数据集导入错误详情
Prompt 工程
Prompt 模板
插件应用
知识库
智慧图问
天气
SDK 参考
千帆 SDK 介绍
SDK 安装及使用流程
对话 Chat
续写 Completions
向量 Embeddings
模型服务
创建服务
查询服务详情
模型管理
获取模型详情
获取模型版本详情
训练任务发布为模型
模型调优
创建训练任务
创建任务运行
获取任务运行详情
停止任务运行
数据管理
创建数据集
发起数据集发布任务
发起数据集导入任务
获取数据集详情
获取数据集状态详情
发起数据集导出任务
删除数据集
获取数据集导出记录
获取数据集导入错误详情
插件应用
知识库
智能图问
天气
价格说明
千帆大模型平台价格文档
数据集管理
复制页面
创建数据集
平台支持统一纳管自训模型的数据集,并对数据样本集可自主进行版本迭代、继续导入和删除等操作。
如果您当前未准备可用的数据集的话也可以选择平台的
预置数据集
,进行调优或评估操作。
登录到
千帆大模型操作台
,在左侧功能列选择
数据集管理
,进入数据集管理主任务界面。
其中
不同标注类型的文本
,将用于
不同的模型训练
方式,
重点关注
标注类型
相关内容,单/多轮对话区别和示例可文中进行
参考
。
列表查看
#
数据集支持对已经建立的数据按数据集组为粒度分行展示。如下图所示:
可根据实际需求对上图中的字段进行名称变更、新增版本、导入数据和删除等操作。
创建数据集
#
需输入数据集名称,默认数据类型为文本,数据集版本从V1开始迭代,“完成创建”即可创建一个空数据集,“创建并导入”则直接进入数据导入页面。
标注类型
#
标注类型分为以下类型:
文本类
:
1.
文本对话
非排序模版:单轮或多轮的文本对话数据,单个提问和回答一一对应,作为后续SFT、 prompt tuning以及delta tuning的训练输入。
含排序模版:单轮或多轮的文本对话数据,单个提问对应多个回答, 需要对多个回答进行排序,作为后续奖励模型的训练输入。
2.
泛文本无标注:特定行业方向/场景下的大规模无标注数据语料,作为后续post-pretrain的训练输入。
3.
query问题集:单轮或多轮的提问语料数据,作为后续RLHF的训练输入。
跨模态类
:
1.文生图:特定行业需求下的输入相关propmpt,大模型自动返回图片格式数据。
导入数据
#
创建数据集后,在数据集管理页面中,找到该数据集,点击右侧操作列下的“导入”按钮,即可进入导入数据页面。
其中导入对话文本数据可参考
文本对话数据导入
、导入无标注泛文本数据可参考
泛文本无标注数据导入
、导入query问题集数据可参考
query问题集数据导入
、导入文生图数据可参考
文生图数据导入
已发布的数据集版本,不再支持导入
。
保存位置
#
在您创建数据集成功后,可以选择平台存储数据集或者BOS存储数据集。
需注意
:非平台存储的数据集, 在进行数据管理、标注、处理时需用户自行保证数据地址有效,如您存储选择BOS,导出数据时也会到出到BOS。
相关链接:
开通百度BOS
新增数据集版本
#
如您在本数据集的基础上想要增加版本,可以选择“新增版本”按钮,新版本数据可以选择是否继承历史版本,如不继承,可重新选择标注类型。
预置数据集
#
平台为方便用户快速完成平台使用并验证训练效果,置入多款预置数据集。
进入
数据集管理
功能界面,在功能选择进入
预置数据集
。
预置数据集支持类型如下:
标注类型
任务类型
领域类型
应用场景
文本对话(非排序) 泛文本无标注
post-pretrain 限定式问答 逻辑推理 开放式问 答角色扮演 数学 价值观对齐 代码生成 文本创作
通用 教育 能源 金融 科技 医疗
调优 评测
详情
#
在
预置数据集
功能页,点击指定数据集,即可查看本数据集的具体内容,如下图所示:
选择“数据预览”操作列的“查看”即可展示当前数据集的具体内容:
评估
#
预置数据集可以作为评估数据集在“模型评估”中进行任务创建,详细操作可查看
模型评估
相关内容。
修改于
2023-11-15 03:03:36
上一页
数据集对应关系说明
下一页
数据分析