文心一言-千帆大模型平台
  1. 数据管理
文心一言-千帆大模型平台
  • 体验中心
  • 常见问题
  • 大模型技术测试服务协议
  • 账号与权限管理
    • 账号创建与权限分配
    • 通过子账户隔离实现账单隔离
  • 产品简介
    • 什么是百度智能云千帆大模型平台
    • 百度智能云千帆大模型平台产品优势
    • 百度智能云千帆大模型平台常用概念
  • 新手指南
    • SFT调优快速手册
    • SFT最佳实践
    • 平台使用快速开始
    • 导入并部署第三方模型
      • 快速导入并部署第三方模型
      • SQLCoder自定义模型导入·详细操作
  • 模型广场
    • 查看与管理预置模型
    • 预置调用免费模型列表
  • 我的模型
    • 创建我的模型
    • 查看与管理我的模型
  • Prompt 工程
    • 什么 Prompt 工程
    • Prompt 模板
    • Prompt 优化
    • Prompt 工程使用技巧
      • Prompt 的使用技巧
      • 基础的 Basic Prompt Framework
      • 丰富的 CRISPE Prompt Framework
      • 轻量化的 Few-shot Prompt
  • 模型服务
    • 应用接入
    • 在线服务
    • 调用统计
  • 模型调优
    • 模型精调
      • Post-pretrain
        • 什么是 Post-pretrain
        • 创建 Post-pretrain 任务
        • 查看与管理 Post-pretrain
      • SFT
        • 创建 SFT 任务
        • 查看与管理 SFT 运行
      • RLHF
        • 什么是 RLHF 训练
        • 创建奖励模型训练任务
        • 查看与管理奖励模型训练运行
        • 创建强化学习训练任务
        • 查看与管理强化学习训练运行
    • 模型评估
      • 创建模型评估任务
      • 查看与管理模型评估任务
    • 模型压缩
      • 创建模型压缩任务
      • 查看模型压缩任务
  • 数据管理
    • 数据回流
    • 数据集对应关系说明
    • 数据集管理
      • 创建数据集
      • 数据分析
      • 导入文本对话数据
      • 导入泛文本无标注数据
      • 导入 query 问题集数据
      • 导入文生图数据
      • 管理数据集版本
      • 导出数据
      • 数据集的其他操作
    • 数据标注
      • 在线标注
      • 众测标注
    • 数据处理
      • 数据清洗
      • 数据增强
    • 知识库
      • 什么是千帆大模型知识库
      • 知识库管理
      • 命中测试
  • 系统配置
    • 计算资源
    • 计费管理
    • 插件编排
      • 什么是插件应用
      • 插件编排使用说明
      • 应用创建
        • 对话场景类应用
        • 生成场景类应用
      • 插件
        • 插件列表
        • 自定义插件
        • 插件开发者文档
  • API 鉴权及调用
    • API 介绍
    • API 列表
    • API 调用指南
      • API 调用流程
      • 错误码
      • API 在线调试
    • 鉴权认证
      • 鉴权介绍
      • 使用网页调试工具获取 access_token
      • 获取 access_token
    • 对话 Chat
      • Llama-2
        • Llama-2-7b-chat
        • Llama-2-13b-chat
        • Llama-2-70b-chat
      • ERNIE-Bot 4.0
      • ERNIE-Bot
      • ERNIE-Bot-turbo
      • BLOOMZ-7B
      • Qianfan-BLOOMZ-7B-compressed
      • Mistral-7B-Instruct
      • Qianfan-Chinese-Llama-2-7B
      • Qianfan-Chinese-Llama-2-13B
      • Linly-Chinese-LLaMA-2-7B
      • Linly-Chinese-LLaMA-2-13B
      • ChatGLM2-6B
      • ChatGLM2-6B-32K
      • ChatGLM2-6B-INT4
      • Baichuan2-13B-Chat
      • XVERSE-13B-Chat
      • Falcon-7B
      • Falcon-40B-Instruct
      • AquilaChat-7B
      • RWKV-4-World
      • RWKV-4-pile-14B
      • RWKV-Raven-14B
      • OpenLLaMA-7B
      • Dolly-12B
      • MPT-7B-Instruct
      • MPT-30B-instruct
      • OA-Pythia-12B-SFT-4
      • Falcon-180B-Chat
      • RWKV-5-World
      • Flan-UL2
    • 续写 Completions
      • SQLCoder-7B
      • CodeLlama-7b-Instruct
      • AquilaCode-multi
      • Cerebras-GPT-13B
      • Pythia-12B
      • GPT-J-6B
      • GPT-NeoX-20B
      • GPT4All-J
      • StarCoder
      • StableLM-Alpha -7B
      • Pythia-6.9B
      • Cerebras-GPT-6.7B
    • 向量 Embeddings
      • Embedding-V1
      • bge-large-zh
      • bge-large-en
    • 图像 Images
      • Stable-Diffusion-XL
    • 自定义模型调用 API
      • 自定义模型调用 API
      • 续写模式
    • 模型服务
      • 创建服务
      • 查询服务详情
    • 模型管理
      • 获取模型版本详情
      • 获取模型详情
      • 训练任务发布为模型
    • 模型调优
      • 创建训练任务
      • 创建任务运行
      • 获取任务运行详情
      • 停止任务运行
    • 数据管理
      • 创建数据集
        POST
      • 发起数据集发布任务
        POST
      • 发起数据集导入任务
        POST
      • 获取数据集详情
        POST
      • 获取数据集状态详情
        POST
      • 发起数据集导出任务
        POST
      • 删除数据集
        POST
      • 获取数据集导出记录
        POST
      • 获取数据集导入错误详情
        POST
    • Prompt 工程
      • Prompt 模板
    • 插件应用
      • 知识库
      • 智慧图问
      • 天气
  • SDK 参考
    • 千帆 SDK 介绍
    • SDK 安装及使用流程
    • 对话 Chat
    • 续写 Completions
    • 向量 Embeddings
    • 模型服务
      • 创建服务
      • 查询服务详情
    • 模型管理
      • 获取模型详情
      • 获取模型版本详情
      • 训练任务发布为模型
    • 模型调优
      • 创建训练任务
      • 创建任务运行
      • 获取任务运行详情
      • 停止任务运行
    • 数据管理
      • 创建数据集
      • 发起数据集发布任务
      • 发起数据集导入任务
      • 获取数据集详情
      • 获取数据集状态详情
      • 发起数据集导出任务
      • 删除数据集
      • 获取数据集导出记录
      • 获取数据集导入错误详情
    • 插件应用
      • 知识库
      • 智能图问
      • 天气
  • 价格说明
    • 千帆大模型平台价格文档
  1. 数据管理

创建数据集

开发环境
http://dev-cn.your-api-server.com
开发环境
http://dev-cn.your-api-server.com
POST
https://qianfan.baidubce.com/wenxinworkshop/dataset/create

功能介绍#

本接口用于创建数据集。
接口调用成功后,会在数据集管理页面,新增一条数据集记录。例如,创建一条名称为“数据集名称1”的数据集,接口调用成功后,在数据集管理页面,可以查看到该数据集相关信息。
image.png

注意事项#

调用本文API,使用“安全认证/Access Key ”中的Access Key ID 和 Secret Access Key等进行鉴权,无法使用获取Access Token的方式鉴权,具体鉴权认证机制参考鉴权认证机制。

创建文生图类型数据集#

请求示例#

bash

响应示例#

JSON

错误码#

若请求错误,服务器将返回的JSON文本包含以下参数:
名称描述
error_code错误码
error_msg错误描述信息,帮助理解和解决发生的错误
例如参数错误返回:
{
  "error_code": 500001,
  "error_msg": "param invalid"
}
创建数据集相关错误码,请查看错误码说明。
请求示例请求示例
Shell
JavaScript
Java
Swift
curl --location --request POST 'https://qianfan.baidubce.com/wenxinworkshop/dataset/create?access_token	=' \
--header 'Content-Type;' \
--header 'x-bce-date;' \
--header 'Authorization;' \
--header 'Content-Type: application/json' \
--data-raw '{
    "name": "hello_dataset",
    "dataType": 4,
    "projectType": 20,
    "templateType": 2000,
    "storageType": "sysBos"
}'
响应示例响应示例
{
  "log_id": "string",
  "result": {
    "id": 0,
    "groupId": 0,
    "groupName": "string",
    "displayName": "string",
    "createFrom": 0,
    "bmlDatasetId": "string",
    "versionId": 0,
    "userId": 0,
    "dataType": 0,
    "projectType": 0,
    "templateType": 0,
    "remark": "string",
    "storageInfo": {
      "storageId": "string",
      "storagePath": "string",
      "storageName": "string"
    },
    "importStatus": 0,
    "importProgress": 0,
    "exportStatus": 0,
    "releaseStatus": 0,
    "status": 0,
    "isUnique": 0,
    "errCode": null,
    "createTime": "string",
    "modifyTime": "string"
  },
  "status": 0,
  "success": true
}

请求参数

Query 参数
access_token
string 
必需
通过API Key和Secret Key获取的access_token,参考Access Token获取
Header 参数
Content-Type
string 
必需
固定值:application/json
x-bce-date
string 
必需
当前时间,遵循ISO8601规范,格式如2016-04-06T08:23:49Z
Authorization
string 
必需
用于验证请求合法性的认证信息,更多内容请参考鉴权认证机制,签名工具可参考IAM签名工具
Body 参数application/json
name
string 
必需
数据集名称,当创建新数据集时必传非空,示例:数据集名称
dataType
integer 
必需
数据类型,可选值如下: · 4:表示文本 · 7:表示跨模态
projectType
integer 
必需
标注类型,可选值如下: · 20:表示文本对话 · 401:表示泛文本无标注 · 402:表示query问题集 · 705:表示文生图
templateType
integer 
必需
标注模板类型,可选值如下: · 2000:表示非排序文本对话 · 2001:表示含排序文本对话 · 40100:表示泛文本无标注 · 40200:表示query问题集 · 70500:表示文生图
storageType
string 
必需
数据集存储类型,示例:sysBos,可选值如下: · 用户bos,固定值usrBos · 公共bos,固定值sysBos
示例

返回响应

🟢200成功
application/json
Body
log_id
string 
请求ID
必需
result
object 
返回结果
必需
id
integer 
数据集版本ID
必需
groupId
integer 
数据集ID
必需
groupName
string 
数据集名称
必需
displayName
string 
展示名称
必需
createFrom
integer 
必需
bmlDatasetId
string 
必需
字符型数据集唯一id,随机字符串,与存储位置相关
versionId
integer 
版本号
必需
userId
integer 
用户id
必需
dataType
integer 
数据类型
必需
projectType
integer 
标注类型
必需
templateType
integer 
标注模版
必需
remark
string 
备注
必需
storageInfo
object 
存储信息
必需
importStatus
integer 
必需
导入状态,说明: · -1:未发起导入 · 0:待导入 · 1:导入中 · 2:导入完成 · 3:导入失败 · 4:导入中止
importProgress
integer 
导入进度
必需
exportStatus
integer 
必需
导出状态,说明: · -1:未发起导出 · 0:导出初始化 · 1:导出进行中 · 2:导出完成 · 3:导出失败
releaseStatus
integer 
必需
发布状态,说明: · 0:未发布 · 1:发布中 · 2:发布成功 · 3:发布失败
status
integer 
必需
状态,说明: · 0:正常 · 1:禁用 · 2:删除
isUnique
integer 
必需
是否去重,说明: · 0:不去重 · 1:去重
errCode
null 
必需
导入错误码,说明: · 1:上传的文件大小超过限制 · 2:上传的数据集缺少JSON文件 · 3:上传的文件存在格式错误 · 4:您的账户数据集额度已超限 · 5:上传的样本中存在不合法标签 · 6:上传的样本中存在不合法字符 · 7:上传的样本中存在标签数与文本token数不匹配 · 8:上传的样本标签未在label_map中找到 · 9:文本内容格式与要求不匹配,请重新上传 · 10:上传的压缩包解压失败 · 11:上传的数据集缺少xml文件 · 12:上传的已标注文本缺少标注内容 · 13:上传的文本内容为空或存在空行 · 14:上传的文本编码格式仅支持UTF-8,请重新上传 · 15:上传内容中没有可标注的源文件,请重新上传 · 16 :上传的文件内容不符合要求 · 17:当前数据集标签额度已超限 · 18:上传的视频或音频时长超过限制 · 19:分享的压缩包链接无效 · 20:视频转码失败 · 21:文本区间坐标不合法 · 22:order不合法 · 23:传入文件大小为0 · 24:上传的数据集缺少ocr txt标注 · 25:上传的数据集缺少标注文件 · 26:当前数据集的实体数量超过上限 · 27:上传的分辨率不符合要求 · 50:导入数据失败,数据文件列数不能超过1000列 · 51:导入数据失败,数据集总行数不能超过1000万行 · 52:导入数据失败,数据文件大小超过限制 · 53:导入数据失败,请确保文件编码格式为UTF-8或GBK · 54:导入数据失败,新导入文件与数据集schema不一致 · 55:文档解析失败 · 100:网络异常或服务异常 · 300:BOS没有找到文件
createTime
string 
创建时间
必需
modifyTime
string 
更新时间
必需
status
integer 
状态码
必需
success
boolean 
必需
是否操作成功,说明: · true:成功 · false:失败
上一页
停止任务运行
下一页
发起数据集发布任务
Built with