文心一言-千帆大模型平台
  1. 数据管理
文心一言-千帆大模型平台
  • 体验中心
  • 常见问题
  • 大模型技术测试服务协议
  • 账号与权限管理
    • 账号创建与权限分配
    • 通过子账户隔离实现账单隔离
  • 产品简介
    • 什么是百度智能云千帆大模型平台
    • 百度智能云千帆大模型平台产品优势
    • 百度智能云千帆大模型平台常用概念
  • 新手指南
    • SFT调优快速手册
    • SFT最佳实践
    • 平台使用快速开始
    • 导入并部署第三方模型
      • 快速导入并部署第三方模型
      • SQLCoder自定义模型导入·详细操作
  • 模型广场
    • 查看与管理预置模型
    • 预置调用免费模型列表
  • 我的模型
    • 创建我的模型
    • 查看与管理我的模型
  • Prompt 工程
    • 什么 Prompt 工程
    • Prompt 模板
    • Prompt 优化
    • Prompt 工程使用技巧
      • Prompt 的使用技巧
      • 基础的 Basic Prompt Framework
      • 丰富的 CRISPE Prompt Framework
      • 轻量化的 Few-shot Prompt
  • 模型服务
    • 应用接入
    • 在线服务
    • 调用统计
  • 模型调优
    • 模型精调
      • Post-pretrain
        • 什么是 Post-pretrain
        • 创建 Post-pretrain 任务
        • 查看与管理 Post-pretrain
      • SFT
        • 创建 SFT 任务
        • 查看与管理 SFT 运行
      • RLHF
        • 什么是 RLHF 训练
        • 创建奖励模型训练任务
        • 查看与管理奖励模型训练运行
        • 创建强化学习训练任务
        • 查看与管理强化学习训练运行
    • 模型评估
      • 创建模型评估任务
      • 查看与管理模型评估任务
    • 模型压缩
      • 创建模型压缩任务
      • 查看模型压缩任务
  • 数据管理
    • 数据回流
    • 数据集对应关系说明
    • 数据集管理
      • 创建数据集
      • 数据分析
      • 导入文本对话数据
      • 导入泛文本无标注数据
      • 导入 query 问题集数据
      • 导入文生图数据
      • 管理数据集版本
      • 导出数据
      • 数据集的其他操作
    • 数据标注
      • 在线标注
      • 众测标注
    • 数据处理
      • 数据清洗
      • 数据增强
    • 知识库
      • 什么是千帆大模型知识库
      • 知识库管理
      • 命中测试
  • 系统配置
    • 计算资源
    • 计费管理
    • 插件编排
      • 什么是插件应用
      • 插件编排使用说明
      • 应用创建
        • 对话场景类应用
        • 生成场景类应用
      • 插件
        • 插件列表
        • 自定义插件
        • 插件开发者文档
  • API 鉴权及调用
    • API 介绍
    • API 列表
    • API 调用指南
      • API 调用流程
      • 错误码
      • API 在线调试
    • 鉴权认证
      • 鉴权介绍
      • 使用网页调试工具获取 access_token
      • 获取 access_token
    • 对话 Chat
      • Llama-2
        • Llama-2-7b-chat
        • Llama-2-13b-chat
        • Llama-2-70b-chat
      • ERNIE-Bot 4.0
      • ERNIE-Bot
      • ERNIE-Bot-turbo
      • BLOOMZ-7B
      • Qianfan-BLOOMZ-7B-compressed
      • Mistral-7B-Instruct
      • Qianfan-Chinese-Llama-2-7B
      • Qianfan-Chinese-Llama-2-13B
      • Linly-Chinese-LLaMA-2-7B
      • Linly-Chinese-LLaMA-2-13B
      • ChatGLM2-6B
      • ChatGLM2-6B-32K
      • ChatGLM2-6B-INT4
      • Baichuan2-13B-Chat
      • XVERSE-13B-Chat
      • Falcon-7B
      • Falcon-40B-Instruct
      • AquilaChat-7B
      • RWKV-4-World
      • RWKV-4-pile-14B
      • RWKV-Raven-14B
      • OpenLLaMA-7B
      • Dolly-12B
      • MPT-7B-Instruct
      • MPT-30B-instruct
      • OA-Pythia-12B-SFT-4
      • Falcon-180B-Chat
      • RWKV-5-World
      • Flan-UL2
    • 续写 Completions
      • SQLCoder-7B
      • CodeLlama-7b-Instruct
      • AquilaCode-multi
      • Cerebras-GPT-13B
      • Pythia-12B
      • GPT-J-6B
      • GPT-NeoX-20B
      • GPT4All-J
      • StarCoder
      • StableLM-Alpha -7B
      • Pythia-6.9B
      • Cerebras-GPT-6.7B
    • 向量 Embeddings
      • Embedding-V1
      • bge-large-zh
      • bge-large-en
    • 图像 Images
      • Stable-Diffusion-XL
    • 自定义模型调用 API
      • 自定义模型调用 API
      • 续写模式
    • 模型服务
      • 创建服务
      • 查询服务详情
    • 模型管理
      • 获取模型版本详情
      • 获取模型详情
      • 训练任务发布为模型
    • 模型调优
      • 创建训练任务
      • 创建任务运行
      • 获取任务运行详情
      • 停止任务运行
    • 数据管理
      • 创建数据集
      • 发起数据集发布任务
      • 发起数据集导入任务
      • 获取数据集详情
      • 获取数据集状态详情
      • 发起数据集导出任务
      • 删除数据集
      • 获取数据集导出记录
      • 获取数据集导入错误详情
    • Prompt 工程
      • Prompt 模板
    • 插件应用
      • 知识库
      • 智慧图问
      • 天气
  • SDK 参考
    • 千帆 SDK 介绍
    • SDK 安装及使用流程
    • 对话 Chat
    • 续写 Completions
    • 向量 Embeddings
    • 模型服务
      • 创建服务
      • 查询服务详情
    • 模型管理
      • 获取模型详情
      • 获取模型版本详情
      • 训练任务发布为模型
    • 模型调优
      • 创建训练任务
      • 创建任务运行
      • 获取任务运行详情
      • 停止任务运行
    • 数据管理
      • 创建数据集
      • 发起数据集发布任务
      • 发起数据集导入任务
      • 获取数据集详情
      • 获取数据集状态详情
      • 发起数据集导出任务
      • 删除数据集
      • 获取数据集导出记录
      • 获取数据集导入错误详情
    • 插件应用
      • 知识库
      • 智能图问
      • 天气
  • 价格说明
    • 千帆大模型平台价格文档
  1. 数据管理

创建数据集

功能介绍#

用于创建数据集。

注意事项#

调用本文API,需使用安全认证AK/SK鉴权,调用流程及鉴权介绍详见SDK安装及使用流程。

调用示例#

python

返回示例#

python

参数说明#

请求参数#

名称类型必填描述
namestring是数据集名称,当创建新数据集时必传非空,示例:数据集名称
data_set_typeDataSetTypeI(enum)是数据类型,可选值如下: · DataSetType.TextOnly:表示文本 · DataSetType.MultiModel:表示跨模态
project_typeDataProjectType是标注类型,可选值如下: · DataProjectType.Conversation:表示文本对话 · DataProjectType.GenericText:表示泛文本无标注 · DataProjectType.QuerySet:表示query问题集 · DataProjectType.Text2Image:表示文生图
template_typeDataTemplateType是标注模板类型,可选值如下: · DataTemplateType.NonSortedConversation:表示非排序文本对话 · DataTemplateType.SortedConversation:表示含排序文本对话 · DataTemplateType.GenericText:表示泛文本无标注 · DataTemplateType.QuerySet:表示query问题集 · DataTemplateType.Text2Image:表示文生图
storage_typeDataStorageType是数据集存储类型,示例:sysBos,可选值如下: · 用户bos,固定值DataStorageType.PrivateBos · 公共bos,固定值DataStorageType.PublicBos
storage_idstring否使用用户bos时需要填写使用的bucket
storage_pathstring否使用用户bos时需要填写使用的目录

返回参数#

名称类型描述
log_idstring请求ID
statusint状态码
successbool是否操作成功,说明: · true:成功 · false:失败
resultdict返回结果
result说明
名称类型描述
groupIdint数据集ID
idint数据集版本ID
versionIdint版本号
groupNamestring数据集名称
displayNamestring展示名称
bmlDatasetIdstring字符型数据集唯一id,随机字符串,与存储位置相关
userIdint用户id
dataTypeint数据类型
projectTypeint标注类型
templateTypeint标注模版
remarkstring备注
storageInfodict存储信息
importStatusint导入状态,说明: · -1:未发起导入 · 0:导入完成 · 1:等待中 · 2:正在导入 · 3:导入失败 · 4:导入中止
importProgressint导入进度
exportStatusint导出状态,说明: · -1:未发起导出 · 0:导出初始化 · 1:导出进行中 · 2:导出完成 · 3:导出失败
releaseStatusint发布状态,说明: · 0:未发布 · 1:发布中 · 2:发布成功 · 3:发布失败
statusint状态,说明: · 0:正常 · 1:禁用 · 2:删除
isUniqueint是否去重,说明: · 0:不去重 · 1:去重
errCodestring导入错误码,说明: · 1:上传的文件大小超过限制 · 2:上传的数据集缺少JSON文件 · 3:上传的文件存在格式错误 · 4:您的账户数据集额度已超限 · 5:上传的样本中存在不合法标签 · 6:上传的样本中存在不合法字符 · 7:上传的样本中存在标签数与文本token数不匹配 · 8:上传的样本标签未在label_map中找到 · 9:文本内容格式与要求不匹配,请重新上传 · 10:上传的压缩包解压失败 · 11:上传的数据集缺少xml文件 · 12:上传的已标注文本缺少标注内容 · 13:上传的文本内容为空或存在空行 · 14:上传的文本编码格式仅支持UTF-8,请重新上传 · 15:上传内容中没有可标注的源文件,请重新上传 · 16 :上传的文件内容不符合要求 · 17:当前数据集标签额度已超限 · 18:上传的视频或音频时长超过限制 · 19:分享的压缩包链接无效 · 20:视频转码失败 · 21:文本区间坐标不合法 · 22:order不合法 · 23:传入文件大小为0 · 24:上传的数据集缺少ocr txt标注 · 25:上传的数据集缺少标注文件 · 26:当前数据集的实体数量超过上限 · 27:上传的分辨率不符合要求 · 50:导入数据失败,数据文件列数不能超过1000列 · 51:导入数据失败,数据集总行数不能超过1000万行 · 52:导入数据失败,数据文件大小超过限制 · 53:导入数据失败,请确保文件编码格式为UTF-8或GBK · 54:导入数据失败,新导入文件与数据集schema不一致 · 55:文档解析失败 · 100:网络异常或服务异常 · 300:BOS没有找到文件
createTimestring创建时间
modifiyTimestring更新时间
storageInfo说明
名称类型说明
storageIdstringbucket名称
storagePathstring完整存储路径
storageNamestringbucket名称
rawStoragePathstringbucket下文件夹名称,格式为前后加斜杠,示例:"/yourDir/"
regionstring存储所在区域,当数据集存储类型是用户Bos时才返回该字段
上一页
停止任务运行
下一页
发起数据集发布任务
Built with