文心一言-千帆大模型平台
  1. 数据集管理
文心一言-千帆大模型平台
  • 体验中心
  • 常见问题
  • 大模型技术测试服务协议
  • 账号与权限管理
    • 账号创建与权限分配
    • 通过子账户隔离实现账单隔离
  • 产品简介
    • 什么是百度智能云千帆大模型平台
    • 百度智能云千帆大模型平台产品优势
    • 百度智能云千帆大模型平台常用概念
  • 新手指南
    • SFT调优快速手册
    • SFT最佳实践
    • 平台使用快速开始
    • 导入并部署第三方模型
      • 快速导入并部署第三方模型
      • SQLCoder自定义模型导入·详细操作
  • 模型广场
    • 查看与管理预置模型
    • 预置调用免费模型列表
  • 我的模型
    • 创建我的模型
    • 查看与管理我的模型
  • Prompt 工程
    • 什么 Prompt 工程
    • Prompt 模板
    • Prompt 优化
    • Prompt 工程使用技巧
      • Prompt 的使用技巧
      • 基础的 Basic Prompt Framework
      • 丰富的 CRISPE Prompt Framework
      • 轻量化的 Few-shot Prompt
  • 模型服务
    • 应用接入
    • 在线服务
    • 调用统计
  • 模型调优
    • 模型精调
      • Post-pretrain
        • 什么是 Post-pretrain
        • 创建 Post-pretrain 任务
        • 查看与管理 Post-pretrain
      • SFT
        • 创建 SFT 任务
        • 查看与管理 SFT 运行
      • RLHF
        • 什么是 RLHF 训练
        • 创建奖励模型训练任务
        • 查看与管理奖励模型训练运行
        • 创建强化学习训练任务
        • 查看与管理强化学习训练运行
    • 模型评估
      • 创建模型评估任务
      • 查看与管理模型评估任务
    • 模型压缩
      • 创建模型压缩任务
      • 查看模型压缩任务
  • 数据管理
    • 数据回流
    • 数据集对应关系说明
    • 数据集管理
      • 创建数据集
      • 数据分析
      • 导入文本对话数据
      • 导入泛文本无标注数据
      • 导入 query 问题集数据
      • 导入文生图数据
      • 管理数据集版本
      • 导出数据
      • 数据集的其他操作
    • 数据标注
      • 在线标注
      • 众测标注
    • 数据处理
      • 数据清洗
      • 数据增强
    • 知识库
      • 什么是千帆大模型知识库
      • 知识库管理
      • 命中测试
  • 系统配置
    • 计算资源
    • 计费管理
    • 插件编排
      • 什么是插件应用
      • 插件编排使用说明
      • 应用创建
        • 对话场景类应用
        • 生成场景类应用
      • 插件
        • 插件列表
        • 自定义插件
        • 插件开发者文档
  • API 鉴权及调用
    • API 介绍
    • API 列表
    • API 调用指南
      • API 调用流程
      • 错误码
      • API 在线调试
    • 鉴权认证
      • 鉴权介绍
      • 使用网页调试工具获取 access_token
      • 获取 access_token
    • 对话 Chat
      • Llama-2
        • Llama-2-7b-chat
        • Llama-2-13b-chat
        • Llama-2-70b-chat
      • ERNIE-Bot 4.0
      • ERNIE-Bot
      • ERNIE-Bot-turbo
      • BLOOMZ-7B
      • Qianfan-BLOOMZ-7B-compressed
      • Mistral-7B-Instruct
      • Qianfan-Chinese-Llama-2-7B
      • Qianfan-Chinese-Llama-2-13B
      • Linly-Chinese-LLaMA-2-7B
      • Linly-Chinese-LLaMA-2-13B
      • ChatGLM2-6B
      • ChatGLM2-6B-32K
      • ChatGLM2-6B-INT4
      • Baichuan2-13B-Chat
      • XVERSE-13B-Chat
      • Falcon-7B
      • Falcon-40B-Instruct
      • AquilaChat-7B
      • RWKV-4-World
      • RWKV-4-pile-14B
      • RWKV-Raven-14B
      • OpenLLaMA-7B
      • Dolly-12B
      • MPT-7B-Instruct
      • MPT-30B-instruct
      • OA-Pythia-12B-SFT-4
      • Falcon-180B-Chat
      • RWKV-5-World
      • Flan-UL2
    • 续写 Completions
      • SQLCoder-7B
      • CodeLlama-7b-Instruct
      • AquilaCode-multi
      • Cerebras-GPT-13B
      • Pythia-12B
      • GPT-J-6B
      • GPT-NeoX-20B
      • GPT4All-J
      • StarCoder
      • StableLM-Alpha -7B
      • Pythia-6.9B
      • Cerebras-GPT-6.7B
    • 向量 Embeddings
      • Embedding-V1
      • bge-large-zh
      • bge-large-en
    • 图像 Images
      • Stable-Diffusion-XL
    • 自定义模型调用 API
      • 自定义模型调用 API
      • 续写模式
    • 模型服务
      • 创建服务
      • 查询服务详情
    • 模型管理
      • 获取模型版本详情
      • 获取模型详情
      • 训练任务发布为模型
    • 模型调优
      • 创建训练任务
      • 创建任务运行
      • 获取任务运行详情
      • 停止任务运行
    • 数据管理
      • 创建数据集
      • 发起数据集发布任务
      • 发起数据集导入任务
      • 获取数据集详情
      • 获取数据集状态详情
      • 发起数据集导出任务
      • 删除数据集
      • 获取数据集导出记录
      • 获取数据集导入错误详情
    • Prompt 工程
      • Prompt 模板
    • 插件应用
      • 知识库
      • 智慧图问
      • 天气
  • SDK 参考
    • 千帆 SDK 介绍
    • SDK 安装及使用流程
    • 对话 Chat
    • 续写 Completions
    • 向量 Embeddings
    • 模型服务
      • 创建服务
      • 查询服务详情
    • 模型管理
      • 获取模型详情
      • 获取模型版本详情
      • 训练任务发布为模型
    • 模型调优
      • 创建训练任务
      • 创建任务运行
      • 获取任务运行详情
      • 停止任务运行
    • 数据管理
      • 创建数据集
      • 发起数据集发布任务
      • 发起数据集导入任务
      • 获取数据集详情
      • 获取数据集状态详情
      • 发起数据集导出任务
      • 删除数据集
      • 获取数据集导出记录
      • 获取数据集导入错误详情
    • 插件应用
      • 知识库
      • 智能图问
      • 天气
  • 价格说明
    • 千帆大模型平台价格文档
  1. 数据集管理

导入文本对话数据

导入数据#

创建数据集完成后,在数据集管理页面中,找到该数据集,点击右侧操作列下的“导入”按钮,即可进入导入数据页面。
image.png
您可以使用以下方案上传文本数据:
1.
无标注信息导入:本地导入、BOS导入、分享链接导入、平台已有数据集
2.
有标注信息导入:本地导入、BOS导入、分享链接导入、平台已有数据集

无标注信息#

无标注信息-本地导入#

本地导入支持五种导入格式:JSONL、TXT、CSV、XLSX、ZIP。
非排序样本数据:
导入格式格式要求格式示例
Jsonl1. 文件内单条数据格式要求为[{"prompt" :“prompt内容”}], 详见数据样例。 2. 每一行表示一组数据,每组数据中的prompt和response加起来之和字符数不超过8000Token(包括中英文、数字、符号等),超出部分将被截断。 3.支持文本文件类型为jsonl,编码仅支持UTF-8,单次上传限制100个文本文件,单个文件不超过100M。image.png
TXT1.对话生成的数据序列格式要求为"prompt",详见数据样例。 2. 每一行表示一组数据,每组数据中的prompt和response加起来之和字符数不超过8000Token(包括中英文、数字、符号等),超出部分将被截断。 3. 支持文本文件类型为txt,编码仅支持UTF-8,单次上传限制100个文件,单个文件不超过100M。image.png
CSV1. 文件内单条数据的格式参考示例图,在表格中为一列,由表头定义prompt,详见数据样例。 2. 每一行表示一组数据,每组数据中的prompt和response加起来之和字符数不超过8000Token(包括中英文、数字、符号等),超出部分将被截断。 3. 支持文本文件类型为xlsx,编码仅支持UTF-8,单次上传限制100个文件,单个文件不超过100M。image.png
XLSX1. 文件内单条数据的格式参考示例图,在表格中为一列,由表头定义prompt,详见数据样例。 2. 每一行表示一组数据,每组数据中的prompt和response加起来之和字符数不超过8000Token(包括中英文、数字、符号等),超出部分将被截断。 3. 支持文本文件类型为xlsx,编码仅支持UTF-8,单次上传限制100个文件,单个文件不超过100M。image.png
ZIP1. 上传文件要求为zip/tar.gz格式压缩包,同时压缩前源文件大小在5G以内,文件编码仅支持UTF-8。 2.压缩包内支持多个jsonl文件的上传,jsonl文件中每一行表示一组数据,每组数据中的prompt和response加起来之和字符数不超过8000Token(包括中英文、数字、符号等),超出部分将被截断,详见示例压缩包。image.png
含排序样本数据
含排序文本数据格式要求同非排序文本数据一致。
下载数据样例:JSONL、TXT、CSV 、XLSX、ZIP。

无标注信息-BOS目录导入#

选择BOS文件导入,需要指定到文件;选择BOS目录导入,需要指定到文件的路径。
导入方式格式要求格式示例
Bucket地址·文件导入1. 对于 jsonl 文件:文件内单条数据格式要求为[{"prompt" : “prompt内容”}];对于 txt 文件:对话生成的数据序列格式要求为"prompt";对于 csv、xlsx 文件:在表格中为一列,由表头定义prompt。 2. 每一行表示一组数据,每组数据中的prompt和response加起来之和字符数不超过8000Token(包括中英文、数字、符号等),超出部分将被截断。 3. 支持文本文件类型为txt/csv/jsonl/xlsx,编码仅支持UTF-8,单次上传限制100个文本文件,单个文件不超过100M。-----
Bucket地址·目录导入1. 文件夹内文件类型支持jsonl,文件编码仅支持UTF-8。 2. jsonl文件中每一行表示一组数据,每组数据中的prompt和response加起来之和字符数不超过8000Token(包括中英文、数字、符号等),超出部分将被截断。image.png

无标注信息-分享链接导入#

请确保将全部jsonl文本文件保存至同一压缩包,压缩包仅支持zip/tar.gz格式,压缩前源文件大小限制5G以内
需输入链接地址。分享链接导入的要求如下:
仅支持来自百度BOS、阿里OSS、腾讯COS、华为OBS的共享链接。
导入方式格式要求格式示例
输入链接地址导入1. 链接地址要求为zip/tar.gz格式压缩包,同时压缩前源文件大小在5G以内,文件编码仅支持UTF-8。 2. 压缩包内支持多个jsonl文件,jsonl文件中每一行表示一组数据,每组数据中的prompt和response加起来之和字符数不超过8000Token(包括中英文、数字、符号等),超出部分将被截断。image.png

无标注信息-平台已有数据集#

导入方式格式要求数据集要求
选择数据集仅支持选择未发布的数据集版本支持全部数据的导入,此方式导入的数据不带标注;另外也支持仅导入未标注数据。

有标注信息#

有标注信息-本地导入#

本地导入支持两种导入格式:JSONL和ZIP。
非排序样本数据:
导入格式格式要求格式示例
Jsonl1. 文件内单条数据格式要求为[{"prompt" : "prompt内容","response": [["response内容"]]}], 详见数据样例。 2. 每一行表示一组数据,每组数据中的prompt和response加起来之和字符数不超过8000Token(包括中英文、数字、符号等),超出部分将被截断。 3. 支持文本文件类型为jsonl,编码仅支持UTF-8,单次上传限制100个文本文件,,单个文件不超过100M。image.png
ZIP1. 上传文件要求为zip/tar.gz格式压缩包,同时压缩前源文件大小在5G以内,文件编码仅支持UTF-8。 2.压缩包内支持多个jsonl文件的上传,jsonl文件中每一行表示一组数据,每组数据中的prompt和response加起来之和字符数不超过8000Token(包括中英文、数字、符号等),超出部分将被截断,详见示例压缩包。image.png
含排序样本数据
导入格式格式要求格式示例
Jsonl1. 文件内单条数据格式要求为{"prompt" :“prompt内容”,"response":“response内容”},即每个序列为两句话,由逗号分隔开,详见数据样例。 2. 每一行表示一组数据,每组数据中的prompt和response加起来之和字符数不超过8000Token(包括中英文、数字、符号等),超出部分将被截断。 3. 支持文本文件类型为jsonl,编码仅支持UTF-8,单次上传限制100个文本文件,,单个文件不超过100M。image.png
ZIP1. 上传文件要求为zip/tar.gz格式压缩包,同时压缩前源文件大小在5G以内,文件编码仅支持UTF-8。 2. 压缩包内支持多个jsonl文件的上传,jsonl文件中每一行表示一组数据,每组数据中的prompt和response加起来之和字符数不超过8000Token(包括中英文、数字、符号等),超出部分将被截断,详见示例压缩包。image.png

有标注信息-BOS目录导入#

选择BOS文件导入,需要指定到文件;选择BOS目录导入,需要指定到文件的路径。
导入方式格式要求格式示例
Bucket地址·文件导入1. 对于 jsonl 文件:文件内单条数据格式要求为[{"prompt" : "prompt内容", "response": [["response内容"]]}];对于 txt 文件:对话生成的数据序列格式要求为"prompt";对于 csv、xlsx 文件:在表格中为一列,由表头定义prompt。 2. 每一行表示一组数据,每组数据中的prompt和response加起来之和字符数不超过8000Token(包括中英文、数字、符号等),超出部分将被截断。 3. 支持文本文件类型为txt/csv/jsonl/xlsx,编码仅支持UTF-8,单次上传限制100个文本文件,单个文件不超过100M-----
Bucket地址·目录导入1. 文件夹内文件类型支持jsonl,文件编码仅支持UTF-8。 2. jsonl文件中每一行表示一组数据,每组数据中的prompt和response加起来之和字符数不超过8000Token(包括中英文、数字、符号等),超出部分将被截断。image.png

有标注信息-分享链接导入#

请确保将全部jsonl文本文件保存至同一压缩包,压缩包仅支持zip/tar.gz格式,压缩前源文件大小限制5G以内
需输入链接地址。分享链接导入的要求如下:
仅支持来自百度BOS、阿里OSS、腾讯COS、华为OBS的共享链接。
导入方式格式要求格式示例
输入链接地址导入1. 链接地址要求为zip/tar.gz格式压缩包,同时压缩前源文件大小在5G以内,文件编码仅支持UTF-8。 2.压缩包内支持多个jsonl文件,jsonl文件中每一行表示一组数据,每组数据中的prompt和response加起来之和字符数不超过8000Token(包括中英文、数字、符号等),超出部分将被截断。image.png

有标注信息-平台已有数据集#

导入方式格式要求数据集要求
选择数据集仅支持选择未发布的数据集版本有标注信息的数据集
以上所有步骤完成后,即可导入数据至数据集。
上一页
数据分析
下一页
导入泛文本无标注数据
Built with