文心一言-千帆大模型平台
  1. 数据管理
文心一言-千帆大模型平台
  • 体验中心
  • 常见问题
  • 大模型技术测试服务协议
  • 账号与权限管理
    • 账号创建与权限分配
    • 通过子账户隔离实现账单隔离
  • 产品简介
    • 什么是百度智能云千帆大模型平台
    • 百度智能云千帆大模型平台产品优势
    • 百度智能云千帆大模型平台常用概念
  • 新手指南
    • SFT调优快速手册
    • SFT最佳实践
    • 平台使用快速开始
    • 导入并部署第三方模型
      • 快速导入并部署第三方模型
      • SQLCoder自定义模型导入·详细操作
  • 模型广场
    • 查看与管理预置模型
    • 预置调用免费模型列表
  • 我的模型
    • 创建我的模型
    • 查看与管理我的模型
  • Prompt 工程
    • 什么 Prompt 工程
    • Prompt 模板
    • Prompt 优化
    • Prompt 工程使用技巧
      • Prompt 的使用技巧
      • 基础的 Basic Prompt Framework
      • 丰富的 CRISPE Prompt Framework
      • 轻量化的 Few-shot Prompt
  • 模型服务
    • 应用接入
    • 在线服务
    • 调用统计
  • 模型调优
    • 模型精调
      • Post-pretrain
        • 什么是 Post-pretrain
        • 创建 Post-pretrain 任务
        • 查看与管理 Post-pretrain
      • SFT
        • 创建 SFT 任务
        • 查看与管理 SFT 运行
      • RLHF
        • 什么是 RLHF 训练
        • 创建奖励模型训练任务
        • 查看与管理奖励模型训练运行
        • 创建强化学习训练任务
        • 查看与管理强化学习训练运行
    • 模型评估
      • 创建模型评估任务
      • 查看与管理模型评估任务
    • 模型压缩
      • 创建模型压缩任务
      • 查看模型压缩任务
  • 数据管理
    • 数据回流
    • 数据集对应关系说明
    • 数据集管理
      • 创建数据集
      • 数据分析
      • 导入文本对话数据
      • 导入泛文本无标注数据
      • 导入 query 问题集数据
      • 导入文生图数据
      • 管理数据集版本
      • 导出数据
      • 数据集的其他操作
    • 数据标注
      • 在线标注
      • 众测标注
    • 数据处理
      • 数据清洗
      • 数据增强
    • 知识库
      • 什么是千帆大模型知识库
      • 知识库管理
      • 命中测试
  • 系统配置
    • 计算资源
    • 计费管理
    • 插件编排
      • 什么是插件应用
      • 插件编排使用说明
      • 应用创建
        • 对话场景类应用
        • 生成场景类应用
      • 插件
        • 插件列表
        • 自定义插件
        • 插件开发者文档
  • API 鉴权及调用
    • API 介绍
    • API 列表
    • API 调用指南
      • API 调用流程
      • 错误码
      • API 在线调试
    • 鉴权认证
      • 鉴权介绍
      • 使用网页调试工具获取 access_token
      • 获取 access_token
    • 对话 Chat
      • Llama-2
        • Llama-2-7b-chat
        • Llama-2-13b-chat
        • Llama-2-70b-chat
      • ERNIE-Bot 4.0
      • ERNIE-Bot
      • ERNIE-Bot-turbo
      • BLOOMZ-7B
      • Qianfan-BLOOMZ-7B-compressed
      • Mistral-7B-Instruct
      • Qianfan-Chinese-Llama-2-7B
      • Qianfan-Chinese-Llama-2-13B
      • Linly-Chinese-LLaMA-2-7B
      • Linly-Chinese-LLaMA-2-13B
      • ChatGLM2-6B
      • ChatGLM2-6B-32K
      • ChatGLM2-6B-INT4
      • Baichuan2-13B-Chat
      • XVERSE-13B-Chat
      • Falcon-7B
      • Falcon-40B-Instruct
      • AquilaChat-7B
      • RWKV-4-World
      • RWKV-4-pile-14B
      • RWKV-Raven-14B
      • OpenLLaMA-7B
      • Dolly-12B
      • MPT-7B-Instruct
      • MPT-30B-instruct
      • OA-Pythia-12B-SFT-4
      • Falcon-180B-Chat
      • RWKV-5-World
      • Flan-UL2
    • 续写 Completions
      • SQLCoder-7B
      • CodeLlama-7b-Instruct
      • AquilaCode-multi
      • Cerebras-GPT-13B
      • Pythia-12B
      • GPT-J-6B
      • GPT-NeoX-20B
      • GPT4All-J
      • StarCoder
      • StableLM-Alpha -7B
      • Pythia-6.9B
      • Cerebras-GPT-6.7B
    • 向量 Embeddings
      • Embedding-V1
      • bge-large-zh
      • bge-large-en
    • 图像 Images
      • Stable-Diffusion-XL
    • 自定义模型调用 API
      • 自定义模型调用 API
      • 续写模式
    • 模型服务
      • 创建服务
      • 查询服务详情
    • 模型管理
      • 获取模型版本详情
      • 获取模型详情
      • 训练任务发布为模型
    • 模型调优
      • 创建训练任务
      • 创建任务运行
      • 获取任务运行详情
      • 停止任务运行
    • 数据管理
      • 创建数据集
      • 发起数据集发布任务
      • 发起数据集导入任务
      • 获取数据集详情
      • 获取数据集状态详情
      • 发起数据集导出任务
      • 删除数据集
      • 获取数据集导出记录
      • 获取数据集导入错误详情
    • Prompt 工程
      • Prompt 模板
    • 插件应用
      • 知识库
      • 智慧图问
      • 天气
  • SDK 参考
    • 千帆 SDK 介绍
    • SDK 安装及使用流程
    • 对话 Chat
    • 续写 Completions
    • 向量 Embeddings
    • 模型服务
      • 创建服务
      • 查询服务详情
    • 模型管理
      • 获取模型详情
      • 获取模型版本详情
      • 训练任务发布为模型
    • 模型调优
      • 创建训练任务
      • 创建任务运行
      • 获取任务运行详情
      • 停止任务运行
    • 数据管理
      • 创建数据集
      • 发起数据集发布任务
      • 发起数据集导入任务
      • 获取数据集详情
      • 获取数据集状态详情
      • 发起数据集导出任务
      • 删除数据集
      • 获取数据集导出记录
      • 获取数据集导入错误详情
    • 插件应用
      • 知识库
      • 智能图问
      • 天气
  • 价格说明
    • 千帆大模型平台价格文档
  1. 数据管理

数据集对应关系说明

数据集类型与模型训练的对应关系#

百度智能云千帆大模型平台支持在创建数据集时,导入不同标注类型的数据。
image.png
1.
文本对话
非排序模版:单轮或多轮的文本对话数据,单个提问和回答一一对应,作为后续SFT、 prompt tuning以及delta tuning的训练输入。
含排序模版:单轮或多轮的文本对话数据,单个提问对应多个回答, 需要对多个回答进行排序,作为后续奖励模型的训练输入。
2.
泛文本无标注数据:特定行业方向/场景下的大规模无标注数据语料,作为后续post-pretrain的训练输入。
3.
query问题集:单轮或多轮的提问语料数据,作为后续RLHF的训练输入。
4.
文生图类型数据:特定行业需求下的输入相关propmpt,大模型自动返回图片格式数据。
具体对应关系可参考:
SFT匹配多轮对话-非排序类的数据集,操作内容可参考SFT的数据配置内容。
奖励模型训练匹配多轮对话-排序类的数据集,操作内容可参考奖励模型训练的数据配置内容。
强化学习训练匹配query问题集,操作内容可参考强化学习训练的数据配置内容。
文生图大模型训练匹配文生图类的数据集,操作内容可参考模型训练的数据配置内容。

示例样本中的单/多轮对话#

平台支持下载示例样本完成后续模型训练,不同的样本示例可在文本数据和query问题集手册文档中进行下载。

什么是单轮对话#

单轮对话和多轮对话是两种不同的对话形式,它们分别指的是在一次对话中只涉及一个问题和对应的回答,以及在一次对话中涉及多个问题和对应的回答。
在单轮对话中,通常只涉及一个核心问题,对话的双方只需要针对这个问题进行回答和交流,不需要对之前的回答进行进一步的追问或解释。这种对话形式通常适用于一些简单的交流场景,如咨询信息、请求服务等。
场景示例:简单问题咨询
image.png
提问:千帆大模型平台是哪个公司的开发的大模型平台?
回答:千帆大模型平台,是百度开发的企业级大模型生产平台。

什么是多轮对话#

在多轮对话中,对话的双方需要在一系列问题中进行多次交流和回答,每次回答都可能引出下一个问题。这种对话形式通常适用于一些复杂的交流场景,如咨询专家意见、解决问题等。
场景示例:关联性问题咨询
image.png
提问:北京西站到丰台科技园(地铁站)该怎么走?
回答:推荐您搭乘北京地铁9号线(郭公庄方向),7站地后丰台科技园站下车即可。您也可以使用其他交通工具,如出租车、网约车等,根据交通状况和舒适度选择适合自己的方式。
提问:这是最省钱的路线吗?
回答:您可以选择骑乘共享单车,绿色出行。路途较远,请您注意骑乘安全。
提问:今天天气适合骑车过去吗?
回答:为您查询到今日北京市丰台区未来8小时内气温均值26摄氏度,降水概率百分之3%,体感温度良好,适合骑乘出行。

单轮对话示例#

平台已接入不同类型的数据样本示例。
我们以有标注的非排序文本数据示例为例,向您展示单轮对话。
image.png
示例文件上传平台后的部分显示如下:
image.png
其中抽取部分示例内容:
prompt: 请根据下面的新闻生成摘要, 内容如下:新华社受权于18日全文播发修改后的《中华人民共和国立法法》,修改后的立法法分为“总则”“法律”“行政法规”“地方性法规、自治条例和单行条例、规章”“适用与备案审查”“附则”等6章,共计105条。
response: 修改后的立法法全文公布
prompt: 请根据下面的新闻生成摘要, 内容如下:一辆小轿车,一名女司机,竟造成9死24伤。日前,深圳市交警局对事故进行通报:从目前证据看,事故系司机超速行驶且操作不当导致。目前24名伤员已有6名治愈出院,其余正接受治疗,预计事故赔偿费或超一千万元。
response: 深圳机场9死24伤续:司机全责赔偿或超千万
以上两个对话均为一一对应的单轮对话内容,针对核心问题生成应答,不需要进行上下文进行追问和反馈,数据单轮对话样本。注意:单轮对话支持排序文本数据,详细导入操作可查看创建数据集相关内容。

多轮对话示例#

我们以有标注的排序文本数据样例为例,向您展示多轮对话。
image.png
示例文件上传平台后的部分显示如下:
image.png
其中抽取部分示例内容:
prompt:生成一个关于人工智能的标题吧。
response1:好的,给您生成一些标题:1) 人工智能的未来与挑战; 2) 机器学习在现代生活中的应用; 3) 从AI发展历程看未来发展趋势。
response2:人工智能革命:如何加速AI发展并实现企业数字化转型
prompt:可以再给我一些具体的例子吗?
response1:当然可以,以下是几个例子:1) 人工智能如何助力人类健康; 2) 语音识别技术大盘点; 3) 深度学习在图像处理中的应用; 4) 基于人工智能的自动程序设计; 5) 人工智能时代的工作未来。
response2:当然可以,例如自然语言处理技术的应用、医疗领域的智能诊断、智能家居的智能化控制等等。这些都是人工智能在现实中的具体应用。
以上两个对话为联系上下文的多轮对话内容,如第二个“prompt”是基于第一个“prompt”衍生的迭代问题,应答(标注)则基于上文内容,给出关联性输出回应。注意:response1和2是基于本次排序类文本数据生成的排序应答,上传排序类数据集,每个问答对的response不得少于2个。
本章节使用案例为有标注信息样本内容,如您导入未标注信息数据,response即为您个人标注,您可至在线标注完成相关操作。操作步骤参考在线标注使用说明。
修改于 2023-11-15 03:30:09
上一页
数据回流
下一页
创建数据集
Built with