文心一言-千帆大模型平台
RLHF
复制页面
文心一言-千帆大模型平台
体验中心
常见问题
大模型技术测试服务协议
账号与权限管理
账号创建与权限分配
通过子账户隔离实现账单隔离
产品简介
什么是百度智能云千帆大模型平台
百度智能云千帆大模型平台产品优势
百度智能云千帆大模型平台常用概念
新手指南
SFT调优快速手册
SFT最佳实践
平台使用快速开始
导入并部署第三方模型
快速导入并部署第三方模型
SQLCoder自定义模型导入·详细操作
模型广场
查看与管理预置模型
预置调用免费模型列表
我的模型
创建我的模型
查看与管理我的模型
Prompt 工程
什么 Prompt 工程
Prompt 模板
Prompt 优化
Prompt 工程使用技巧
Prompt 的使用技巧
基础的 Basic Prompt Framework
丰富的 CRISPE Prompt Framework
轻量化的 Few-shot Prompt
模型服务
应用接入
在线服务
调用统计
模型调优
模型精调
Post-pretrain
什么是 Post-pretrain
创建 Post-pretrain 任务
查看与管理 Post-pretrain
SFT
创建 SFT 任务
查看与管理 SFT 运行
RLHF
什么是 RLHF 训练
创建奖励模型训练任务
查看与管理奖励模型训练运行
创建强化学习训练任务
查看与管理强化学习训练运行
模型评 估
创建模型评估任务
查看与管理模型评估任务
模型压缩
创建模型压缩任务
查看模型压缩任务
数据管理
数据回流
数据集对应关系说明
数据集管理
创建数据集
数据分析
导入文本对话数据
导入泛文本无标注数据
导入 query 问题集数据
导入文生图数据
管理数据集版本
导出数据
数据集的其他操作
数据标注
在线标注
众测标注
数据处理
数据清洗
数据增强
知识库
什么是千帆大模型知识库
知识库管理
命中测试
系统配置
计算资源
计费管理
插件编排
什么是插件应用
插件编排使用说明
应用创建
对话场景类应用
生成场景类应用
插件
插件列表
自定义插件
插件开发者文档
API 鉴权及调用
API 介绍
API 列表
API 调用指南
API 调用流程
错误码
API 在线调试
鉴权认证
鉴权介绍
使用网页调试工具获取 access_token
获取 access_token
对话 Chat
Llama-2
Llama-2-7b-chat
Llama-2-13b-chat
Llama-2-70b-chat
ERNIE-Bot 4.0
ERNIE-Bot
ERNIE-Bot-turbo
BLOOMZ-7B
Qianfan-BLOOMZ-7B-compressed
Mistral-7B-Instruct
Qianfan-Chinese-Llama-2-7B
Qianfan-Chinese-Llama-2-13B
Linly-Chinese-LLaMA-2-7B
Linly-Chinese-LLaMA-2-13B
ChatGLM2-6B
ChatGLM2-6B-32K
ChatGLM2-6B-INT4
Baichuan2-13B-Chat
XVERSE-13B-Chat
Falcon-7B
Falcon-40B-Instruct
AquilaChat-7B
RWKV-4-World
RWKV-4-pile-14B
RWKV-Raven-14B
OpenLLaMA-7B
Dolly-12B
MPT-7B-Instruct
MPT-30B-instruct
OA-Pythia-12B-SFT-4
Falcon-180B-Chat
RWKV-5-World
Flan-UL2
续写 Completions
SQLCoder-7B
CodeLlama-7b-Instruct
AquilaCode-multi
Cerebras-GPT-13B
Pythia-12B
GPT-J-6B
GPT-NeoX-20B
GPT4All-J
StarCoder
StableLM-Alpha -7B
Pythia-6.9B
Cerebras-GPT-6.7B
向量 Embeddings
Embedding-V1
bge-large-zh
bge-large-en
图像 Images
Stable-Diffusion-XL
自定义模型调用 API
自定义模型调用 API
续写模式
模型服务
创建服务
查询服务详情
模型管理
获取模型版本详情
获取模型详情
训练任务发布为模型
模型调优
创建训练任务
创建任务运行
获取任务运行详情
停止任务运行
数据管理
创建数据集
发起数据集发布任务
发起数据集导入任务
获取数据集详情
获取数据集状态详情
发起数据集导出任务
删除数据集
获取数据集导出记录
获取数据集导入错误详情
Prompt 工程
Prompt 模板
插件应用
知识库
智慧图问
天气
SDK 参考
千帆 SDK 介绍
SDK 安装及使用流程
对话 Chat
续写 Completions
向量 Embeddings
模型服务
创建服务
查询服务详情
模型管理
获取模型详情
获取模型版本详情
训练任务发布为模型
模型调优
创建训练任务
创建任务运行
获取任务运行详情
停止任务运行
数据管理
创建数据集
发起数据集发布任务
发起数据集导入任务
获取数据集详情
获取数据集状态详情
发起数据集导出任务
删除数据集
获取数据集导出记录
获取数据集导入错误详情
插件应用
知识库
智能图问
天气
价格说明
千帆大模型平台价格文档
RLHF
复制页面
创建强化学习训练任务
强化学习(Reinforcement Learning, RL),又称再励学习、评价学习或增强学习,是机器学习的范式和方法论之一,用于描述和解决智能代理(agent)在与环境的交互过程中通过学习策略以达成回报最大化或实现特定目标的问题。
强化学习主要是训练对象每一步如何进行决策,采用什么样的行动可以完成特定的目的或者使收益最大化。
登录到
千帆大模型操作台
,在左侧功能列RLHF训练中选择
强化学习训练
,进入强化学习训练主任务界面。
创建任务
#
您需要在强化学习训练任务界面,选择“创建训练任务”按钮。
填写好任务名称后,在范围内选择所属行业和应用场景,再进行500字内的业务描述即可。
创建并训练
创建并训练
直接开启训练模型的运行配置界面;“完成创建”仅创建任务不创建训练模型的运行。
新建运行
#
您可以在创建任务时选择“创建并训练”,或者在强化学习训练任务列表中,选择指定任务的“新建运行”按钮。
进入强化学习的任务运行配置页,填写基本信息。
数据配置
#
选择训练任务的数据及相关配置,强化学习训练任务匹配
query问题集
。
建议数据集总条数在1000条以上,训练模型更加精准。
数据集来源可以为千帆平台已发布的数据集版本,也可以为已有数据集的BOS地址,详细内容可查看
数据集
部分内容。
若数据集保存在BOS中,请勿在提交任务后修改BOS数据。修改后可能会导致任务失败!
需注意:当选择BOS目录导入数据集时,数据放在jsonl文件夹下。您需要选择jsonl的父目录
:
奖励模型支持单轮对话、多轮对话有排序数据。
RLHF训练支持仅prompt数据。
SFT支持单轮对话,多轮对话需要有标注数据。
BOS目录导入数据要严格遵守其格式要求,如不符合此格式要求,训练作业
无法成功开启
。详情参考BOS导入
数据信息格式
。
百度BOS服务开通
申请
。
训练配置
#
选择大模型
预置大模型:
BLOOMZ-7B
知名的大语言模型,由BigScience研发并开源,能够以46种语言和13种编程语言输出文本。
用户大模型:
用户自建基于BLOOMZ-7B训练的调优大模型
由SFT所建,强化学习更匹配私有业务场景。
选择奖励模型:
平台运行成功的奖励模型版本
在平台奖励模型的基础上,继续完成强化训练,训练出最大化靠近人类反馈的模型。
参数配置
超参数
简单描述
迭代轮次
迭代轮次(epoch),控制训练过程中的迭代轮数。
批处理大小
批处理大小(Batchsize)表示在每次训练迭代中使用的样本数。较大的批处理大小可以加速训练,但可能会导致内存问题。
学习率
学习率(learning_rate)是在梯度下降的过程中更新权重时的超参数,过高会导致模型难以收敛,过低则会导致模型收敛速度过慢,平台已给出默认推荐值,可根据经验调整。
以上所有操作完成后,点击“确定”,则发起模型训练的任务
。
修改于
2023-11-15 02:44:06
上一页
查看与管理奖励模型训练运行
下一页
查看与管理强化学习训练运行