文心一言-千帆大模型平台
模型评估
复制页面
文心一言-千帆大模型平台
体验中心
常见问题
大模型技术测试服务协议
账号与权限管理
账号创建与权限分配
通过子账户隔离实现账单隔离
产品简介
什么是百度智能云千帆大模型平台
百度智能云千帆大模型平台产品优势
百度智能云千帆大模型平台常用概念
新手指南
SFT调优快速手册
SFT最佳实践
平台使用快速开始
导入并部署第三方模型
快速导入并部署第三方模型
SQLCoder自定义模型导入·详细操作
模型广场
查看与管理预置模型
预置调用免费模型列表
我的模型
创建我的模型
查看与管理我的模型
Prompt 工程
什么 Prompt 工程
Prompt 模板
Prompt 优化
Prompt 工程使用技巧
Prompt 的使用技巧
基础的 Basic Prompt Framework
丰富的 CRISPE Prompt Framework
轻量化的 Few-shot Prompt
模型服务
应用接入
在线服务
调用统计
模型调优
模型精调
Post-pretrain
什么是 Post-pretrain
创建 Post-pretrain 任务
查看与管理 Post-pretrain
SFT
创建 SFT 任务
查看与管理 SFT 运行
RLHF
什么是 RLHF 训练
创建奖励模型训练任务
查看与管理奖励模型训练运行
创建强化学习训练任务
查看与管理强化学习训练运行
模型评估
创建模型评估任务
查看与管理模型评估任务
模型压缩
创建模型压缩任务
查看模型压缩任务
数据管理
数据回流
数据集对应关系说明
数据集管理
创建数据集
数据分析
导入文本对话数据
导入泛文本无标注数据
导入 query 问题集数据
导入文生图数据
管理数据集版本
导出数据
数据集的其他操作
数据标注
在线标注
众测标注
数据处理
数据清洗
数据增强
知识库
什么是千帆大模型知识库
知识库管理
命中测试
系统配置
计算资源
计费管理
插件编排
什么是插件应用
插件编排使用说明
应用创建
对话场景类应用
生成场景类应用
插件
插件列表
自定义插件
插件开发者文档
API 鉴权及调用
API 介绍
API 列表
API 调用指南
API 调用流程
错误码
API 在线调试
鉴权认证
鉴权介绍
使用网页调试工具获取 access_token
获取 access_token
对话 Chat
Llama-2
Llama-2-7b-chat
Llama-2-13b-chat
Llama-2-70b-chat
ERNIE-Bot 4.0
ERNIE-Bot
ERNIE-Bot-turbo
BLOOMZ-7B
Qianfan-BLOOMZ-7B-compressed
Mistral-7B-Instruct
Qianfan-Chinese-Llama-2-7B
Qianfan-Chinese-Llama-2-13B
Linly-Chinese-LLaMA-2-7B
Linly-Chinese-LLaMA-2-13B
ChatGLM2-6B
ChatGLM2-6B-32K
ChatGLM2-6B-INT4
Baichuan2-13B-Chat
XVERSE-13B-Chat
Falcon-7B
Falcon-40B-Instruct
AquilaChat-7B
RWKV-4-World
RWKV-4-pile-14B
RWKV-Raven-14B
OpenLLaMA-7B
Dolly-12B
MPT-7B-Instruct
MPT-30B-instruct
OA-Pythia-12B-SFT-4
Falcon-180B-Chat
RWKV-5-World
Flan-UL2
续写 Completions
SQLCoder-7B
CodeLlama-7b-Instruct
AquilaCode-multi
Cerebras-GPT-13B
Pythia-12B
GPT-J-6B
GPT-NeoX-20B
GPT4All-J
StarCoder
StableLM-Alpha -7B
Pythia-6.9B
Cerebras-GPT-6.7B
向量 Embeddings
Embedding-V1
bge-large-zh
bge-large-en
图像 Images
Stable-Diffusion-XL
自定义模型调用 API
自定义模型调用 API
续写模式
模型服务
创建服务
查询服务详情
模型管理
获取模型版本详情
获取模型详情
训练任务发布为模型
模型调优
创建训练任务
创建任务运行
获取任务运行详情
停止任务运行
数据管理
创建数据集
发起数据集发布任务
发起数据集导入任务
获取数据集详情
获取数据集状态详情
发起数据集导出任务
删除数据集
获取数据集导出记录
获取数据集导入错误详情
Prompt 工程
Prompt 模板
插件应用
知识库
智慧图问
天气
SDK 参考
千帆 SDK 介绍
SDK 安装及使用流程
对话 Chat
续写 Completions
向量 Embeddings
模型服务
创建服务
查询服务详情
模型管理
获取模型详情
获取模型版本详情
训练任务发布为模型
模型调优
创建训练任务
创建任务运行
获取任务运行详情
停止任务运行
数据管理
创建数据集
发起数据集发布任务
发起数据集导入任务
获取数据集详情
获取数据集状态详情
发起数据集导出任务
删除数据集
获取数据集导出记录
获取数据集导入错误详情
插件应用
知识库
智能图问
天气
价格说明
千帆大模型平台价格文档
模型评估
复制页面
创建模型评估任务
什么是评估数据集
#
在人工智能模型开发过程中,通常是将数据集划分为训练集、验证集和测试集三个部分。其中,训练集用来训练模型,验证集则用于调整模型的超参数和选择合适的模型,而测试集则是在模型训练完成后,用于最终评估模型的性能,这就是评估数据集(即测试集)。
评估数据集通常是在与训练数据集相似的情况下收集的,因此可以用来代表真实世界的样本数据。通过对评估数据集的评估,可以了解模型在不同场景下的表现,从而更好地优化模型。同时,评估数据集还可以用来验证模型的泛化能力,即模型在未见过的数据上的表现如何。
创建模型评估任务
#
登录到
千帆大模型操作台
,在左侧功能列选择
模型评估
,进入模型评估主任务界面。
点击“创建评估任务”按钮,进入新建评估任务页面。(若没有该按钮,请查看
任务计费说明
)
由用户填写评估任务所需的基本信息、评估配置、资源配置。
基本信息
#
填写评估任务名称、评估任务描述.
评估配置
#
待评估模型: 支持选择多个模型版本同时评估,最多选择5个。支持同时选择预置模型和用户训练模型,具体支持范围详见
模型评估支持范围
。
评估数据集
: 支持选择平台数据集或
预置数据集
作为评估数据集,支持选择文本对话(有排序、非排序)类型的数据。数据集中的标注样本数量需大于3,否则将无法发起评估任务,如您选择
裁判员模型打分
,则需要您上传的样本
全部完成标注
。
每次评估数据集标注样本数不可超过
10000
条。
若数据集保存在BOS中,请勿在提交任务后修改BOS数据。修改后可能会导致任务失败!
打分模式:支持选择
基于规则
和
基于裁判员模型
多种打分模式。
基于规则
#
使用预置的相似度或准确率打分规则对比模型生成结果与真实标注的差异,从而计算模型指标。
为避免特殊字符及单词对模型效果评估的影响,可设置停用词表,评估时将自动过滤。
下载停用词表示例
(以空格或回车分隔不同停用词)。
基于裁判员模型
#
使用能力更强的大模型作为裁判员,对被评估模型的生成结果进行自动化打分,适用于开放性或复杂问答场景。
裁判员模型:默认裁判员为ERNIE-Bot,百度⾃⾏研发的旗舰级⼤语⾔模型,覆盖海量中⽂数据,具有更强的对话问答、内容创作⽣成等能⼒;⽀持作为裁判员⼤模型打分。
选择打分应用:选择您创建的
大模型服务应用
,可参考
应用接入使用说明
,进行应用创建。裁判员模型调用计费将统计至所选应用。
打分Prompt:当前支持**裁判员模型打分模板(含参考答案)**的Prompt,在评分环节输入至裁判员模型,您可对评分指标和评分步骤具体内容进行修改,也可前往
在线测试
对打分Prompt进行验证。
其中,打分prompt可以自定义设置三个变量:根据答案的综合水平给出**最大打分值(max_score)**及以下的评分、
评分指标(metric)
和
评分步骤(steps)
。
资源配置
#
配置模型评估的资源环境和计算节点数后,点击“确认”按钮开始进行模型评估任务。(详细计费规则请见
任务计费说明
)
任务计费说明
#
当您仅选择
基于规则
的打分模式时,评估任务
限时免费
。
当您选择含
基于裁判员模型
的打分模式时,ERNIE-Bot 裁判员模型调用单独计入至大模型推理计费项:
预估费用计算公式:
裁判员大模型_token单价 x 待评估模型数 x (打分Prompt模板与回答预估Token总数 x 评估数据集样本总数 + 评估数据集Token总数 x 预估系数(1.5~3))
。
打分Prompt模板与回答预估Token总数 预估设定为 400tokens
预估系数为 1.5~3
详细价格示例请参考
价格文档
。
模型评估支持范围
#
模型家族
模型评估支持
ERNIE-Bot
x
ERNIE-Bot-turbo-0725
✓
ERNIE-Bot-turbo-0704
✓
ERNIE-Bot-turbo-0516
x
BLOOMZ-7B
✓
Llama-2-7b-chat
✓
Llama-2-13b-chat
✓
Tips:BLOOMZ&Llama-2-7b-chat家族模型,支持压缩后进行评估。
修改于
2023-11-15 03:01:32
上一页
查看与管理强化学习训练运行
下一页
查看与管理模型评估任务