文心一言-千帆大模型平台
  1. 知识库
文心一言-千帆大模型平台
  • 体验中心
  • 常见问题
  • 大模型技术测试服务协议
  • 账号与权限管理
    • 账号创建与权限分配
    • 通过子账户隔离实现账单隔离
  • 产品简介
    • 什么是百度智能云千帆大模型平台
    • 百度智能云千帆大模型平台产品优势
    • 百度智能云千帆大模型平台常用概念
  • 新手指南
    • SFT调优快速手册
    • SFT最佳实践
    • 平台使用快速开始
    • 导入并部署第三方模型
      • 快速导入并部署第三方模型
      • SQLCoder自定义模型导入·详细操作
  • 模型广场
    • 查看与管理预置模型
    • 预置调用免费模型列表
  • 我的模型
    • 创建我的模型
    • 查看与管理我的模型
  • Prompt 工程
    • 什么 Prompt 工程
    • Prompt 模板
    • Prompt 优化
    • Prompt 工程使用技巧
      • Prompt 的使用技巧
      • 基础的 Basic Prompt Framework
      • 丰富的 CRISPE Prompt Framework
      • 轻量化的 Few-shot Prompt
  • 模型服务
    • 应用接入
    • 在线服务
    • 调用统计
  • 模型调优
    • 模型精调
      • Post-pretrain
        • 什么是 Post-pretrain
        • 创建 Post-pretrain 任务
        • 查看与管理 Post-pretrain
      • SFT
        • 创建 SFT 任务
        • 查看与管理 SFT 运行
      • RLHF
        • 什么是 RLHF 训练
        • 创建奖励模型训练任务
        • 查看与管理奖励模型训练运行
        • 创建强化学习训练任务
        • 查看与管理强化学习训练运行
    • 模型评估
      • 创建模型评估任务
      • 查看与管理模型评估任务
    • 模型压缩
      • 创建模型压缩任务
      • 查看模型压缩任务
  • 数据管理
    • 数据回流
    • 数据集对应关系说明
    • 数据集管理
      • 创建数据集
      • 数据分析
      • 导入文本对话数据
      • 导入泛文本无标注数据
      • 导入 query 问题集数据
      • 导入文生图数据
      • 管理数据集版本
      • 导出数据
      • 数据集的其他操作
    • 数据标注
      • 在线标注
      • 众测标注
    • 数据处理
      • 数据清洗
      • 数据增强
    • 知识库
      • 什么是千帆大模型知识库
      • 知识库管理
      • 命中测试
  • 系统配置
    • 计算资源
    • 计费管理
    • 插件编排
      • 什么是插件应用
      • 插件编排使用说明
      • 应用创建
        • 对话场景类应用
        • 生成场景类应用
      • 插件
        • 插件列表
        • 自定义插件
        • 插件开发者文档
  • API 鉴权及调用
    • API 介绍
    • API 列表
    • API 调用指南
      • API 调用流程
      • 错误码
      • API 在线调试
    • 鉴权认证
      • 鉴权介绍
      • 使用网页调试工具获取 access_token
      • 获取 access_token
    • 对话 Chat
      • Llama-2
        • Llama-2-7b-chat
        • Llama-2-13b-chat
        • Llama-2-70b-chat
      • ERNIE-Bot 4.0
      • ERNIE-Bot
      • ERNIE-Bot-turbo
      • BLOOMZ-7B
      • Qianfan-BLOOMZ-7B-compressed
      • Mistral-7B-Instruct
      • Qianfan-Chinese-Llama-2-7B
      • Qianfan-Chinese-Llama-2-13B
      • Linly-Chinese-LLaMA-2-7B
      • Linly-Chinese-LLaMA-2-13B
      • ChatGLM2-6B
      • ChatGLM2-6B-32K
      • ChatGLM2-6B-INT4
      • Baichuan2-13B-Chat
      • XVERSE-13B-Chat
      • Falcon-7B
      • Falcon-40B-Instruct
      • AquilaChat-7B
      • RWKV-4-World
      • RWKV-4-pile-14B
      • RWKV-Raven-14B
      • OpenLLaMA-7B
      • Dolly-12B
      • MPT-7B-Instruct
      • MPT-30B-instruct
      • OA-Pythia-12B-SFT-4
      • Falcon-180B-Chat
      • RWKV-5-World
      • Flan-UL2
    • 续写 Completions
      • SQLCoder-7B
      • CodeLlama-7b-Instruct
      • AquilaCode-multi
      • Cerebras-GPT-13B
      • Pythia-12B
      • GPT-J-6B
      • GPT-NeoX-20B
      • GPT4All-J
      • StarCoder
      • StableLM-Alpha -7B
      • Pythia-6.9B
      • Cerebras-GPT-6.7B
    • 向量 Embeddings
      • Embedding-V1
      • bge-large-zh
      • bge-large-en
    • 图像 Images
      • Stable-Diffusion-XL
    • 自定义模型调用 API
      • 自定义模型调用 API
      • 续写模式
    • 模型服务
      • 创建服务
      • 查询服务详情
    • 模型管理
      • 获取模型版本详情
      • 获取模型详情
      • 训练任务发布为模型
    • 模型调优
      • 创建训练任务
      • 创建任务运行
      • 获取任务运行详情
      • 停止任务运行
    • 数据管理
      • 创建数据集
      • 发起数据集发布任务
      • 发起数据集导入任务
      • 获取数据集详情
      • 获取数据集状态详情
      • 发起数据集导出任务
      • 删除数据集
      • 获取数据集导出记录
      • 获取数据集导入错误详情
    • Prompt 工程
      • Prompt 模板
    • 插件应用
      • 知识库
      • 智慧图问
      • 天气
  • SDK 参考
    • 千帆 SDK 介绍
    • SDK 安装及使用流程
    • 对话 Chat
    • 续写 Completions
    • 向量 Embeddings
    • 模型服务
      • 创建服务
      • 查询服务详情
    • 模型管理
      • 获取模型详情
      • 获取模型版本详情
      • 训练任务发布为模型
    • 模型调优
      • 创建训练任务
      • 创建任务运行
      • 获取任务运行详情
      • 停止任务运行
    • 数据管理
      • 创建数据集
      • 发起数据集发布任务
      • 发起数据集导入任务
      • 获取数据集详情
      • 获取数据集状态详情
      • 发起数据集导出任务
      • 删除数据集
      • 获取数据集导出记录
      • 获取数据集导入错误详情
    • 插件应用
      • 知识库
      • 智能图问
      • 天气
  • 价格说明
    • 千帆大模型平台价格文档
  1. 知识库

知识库管理

本平台知识库是面向客户构建私域文档或知识管理的能力,实现本地或BOS等多种数据源文档的上传、分段和清洗并储存至向量数据库中。
登录到文心千帆大模型操作台,在左侧功能列选择知识库,进入知识库主任务界面。

创建知识库#

您需要在知识库界面,选择“创建知识库”按钮。按照以下步骤逐项操作,即可完成知识库的创建。
文本文档格式:需要平台分段的知识,主要包含文本内容,可以包括文章、报告、书籍等,通常以纯文本或带有格式的文本形式呈现:
1、基本信息-->2.导入配置-->3.分段清洗配置-->4.索引配置
结构化格式:无需平台分段的知识,以表格、键值对或类似结构的形式存储,数据字段和结构相对清晰和规范化:
2、基本信息-->2.导入配置-->3.分段清洗配置-->4.索引配置

基本信息#

按照下图内容填写知识库名称、描述、选定应用、索引模式和知识格式:
image.png
其中,索引模式分为以下两种:
Embedding API:调用平台的嵌入接口进行处理,以在用户查询时提供更高的准确度。
此服务会调用预置服务中:Embedding-V1公有云在线调用服务,需要您提前开通付费,如您在计费管理中,已开通此服务,请忽略此操作。
服务调用价格请参考价格文档或计费管理中关于Embedding-V1公有云在线调用服务的价格(0.002元/千tokens)描述。
bge API:bge-large-zh是由智源研究院研发的中文版文本表示模型,可将任意文本映射为低维稠密向量,以用于检索、分类、聚类或语义匹配等任务,并可支持为大模型调用外部知识。
此服务会调用预置服务中:bge-large-zh公有云在线调用体验服务,需要您提前开通付费,如您在计费管理中,已开通此服务,请忽略此操作。
服务调用价格请参考价格文档或计费管理中关于bge-large-zh公有云在线调用体验服务的价格(0.002元/千tokens)描述。
您选择索引模式的前提需要您在应用接入中选择/创建可用的应用,操作步骤可参考应用接入使用说明。

文本文档格式#

知识格式选择文本文档格式:需要平台分段的知识,主要包含文本内容,可以包括文章、报告、书籍等,通常以纯文本或带有格式的文本形式呈现。选择进入“下一步”。
1.导入配置
支持导入方式及格式分为以下类型:
导入方式选择本地存储,选择以下导入类型,并进行文件上传。
image.png
导入方式选择BOS目录导入,需要输入Buket地址及文件夹地址,进行文件上传。开通BOS服务请点击开通服务,文件夹内文件类型支持pdf/txt/doc/docx,文件编码仅支持UTF-8
导入方式选择分享链接导入,仅支持来自百度BOS、阿里OSS、腾讯COS、华为OBS的共享链接:
1.
链接地址要求为zip/tar.gz格式压缩包,同时压缩前源文件大小在5G以内,文件编码仅支持UTF-8
2.
压缩包内支持多个pdf/txt/doc/docx文件
2.数据库配置
选择以下两种数据库类型:
共用:调用共用向量库,仅供少量用户或者测试使用,每个用户1G容量。
BES:调用BES向量化能力,开即用、自动运维以及丰富的监控指标,减少您的运维开销,需要您提前开通服务。
百度Elasticsearch(BES)是开源的全文检索和分析引擎Elasticsearch的托管服务,完全兼容开源Elasticsearch的功能,同时内置了基于百度NLP技术的分词插件,即开即用、自动运维以及丰富的监控指标,减少用户运维开销,帮助客户快速启动业务分析。您可以开通服务进行使用,如已开通,请忽略次操作。
当前仅支持选择北京区域的BES。
需要填写BES集群名称、管理员名称及密码并测试联通性。

分段清洗配置#

以上步骤操作完成,选择进入“下一步”。

自动分段#

进行以下的分段清洗配置,则进入后台自动分段流程。
image.png
自动设置分段规则与预处理规则,如果不了解相关参数,建议选择此项。

自定义#

选择自定义分段,进行如下参数调整:
image.png
分段策略:等价分割:遇到所选符号即截断,符号之间没有优先级,最终分割后合并到预计最大长度。
     递归分割:按照所选符号先后顺序做递归分割,同一优先级的分割结果合并到预计长度。
分段标识符:自定义分段中若未命中分段标识符,分段将会失败;当您选择递归分割策略时,自定义分段标识符勾选顺序决定分段策略。
如图所示,分段策略选了递归分割,分段标识符将按照勾选顺序运行分段策略:
image.png
标识符包括(至少选择1种,支持多选):空两行、换行、中/英文句号、中/英文叹号、中/英文问号、中/英文逗号、空格。
分段预计长度:分片的最长长度,取值范围50-500。文档的正文如果超过设定的[最大长度],则截取[最大长度]的片段为新文档,随后回溯[文档重叠]个字符,继续向后检查,直到文档结束。
分段重叠⻓度:当前分片与上一个分片重叠的文本长度,取值范围0-50。示例如下:
image.png
预处理规则:替换连续的空格、换行符和制表符或删除所有URL和电子邮件地址。

按层级分段#

选择按层级分段,按文档(当前仅支持DOCX格式)内标题层级切分段落,进行如下参数调整:
image.png
标题层级深度:根据标题级别进行分段的最大深度(1~5),比如深度为3,则最大的分段深度为三级标题,可以处理一、二、三级标题。
标题保存方式:标题保存的方式,例如当前标题的最大深度为3:联合将多级标题组合在一起,格式为 标题一-标题二-标题三;单个只保存最后一级标题,格式为:标题三。
层级分段策略:等价分割:遇到所选符号即截断,符号之间没有优先级,最终分割后合并到预计最大长度。
       递归分割:按照所选符号先后顺序做递归分割,同一优先级的分割结果合并到预计长度。
层级分段标识符:若未命中分段标识符,分段将会失败;当您选择递归分割策略时,自定义分段标识符勾选顺序决定分段策略。
如图所示,分段策略选了递归分割,分段标识符将按照勾选顺序运行分段策略:
image.png
标识符包括(至少选择1种,支持多选):空两行、换行、中/英文句号、中/英文叹号、中/英文问号、中/英文逗号、空格。
层级分段预计长度:分片的最长长度,取值范围50-500。文档的正文如果超过设定的[最大长度],则截取[最大长度]的片段为新文档,随后回溯[文档重叠]个字符,继续向后检查,直到文档结束。
层级分段重叠⻓度:当前分片与上一个分片重叠的文本长度,取值范围0-50。示例如下:
image.png
预处理规则:替换连续的空格、换行符和制表符或删除所有URL和电子邮件地址。

分段清洗提示说明#

1.
为什么要数据处理?
在处理文本数据时,分段和清洗是两个重要的预处理步骤。通过对数据集进行适当的分段和清洗,可以提高模型在实际应用中的表现,从而为用户提供更准确、更有价值的结果。
2.
分段的目的是什么?
分段的目的是将长文本拆成小段落、以便模型更有效的处理和理解。这有助于提高模型生成结果的质量和相关性。
3.
为什么要进行清洗?
清洗是对文本进行预处理,删除不必要的字符、符号或格式,使数据集更加干净和整洁,便于模型解析。

索引配置#

完成以上所有操作后,即可进行索引配置:
image.png
如上图所示,打开参与索引后,才可选择索引类型,字段类型平台内置的字段类型(content),不支持自定义打开此开关。
不同类型文档的字段如下表所示:
image.png
文本类型支持分词检索,其他类型不分词检索无强制类型,类型仅作为标记数据;
倒排索引用于关键字过滤,嵌入索引用于语义检索。

结构化格式#

知识格式选择结构话格式:无需平台分段的知识,以表格、键值对或类似结构的形式存储,数据字段和结构相对清晰和规范化。选择进入“下一步”。
1.导入配置
支持导入方式及格式分为以下类型:
导入方式选择本地存储,选择以下导入类型,并进行文件上传。
image.png
注意:当您选择导入格式为CSV时,需要标明列分割符为半角逗号/制表符/空格。
导入方式选择BOS目录导入,需要输入Buket地址及文件夹地址,进行文件上传。开通BOS服务请点击开通服务,文件夹内文件类型支持csv/xlsx/jsonl,文件编码仅支持UTF-8。
导入方式选择分享链接导入,仅支持来自百度BOS、阿里OSS、腾讯COS、华为OBS的共享链接:
1.
链接地址要求为zip/tar.gz格式压缩包,同时压缩前源文件大小在5G以内,文件编码仅支持UTF-8。
2.
压缩包内支持多个csv/xlsx/jsonl文件。
2.数据库配置
选择以下两种数据库类型:
共用:调用共用向量库,仅供少量用户或者测试使用,每个用户1G容量。
BES:调用BES向量化能力,开即用、自动运维以及丰富的监控指标,减少您的运维开销,需要您提前开通服务。
百度Elasticsearch(BES)是开源的全文检索和分析引擎Elasticsearch的托管服务,完全兼容开源Elasticsearch的功能,同时内置了基于百度NLP技术的分词插件,即开即用、自动运维以及丰富的监控指标,减少用户运维开销,帮助客户快速启动业务分析。您可以开通服务进行使用,如已开通,请忽略次操作。
当前仅支持选择北京区域的BES。
需要填写BES集群名称、管理员名称及密码并测试联通性。

分段清洗配置#

以上步骤操作完成,选择进入“下一步”。结构化格式数据无需进行分段,但可以选择进行预处理。
image.png
预处理规则:替换连续的空格、换行符和制表符或删除所有URL和电子邮件地址。

索引配置#

完成以上所有操作后,即可进行索引配置:
image.png
如上图所示,打开参与索引后,才可选择索引类型,字段类型平台内置的字段类型(content),不支持自定义打开此开关。
主内容用于在段落卡片的前端进行默认展示。鼠标悬停字段名称后显示主内容icon,点击即可完成设置。
倒排索引用于关键字过滤,嵌入索引用于语义检索。

操作知识库#

知识库创建成功后,可以对其进行详情查看、编辑和删除等操作。点击如下"..."即可进行相关操作。
image.png
其中,以下代表知识库中的文件状态为成功文档总数,字符数以及关联插件数。
image.png

详情#

可在详情查看中,查看到知识库的基本信息和已导入文档的信息概览。
image.png

导入文件#

在详情页中,可以继续向知识库导入文件。
需注意:导入新文件的配置继承知识库导入配置中的数据库配置,不可修改。

文件信息概览#

在本界面可以查看导入到知识库的文件名称、文件状态和文件字符数等信息。其中,
启用状态:开启后可以被用于插件检索,否则不参与搜索匹配;
命中次数:统计在应用插件搜索时被命中的次数。
点击操作列的“设置”按钮,(如下图所示)可以批量或指定段落的启用和停用。另外,还可以在右侧查看文档的基本信息及导入配置信息。
image.png
导入配置信息中的*关键词*:
命中百分比:搜索被命中的片段占总片段数的百分比;
嵌入时间:文档向量化所用耗时;
嵌入花费:文档向量化消耗的tokens数。
点击操作列的“删除”按钮,将会删除本文档,一旦删除,不可恢复。

索引配置详情#

我们点开某jsonl文件,即可查看到其在创建知识库时进行的索引配置,同时可以对此分段进行启/停用。
image.png

编辑#

当您选择知识库的编辑按钮,暂不支持对索引模式的变更,继承历史模式。
image.png

删除#

当您选择知识库的删除按钮,此知识库及导入到知识库的文档都将被删除,一旦删除,不可恢复。

引用知识库#

本平台支持在插件应用的配置中,进行引用。相关操作可查看配置对话场景类应用的知识库或者生成场景类应用的知识库的相关操作。
指定知识库回答问题:插件关联知识库后,如果使用“/”指定知识库,将会根据用户问题去知识库中检索相关段落,召回后让大模型去总结答案。
不指定知识库回答问题:插件关联知识库后,如果没有用“/”指定知识库,会先根据知识库描述以及问题意图识别判断是否需要使用知识库回答问题,如果不使用知识库,则直接使用EB回答问题;插件判断是否需要使用知识库的凭据是 知识库的描述信息,建议使用中文,尽可能全面的描述文档内容。
上一页
什么是千帆大模型知识库
下一页
命中测试
Built with