知识库管理

本平台知识库是面向客户构建私域文档或知识管理的能力，实现本地或BOS等多种数据源文档的上传、分段和清洗并储存至向量数据库中。

登录到文心千帆大模型操作台，在左侧功能列选择知识库，进入知识库主任务界面。

创建知识库

您需要在知识库界面，选择“创建知识库”按钮。按照以下步骤逐项操作，即可完成知识库的创建。

文本文档格式：需要平台分段的知识，主要包含文本内容，可以包括文章、报告、书籍等，通常以纯文本或带有格式的文本形式呈现：

1、基本信息-->2.导入配置-->3.分段清洗配置-->4.索引配置

结构化格式:无需平台分段的知识，以表格、键值对或类似结构的形式存储，数据字段和结构相对清晰和规范化：

2、基本信息-->2.导入配置-->3.分段清洗配置-->4.索引配置

基本信息

按照下图内容填写知识库名称、描述、选定应用、索引模式和知识格式：

其中，索引模式分为以下两种：

Embedding API：调用平台的嵌入接口进行处理，以在用户查询时提供更高的准确度。

此服务会调用预置服务中：Embedding-V1公有云在线调用服务，需要您提前开通付费，如您在计费管理中，已开通此服务，请忽略此操作。

服务调用价格请参考价格文档或计费管理中关于Embedding-V1公有云在线调用服务的价格(0.002元/千tokens)描述。

bge API：bge-large-zh是由智源研究院研发的中文版文本表示模型，可将任意文本映射为低维稠密向量，以用于检索、分类、聚类或语义匹配等任务，并可支持为大模型调用外部知识。

此服务会调用预置服务中：bge-large-zh公有云在线调用体验服务，需要您提前开通付费，如您在计费管理中，已开通此服务，请忽略此操作。

服务调用价格请参考价格文档或计费管理中关于bge-large-zh公有云在线调用体验服务的价格(0.002元/千tokens)描述。

您选择索引模式的前提需要您在应用接入中选择/创建可用的应用，操作步骤可参考应用接入使用说明。

文本文档格式

知识格式选择文本文档格式：需要平台分段的知识，主要包含文本内容，可以包括文章、报告、书籍等，通常以纯文本或带有格式的文本形式呈现。选择进入“下一步”。

1.导入配置

支持导入方式及格式分为以下类型：

导入方式选择本地存储，选择以下导入类型，并进行文件上传。

导入方式选择BOS目录导入，需要输入Buket地址及文件夹地址，进行文件上传。开通BOS服务请点击开通服务，文件夹内文件类型支持pdf/txt/doc/docx，文件编码仅支持UTF-8

导入方式选择分享链接导入，仅支持来自百度BOS、阿里OSS、腾讯COS、华为OBS的共享链接：

链接地址要求为zip/tar.gz格式压缩包，同时压缩前源文件大小在5G以内，文件编码仅支持UTF-8

压缩包内支持多个pdf/txt/doc/docx文件

2.数据库配置

选择以下两种数据库类型：

共用：调用共用向量库，仅供少量用户或者测试使用，每个用户1G容量。

BES：调用BES向量化能力，开即用、自动运维以及丰富的监控指标，减少您的运维开销，需要您提前开通服务。

百度Elasticsearch（BES）是开源的全文检索和分析引擎Elasticsearch的托管服务，完全兼容开源Elasticsearch的功能，同时内置了基于百度NLP技术的分词插件，即开即用、自动运维以及丰富的监控指标，减少用户运维开销，帮助客户快速启动业务分析。您可以开通服务进行使用，如已开通，请忽略次操作。

当前仅支持选择北京区域的BES。

需要填写BES集群名称、管理员名称及密码并测试联通性。

分段清洗配置

以上步骤操作完成，选择进入“下一步”。

自动分段

进行以下的分段清洗配置，则进入后台自动分段流程。

自动设置分段规则与预处理规则，如果不了解相关参数，建议选择此项。

自定义

选择自定义分段，进行如下参数调整：

分段策略：等价分割：遇到所选符号即截断，符号之间没有优先级，最终分割后合并到预计最大长度。
递归分割：按照所选符号先后顺序做递归分割，同一优先级的分割结果合并到预计长度。

分段标识符：自定义分段中若未命中分段标识符，分段将会失败；当您选择递归分割策略时，自定义分段标识符勾选顺序决定分段策略。
如图所示，分段策略选了递归分割，分段标识符将按照勾选顺序运行分段策略：

标识符包括(至少选择1种，支持多选)：空两行、换行、中/英文句号、中/英文叹号、中/英文问号、中/英文逗号、空格。

分段预计长度：分片的最长长度，取值范围50-500。文档的正文如果超过设定的[最大长度]，则截取[最大长度]的片段为新文档，随后回溯[文档重叠]个字符，继续向后检查，直到文档结束。

分段重叠⻓度：当前分片与上一个分片重叠的文本长度，取值范围0-50。示例如下：

预处理规则：替换连续的空格、换行符和制表符或删除所有URL和电子邮件地址。

按层级分段

选择按层级分段，按文档(当前仅支持DOCX格式)内标题层级切分段落，进行如下参数调整：

标题层级深度：根据标题级别进行分段的最大深度(1~5)，比如深度为3，则最大的分段深度为三级标题，可以处理一、二、三级标题。

标题保存方式：标题保存的方式，例如当前标题的最大深度为3：联合将多级标题组合在一起，格式为标题一-标题二-标题三；单个只保存最后一级标题，格式为：标题三。

层级分段策略：等价分割：遇到所选符号即截断，符号之间没有优先级，最终分割后合并到预计最大长度。
递归分割：按照所选符号先后顺序做递归分割，同一优先级的分割结果合并到预计长度。

层级分段标识符：若未命中分段标识符，分段将会失败；当您选择递归分割策略时，自定义分段标识符勾选顺序决定分段策略。
如图所示，分段策略选了递归分割，分段标识符将按照勾选顺序运行分段策略：

标识符包括(至少选择1种，支持多选)：空两行、换行、中/英文句号、中/英文叹号、中/英文问号、中/英文逗号、空格。

层级分段预计长度：分片的最长长度，取值范围50-500。文档的正文如果超过设定的[最大长度]，则截取[最大长度]的片段为新文档，随后回溯[文档重叠]个字符，继续向后检查，直到文档结束。

层级分段重叠⻓度：当前分片与上一个分片重叠的文本长度，取值范围0-50。示例如下：

预处理规则：替换连续的空格、换行符和制表符或删除所有URL和电子邮件地址。

分段清洗提示说明

为什么要数据处理？
在处理文本数据时，分段和清洗是两个重要的预处理步骤。通过对数据集进行适当的分段和清洗，可以提高模型在实际应用中的表现，从而为用户提供更准确、更有价值的结果。

分段的目的是什么？
分段的目的是将长文本拆成小段落、以便模型更有效的处理和理解。这有助于提高模型生成结果的质量和相关性。

为什么要进行清洗？
清洗是对文本进行预处理，删除不必要的字符、符号或格式，使数据集更加干净和整洁，便于模型解析。

索引配置

完成以上所有操作后，即可进行索引配置：

如上图所示，打开参与索引后，才可选择索引类型，字段类型平台内置的字段类型(content)，不支持自定义打开此开关。

不同类型文档的字段如下表所示：

文本类型支持分词检索，其他类型不分词检索无强制类型，类型仅作为标记数据；
倒排索引用于关键字过滤，嵌入索引用于语义检索。

结构化格式

知识格式选择结构话格式：无需平台分段的知识，以表格、键值对或类似结构的形式存储，数据字段和结构相对清晰和规范化。选择进入“下一步”。

1.导入配置

支持导入方式及格式分为以下类型：

导入方式选择本地存储，选择以下导入类型，并进行文件上传。

注意：当您选择导入格式为CSV时，需要标明列分割符为半角逗号/制表符/空格。

导入方式选择BOS目录导入，需要输入Buket地址及文件夹地址，进行文件上传。开通BOS服务请点击开通服务，文件夹内文件类型支持csv/xlsx/jsonl，文件编码仅支持UTF-8。

导入方式选择分享链接导入，仅支持来自百度BOS、阿里OSS、腾讯COS、华为OBS的共享链接：

链接地址要求为zip/tar.gz格式压缩包，同时压缩前源文件大小在5G以内，文件编码仅支持UTF-8。

压缩包内支持多个csv/xlsx/jsonl文件。

2.数据库配置

选择以下两种数据库类型：

共用：调用共用向量库，仅供少量用户或者测试使用，每个用户1G容量。

BES：调用BES向量化能力，开即用、自动运维以及丰富的监控指标，减少您的运维开销，需要您提前开通服务。

当前仅支持选择北京区域的BES。

需要填写BES集群名称、管理员名称及密码并测试联通性。

分段清洗配置

以上步骤操作完成，选择进入“下一步”。结构化格式数据无需进行分段，但可以选择进行预处理。

预处理规则：替换连续的空格、换行符和制表符或删除所有URL和电子邮件地址。

索引配置

完成以上所有操作后，即可进行索引配置：

如上图所示，打开参与索引后，才可选择索引类型，字段类型平台内置的字段类型(content)，不支持自定义打开此开关。

主内容用于在段落卡片的前端进行默认展示。鼠标悬停字段名称后显示主内容icon，点击即可完成设置。

倒排索引用于关键字过滤，嵌入索引用于语义检索。

操作知识库

知识库创建成功后，可以对其进行详情查看、编辑和删除等操作。点击如下"..."即可进行相关操作。

其中，以下代表知识库中的文件状态为成功文档总数，字符数以及关联插件数。

详情

可在详情查看中，查看到知识库的基本信息和已导入文档的信息概览。

导入文件

在详情页中，可以继续向知识库导入文件。

需注意：导入新文件的配置继承知识库导入配置中的数据库配置，不可修改。

文件信息概览

在本界面可以查看导入到知识库的文件名称、文件状态和文件字符数等信息。其中，

启用状态：开启后可以被用于插件检索，否则不参与搜索匹配；

命中次数：统计在应用插件搜索时被命中的次数。

点击操作列的“设置”按钮，（如下图所示）可以批量或指定段落的启用和停用。另外，还可以在右侧查看文档的基本信息及导入配置信息。

导入配置信息中的*关键词*：
命中百分比：搜索被命中的片段占总片段数的百分比；
嵌入时间：文档向量化所用耗时；
嵌入花费：文档向量化消耗的tokens数。

点击操作列的“删除”按钮，将会删除本文档，一旦删除，不可恢复。

索引配置详情

我们点开某jsonl文件，即可查看到其在创建知识库时进行的索引配置，同时可以对此分段进行启/停用。

编辑

当您选择知识库的编辑按钮，暂不支持对索引模式的变更，继承历史模式。

删除

当您选择知识库的删除按钮，此知识库及导入到知识库的文档都将被删除，一旦删除，不可恢复。

引用知识库

本平台支持在插件应用的配置中，进行引用。相关操作可查看配置对话场景类应用的知识库或者生成场景类应用的知识库的相关操作。

指定知识库回答问题：插件关联知识库后，如果使用“/”指定知识库，将会根据用户问题去知识库中检索相关段落，召回后让大模型去总结答案。

不指定知识库回答问题：插件关联知识库后，如果没有用“/”指定知识库，会先根据知识库描述以及问题意图识别判断是否需要使用知识库回答问题，如果不使用知识库，则直接使用EB回答问题；插件判断是否需要使用知识库的凭据是知识库的描述信息，建议使用中文，尽可能全面的描述文档内容。

创建知识库#

基本信息#

文本文档格式#

分段清洗配置#

自动分段#

自定义#

按层级分段#

分段清洗提示说明#

索引配置#

结构化格式#

分段清洗配置#

索引配置#

操作知识库#

详情#

导入文件#

文件信息概览#

索引配置详情#

编辑#

删除#

引用知识库#

创建知识库

基本信息

文本文档格式

分段清洗配置

自动分段

自定义

按层级分段

分段清洗提示说明

索引配置

结构化格式

分段清洗配置

索引配置

操作知识库

详情

导入文件

文件信息概览

索引配置详情

编辑

删除

引用知识库