导入文本对话数据

导入数据

创建数据集完成后，在数据集管理页面中，找到该数据集，点击右侧操作列下的“导入”按钮，即可进入导入数据页面。

您可以使用以下方案上传文本数据：

无标注信息导入：本地导入、BOS导入、分享链接导入、平台已有数据集

有标注信息导入：本地导入、BOS导入、分享链接导入、平台已有数据集

无标注信息

无标注信息-本地导入

本地导入支持五种导入格式：JSONL、TXT、CSV、XLSX、ZIP。

非排序样本数据：

导入格式	格式要求	格式示例
Jsonl	1. 文件内单条数据格式要求为[{"prompt" ：“prompt内容”}]，详见数据样例。 2. 每一行表示一组数据，每组数据中的prompt和response加起来之和字符数不超过8000Token（包括中英文、数字、符号等），超出部分将被截断。 3.支持文本文件类型为jsonl，编码仅支持UTF-8，单次上传限制100个文本文件，单个文件不超过100M。
TXT	1.对话生成的数据序列格式要求为"prompt"，详见数据样例。 2. 每一行表示一组数据，每组数据中的prompt和response加起来之和字符数不超过8000Token（包括中英文、数字、符号等），超出部分将被截断。 3. 支持文本文件类型为txt，编码仅支持UTF-8，单次上传限制100个文件，单个文件不超过100M。
CSV	1. 文件内单条数据的格式参考示例图，在表格中为一列，由表头定义prompt，详见数据样例。 2. 每一行表示一组数据，每组数据中的prompt和response加起来之和字符数不超过8000Token（包括中英文、数字、符号等），超出部分将被截断。 3. 支持文本文件类型为xlsx，编码仅支持UTF-8，单次上传限制100个文件，单个文件不超过100M。
XLSX	1. 文件内单条数据的格式参考示例图，在表格中为一列，由表头定义prompt，详见数据样例。 2. 每一行表示一组数据，每组数据中的prompt和response加起来之和字符数不超过8000Token（包括中英文、数字、符号等），超出部分将被截断。 3. 支持文本文件类型为xlsx，编码仅支持UTF-8，单次上传限制100个文件，单个文件不超过100M。
ZIP	1. 上传文件要求为zip/tar.gz格式压缩包，同时压缩前源文件大小在5G以内，文件编码仅支持UTF-8。 2.压缩包内支持多个jsonl文件的上传，jsonl文件中每一行表示一组数据，每组数据中的prompt和response加起来之和字符数不超过8000Token（包括中英文、数字、符号等），超出部分将被截断，详见示例压缩包。

含排序样本数据

含排序文本数据格式要求同非排序文本数据一致。

下载数据样例：JSONL、TXT、CSV 、XLSX、ZIP。

无标注信息-BOS目录导入

选择BOS文件导入，需要指定到文件；选择BOS目录导入，需要指定到文件的路径。

导入方式	格式要求	格式示例
Bucket地址·文件导入	1. 对于 jsonl 文件：文件内单条数据格式要求为[{"prompt" : “prompt内容”}]；对于 txt 文件：对话生成的数据序列格式要求为"prompt"；对于 csv、xlsx 文件：在表格中为一列，由表头定义prompt。 2. 每一行表示一组数据，每组数据中的prompt和response加起来之和字符数不超过8000Token（包括中英文、数字、符号等），超出部分将被截断。 3. 支持文本文件类型为txt/csv/jsonl/xlsx，编码仅支持UTF-8，单次上传限制100个文本文件，单个文件不超过100M。	-----
Bucket地址·目录导入	1. 文件夹内文件类型支持jsonl，文件编码仅支持UTF-8。 2. jsonl文件中每一行表示一组数据，每组数据中的prompt和response加起来之和字符数不超过8000Token（包括中英文、数字、符号等），超出部分将被截断。

无标注信息-分享链接导入

请确保将全部jsonl文本文件保存至同一压缩包，压缩包仅支持zip/tar.gz格式，压缩前源文件大小限制5G以内

需输入链接地址。分享链接导入的要求如下：

仅支持来自百度BOS、阿里OSS、腾讯COS、华为OBS的共享链接。

导入方式	格式要求	格式示例
输入链接地址导入	1. 链接地址要求为zip/tar.gz格式压缩包，同时压缩前源文件大小在5G以内，文件编码仅支持UTF-8。 2. 压缩包内支持多个jsonl文件，jsonl文件中每一行表示一组数据，每组数据中的prompt和response加起来之和字符数不超过8000Token（包括中英文、数字、符号等），超出部分将被截断。

无标注信息-平台已有数据集

导入方式	格式要求	数据集要求
选择数据集	仅支持选择未发布的数据集版本	支持全部数据的导入，此方式导入的数据不带标注；另外也支持仅导入未标注数据。

有标注信息

有标注信息-本地导入

本地导入支持两种导入格式：JSONL和ZIP。

非排序样本数据：

导入格式	格式要求	格式示例
Jsonl	1. 文件内单条数据格式要求为[{"prompt" : "prompt内容"，"response": [["response内容"]]}]，详见数据样例。 2. 每一行表示一组数据，每组数据中的prompt和response加起来之和字符数不超过8000Token（包括中英文、数字、符号等），超出部分将被截断。 3. 支持文本文件类型为jsonl，编码仅支持UTF-8，单次上传限制100个文本文件，，单个文件不超过100M。
ZIP	1. 上传文件要求为zip/tar.gz格式压缩包，同时压缩前源文件大小在5G以内，文件编码仅支持UTF-8。 2.压缩包内支持多个jsonl文件的上传，jsonl文件中每一行表示一组数据，每组数据中的prompt和response加起来之和字符数不超过8000Token（包括中英文、数字、符号等），超出部分将被截断，详见示例压缩包。

含排序样本数据

导入格式	格式要求	格式示例
Jsonl	1. 文件内单条数据格式要求为{"prompt" ：“prompt内容”，"response"：“response内容”}，即每个序列为两句话，由逗号分隔开，详见数据样例。 2. 每一行表示一组数据，每组数据中的prompt和response加起来之和字符数不超过8000Token（包括中英文、数字、符号等），超出部分将被截断。 3. 支持文本文件类型为jsonl，编码仅支持UTF-8，单次上传限制100个文本文件，，单个文件不超过100M。
ZIP	1. 上传文件要求为zip/tar.gz格式压缩包，同时压缩前源文件大小在5G以内，文件编码仅支持UTF-8。 2. 压缩包内支持多个jsonl文件的上传，jsonl文件中每一行表示一组数据，每组数据中的prompt和response加起来之和字符数不超过8000Token（包括中英文、数字、符号等），超出部分将被截断，详见示例压缩包。

有标注信息-BOS目录导入

选择BOS文件导入，需要指定到文件；选择BOS目录导入，需要指定到文件的路径。

导入方式	格式要求	格式示例
Bucket地址·文件导入	1. 对于 jsonl 文件：文件内单条数据格式要求为[{"prompt" : "prompt内容", "response": [["response内容"]]}]；对于 txt 文件：对话生成的数据序列格式要求为"prompt"；对于 csv、xlsx 文件：在表格中为一列，由表头定义prompt。 2. 每一行表示一组数据，每组数据中的prompt和response加起来之和字符数不超过8000Token（包括中英文、数字、符号等），超出部分将被截断。 3. 支持文本文件类型为txt/csv/jsonl/xlsx，编码仅支持UTF-8，单次上传限制100个文本文件，单个文件不超过100M	-----
Bucket地址·目录导入	1. 文件夹内文件类型支持jsonl，文件编码仅支持UTF-8。 2. jsonl文件中每一行表示一组数据，每组数据中的prompt和response加起来之和字符数不超过8000Token（包括中英文、数字、符号等），超出部分将被截断。

有标注信息-分享链接导入

请确保将全部jsonl文本文件保存至同一压缩包，压缩包仅支持zip/tar.gz格式，压缩前源文件大小限制5G以内

需输入链接地址。分享链接导入的要求如下：

仅支持来自百度BOS、阿里OSS、腾讯COS、华为OBS的共享链接。

导入方式	格式要求	格式示例
输入链接地址导入	1. 链接地址要求为zip/tar.gz格式压缩包，同时压缩前源文件大小在5G以内，文件编码仅支持UTF-8。 2.压缩包内支持多个jsonl文件，jsonl文件中每一行表示一组数据，每组数据中的prompt和response加起来之和字符数不超过8000Token（包括中英文、数字、符号等），超出部分将被截断。

有标注信息-平台已有数据集

导入方式	格式要求	数据集要求
选择数据集	仅支持选择未发布的数据集版本	有标注信息的数据集

以上所有步骤完成后，即可导入数据至数据集。

导入数据#

无标注信息#

无标注信息-本地导入#

无标注信息-BOS目录导入#

无标注信息-分享链接导入#

无标注信息-平台已有数据集#

有标注信息#

有标注信息-本地导入#

有标注信息-BOS目录导入#

有标注信息-分享链接导入#

有标注信息-平台已有数据集#