导入文本对话数据
导入数据

无标注信息
无标注信息-本地导入
导入格式 | 格式要求 | 格式示例 |
---|---|---|
Jsonl | 1. 文件内单条数据格式要求为[{"prompt" :“prompt内容”}], 详见数据样例。 2. 每一行表示一组数据,每组数据中的prompt和response加起来之和字符数不超过8000Token(包括中英文、数字、符号等),超出部分将被截断。 3.支持文本文件类型为jsonl,编码仅支持UTF-8,单次上传限制100个文本文件,单个文件不超过100M。 | ![]() |
TXT | 1.对话生成的数据序列格式要求为"prompt",详见数据样例。 2. 每一行表示一组数据,每组数据中的prompt和response加起来之和字符数不超过8000Token(包括中英文、数字、符号等),超出部分将被截断。 3. 支持文本文件类型为txt,编码仅支持UTF-8,单次上传限制100个文件,单个文件不超过100M。 | ![]() |
CSV | 1. 文件内单条数据的格式参考示例图,在表格中为一列,由表头定义prompt,详见数据样例。 2. 每一行表示一组数据,每组数据中的prompt和response加起来之和字符数不超过8000Token(包括中英文、数字、符号等),超出部分将被截断。 3. 支持文本文件类型为xlsx,编码仅支持UTF-8,单次上传限制100个文件,单个文件不超过100M。 | ![]() |
XLSX | 1. 文件内单条数据的格式参考示例图,在表格中为一列,由表头定义prompt,详见数据样例。 2. 每一行表示一组数据,每组数据中的prompt和response加起来之和字符数不超过8000Token(包括中英文、数字、符号等),超出部分将被截断。 3. 支持文本文件类型为xlsx,编码仅支持UTF-8,单次上传限制100个文件,单个文件不超过100M。 | ![]() |
ZIP | 1. 上传文件要求为zip/tar.gz格式压缩包,同时压缩前源文件大小在5G以内,文件编码仅支持UTF-8。 2.压缩包内支持多个jsonl文件的上传,jsonl文件中每一行表示一组数据,每组数据中的prompt和response加起来之和字符数不超过8000Token(包括中英文、数字、符号等),超出部分将被截断,详见示例压缩包。 | ![]() |
无标注信息-BOS目录导入
导入方式 | 格式要求 | 格式示例 |
---|---|---|
Bucket地址·文件导入 | 1. 对于 jsonl 文件:文件内单条数据格式要求为[{"prompt" : “prompt内容”}];对于 txt 文件:对话生成的数据序列格式要求为"prompt";对于 csv、xlsx 文件:在表格中为一列,由表头定义prompt。 2. 每一行表示一组数据,每组数据中的prompt和response加起来之和字符数不超过8000Token(包括中英文、数字、符号等),超出部分将被截断。 3. 支持文本文件类型为txt/csv/jsonl/xlsx,编码仅支持UTF-8,单次上传限制100个文本文件,单个文件不超过100M。 | ----- |
Bucket地址·目录导入 | 1. 文件夹内文件类型支持jsonl,文件编码仅支持UTF-8。 2. jsonl文件中每一行表示一组数据,每组数据中的prompt和response加起来之和字符数不超过8000Token(包括中英文、数字、符号等),超出部分将被截断。 | ![]() |
无标注信息-分享链接导入
导入方式 | 格式要求 | 格式示例 |
---|---|---|
输入链接地址导入 | 1. 链接地址要求为zip/tar.gz格式压缩包,同时压缩前源文件大小在5G以内,文件编码仅支持UTF-8。 2. 压缩包内支持多个jsonl文件,jsonl文件中每一行表示一组数据,每组数据中的prompt和response加起来之和字符数不超过8000Token(包括中英文、数字、符号等),超出部分将被截断。 | ![]() |
无标注信息-平台已有数据集
导入方式 | 格式要求 | 数据集要求 |
---|---|---|
选择数据集 | 仅支持选择未发布的数据集版本 | 支持全部数据的导入,此方式导入的数据不带标注;另外也支持仅导入未标注数据。 |
有标注信息
有标注信息-本地导入
导入格式 | 格式要求 | 格式示例 |
---|---|---|
Jsonl | 1. 文件内单条数据格式要求为[{"prompt" : "prompt内容","response": [["response内容"]]}], 详见数据样例。 2. 每一行表示一组数据,每组数据中的prompt和response加起来之和字符数不超过8000Token(包括中英文、数字、符号等),超出部分将被截断。 3. 支持文本文件类型为jsonl,编码仅支持UTF-8,单次上传限制100个文本文件,,单个文件不超过100M。 | ![]() |
ZIP | 1. 上传文件要求为zip/tar.gz格式压缩包,同时压缩前源文件大小在5G以内,文件编码仅支持UTF-8。 2.压缩包内支持多个jsonl文件的上传,jsonl文件中每一行表示一组数据,每组数据中的prompt和response加起来之和字符数不超过8000Token(包括中英文、数字、符号等),超出部分将被截断,详见示例压缩包。 | ![]() |
导入格式 | 格式要求 | 格式示例 |
---|---|---|
Jsonl | 1. 文件内单条数据格式要求为{"prompt" :“prompt内容”,"response":“response内容”},即每个序列为两句话,由逗号分隔开,详见数据样例。 2. 每一行表示一组数据,每组数据中的prompt和response加起来之和字符数不超过8000Token(包括中英文、数字、符号等),超出部分将被截断。 3. 支持文本文件类型为jsonl,编码仅支持UTF-8,单次上传限制100个文本文件,,单个文件不超过100M。 | ![]() |
ZIP | 1. 上传文件要求为zip/tar.gz格式压缩包,同时压缩前源文件大小在5G以内,文件编码仅支持UTF-8。 2. 压缩包内支持多个jsonl文件的上传,jsonl文件中每一行表示一组数据,每组数据中的prompt和response加起来之和字符数不超过8000Token(包括中英文、数字、符号等),超出部分将被截断,详见示例压缩包。 | ![]() |
有标注信息-BOS目录导入
导入方式 | 格式要求 | 格式示例 |
---|---|---|
Bucket地址·文件导入 | 1. 对于 jsonl 文件:文件内单条数据格式要求为[{"prompt" : "prompt内容", "response": [["response内容"]]}];对于 txt 文件:对话生成的数据序列格式要求为"prompt";对于 csv、xlsx 文件:在表格中为一列,由表头定义prompt。 2. 每一行表示一组数据,每组数据中的prompt和response加起来之和字符数不超过8000Token(包括中英文、数字、符号等),超出部分将被截断。 3. 支持文本文件类型为txt/csv/jsonl/xlsx,编码仅支持UTF-8,单次上传限制100个文本文件,单个文件不超过100M | ----- |
Bucket地址·目录导入 | 1. 文件夹内文件类型支持jsonl,文件编码仅支持UTF-8。 2. jsonl文件中每一行表示一组数据,每组数据中的prompt和response加起来之和字符数不超过8000Token(包括中英文、数字、符号等),超出部分将被截断。 | ![]() |
有标注信息-分享链接导入
导入方式 | 格式要求 | 格式示例 |
---|---|---|
输入链接地址导入 | 1. 链接地址要求为zip/tar.gz格式压缩包,同时压缩前源文件大小在5G以内,文件编码仅支持UTF-8。 2.压缩包内支持多个jsonl文件,jsonl文件中每一行表示一组数据,每组数据中的prompt和response加起来之和字符数不超过8000Token(包括中英文、数字、符号等),超出部分将被截断。 | ![]() |
有标注信息-平台已有数据集
导入方式 | 格式要求 | 数据集要求 |
---|---|---|
选择数据集 | 仅支持选择未发布的数据集版本 | 有标注信息的数据集 |
修改于 2023-11-15 03:04:16