创建数据集
功能介绍
用于创建数据集。
注意事项
调用本文API,需使用安全认证AK/SK鉴权,调用流程及鉴权介绍详见SDK安装及使用流程。
调用示例
from qianfan.resources.console.consts import DataSetType, DataProjectType, DataTemplateType, DataStorageType
from qianfan import resources
resp = resources.Data.create_bare_dataset(
"test_dataset_name",
DataSetType.TextOnly, # 文本数据集
DataProjectType.Conversation, # 对话
DataTemplateType.NonSortedConversation, # 非排序
DataStorageType.PrivateBos, # 用户私有Bos
"bos_bucket_name", # bos bucket
"bos_path", # bos path
)
print(resp)
返回示例
QfResponse(code = 200,
headers = {...
},
body = {
'log_id': 'qnxrdigwje6aiyyf',
'result': {
'id': 32222,
'groupId': 3333,
'groupName': 'test_dataset_name',
'displayName': '',
'bmlDatasetId': 'ds-nu54erbqtvfpgxxxx9',
'versionId': 1,
'userId': 1493592,
'dataType': 4,
'projectType': 20,
'templateType': 2001,
'remark': '',
'storageType': 'usrBos',
'storageInfo': {
'storageId': 'xxxx',
'storagePath': '/xxxx/dataset/dialog01/_system_/dataset/ds-xxx/texts',
'storageName': 'xxxx',
'rawStoragePath': '/dataset/dialog01/',
'region': 'bj'
},
'importStatus': -1,
'importProgress': 0,
'exportStatus': -1,
'releaseStatus': 0,
'status': 0,
'isUnique': 0,
'errCode': None,
'createTime': '2023-11-09T16:41:06.600928653+08:00',
'modifyTime': '2023-11-09T16:41:06.600940755+08:00'
},
'status': 200,
'success': True
})
"
参数说明
请求参数
名称 | 类型 | 必填 | 描述 |
---|---|---|---|
name | string | 是 | 数据集名称,当创建新数据集时必传非空,示例:数据集名称 |
data_set_type | DataSetTypeI(enum) | 是 | 数据类型,可选值如下: · DataSetType.TextOnly:表示文本 · DataSetType.MultiModel:表示跨模态 |
project_type | DataProjectType | 是 | 标注类型,可选值如下: · DataProjectType.Conversation:表示文本对话 · DataProjectType.GenericText:表示泛文本无标注 · DataProjectType.QuerySet:表示query问题集 · DataProjectType.Text2Image:表示文生图 |
template_type | DataTemplateType | 是 | 标注模板类型,可选值如下: · DataTemplateType.NonSortedConversation:表示非排序文本对话 · DataTemplateType.SortedConversation:表示含排序文本对话 · DataTemplateType.GenericText:表示泛文本无标注 · DataTemplateType.QuerySet:表示query问题集 · DataTemplateType.Text2Image:表示文生图 |
storage_type | DataStorageType | 是 | 数据集存储类型,示例:sysBos,可选值如下: · 用户bos,固定值DataStorageType.PrivateBos · 公共bos,固定值DataStorageType.PublicBos |
storage_id | string | 否 | 使用用户bos时需要填写使用的bucket |
storage_path | string | 否 | 使用用户bos时需要填写使用的目录 |
返回参数
名称 | 类型 | 描述 |
---|---|---|
log_id | string | 请求ID |
status | int | 状态码 |
success | bool | 是否操作成功,说明: · true:成功 · false:失败 |
result | dict | 返回结果 |
result说明
名称 | 类型 | 描述 |
---|---|---|
groupId | int | 数据集ID |
id | int | 数据集版本ID |
versionId | int | 版本号 |
groupName | string | 数据集名称 |
displayName | string | 展示名称 |
bmlDatasetId | string | 字符型数据集唯一id,随机字符串,与存储位置相关 |
userId | int | 用户id |
dataType | int | 数据类型 |
projectType | int | 标注类型 |
templateType | int | 标注模版 |
remark | string | 备注 |
storageInfo | dict | 存储信息 |
importStatus | int | 导入状态,说明: · -1:未发起导入 · 0:导入完成 · 1:等待中 · 2:正在导入 · 3:导入失败 · 4:导入中止 |
importProgress | int | 导入进度 |
exportStatus | int | 导出状态,说明: · -1:未发起导出 · 0:导出初始化 · 1:导出进行中 · 2:导出完成 · 3:导出失败 |
releaseStatus | int | 发布状态,说明: · 0:未发布 · 1:发布中 · 2:发布成功 · 3:发布失败 |
status | int | 状态,说明: · 0:正常 · 1:禁用 · 2:删除 |
isUnique | int | 是否去重,说明: · 0:不去重 · 1:去重 |
errCode | string | 导入错误码,说明: · 1:上传的文件大小超过限制 · 2:上传的数据集缺少JSON文件 · 3:上传的文件存在格式错误 · 4:您的账户数据集额度已超限 · 5:上传的样本中存在不合法标签 · 6:上传的样本中存在不合法字符 · 7:上传的样本中存在标签数与文本token数不匹配 · 8:上传的样本标签未在label_map中找到 · 9:文本内容格式与要求不匹配,请重新上传 · 10:上传的压缩包解压失败 · 11:上传的数据集缺少xml文件 · 12:上传的已标注文本缺少标注内容 · 13:上传的文本内容为空或存在空行 · 14:上传的文本编码格式仅支持UTF-8,请重新上传 · 15:上传内容中没有可标注的源文件,请重新上传 · 16 :上传的文件内容不符合要求 · 17:当前数据集标签额度已超限 · 18:上传的视频或音频时长超过限制 · 19:分享的压缩包链接无效 · 20:视频转码失败 · 21:文本区间坐标不合法 · 22:order不合法 · 23:传入文件大小为0 · 24:上传的数据集缺少ocr txt标注 · 25:上传的数据集缺少标注文件 · 26:当前数据集的实体数量超过上限 · 27:上传的分辨率不符合要求 · 50:导入数据失败,数据文件列数不能超过1000列 · 51:导入数据失败,数据集总行数不能超过1000万行 · 52:导入数据失败,数据文件大小超过限制 · 53:导入数据失败,请确保文件编码格式为UTF-8或GBK · 54:导入数据失败,新导入文件与数据集schema不一致 · 55:文档解析失败 · 100:网络异常或服务异常 · 300:BOS没有找到文件 |
createTime | string | 创建时间 |
modifiyTime | string | 更新时间 |
storageInfo说明
名称 | 类型 | 说明 |
---|---|---|
storageId | string | bucket名称 |
storagePath | string | 完整存储路径 |
storageName | string | bucket名称 |
rawStoragePath | string | bucket下文件夹名称,格式为前后加斜杠,示例:"/yourDir/" |
region | string | 存储所在区域,当数据集存储类型是用户Bos时才返回该字段 |
最后修改时间: 1 年前