创建数据集
POST
https://qianfan.baidubce.com/wenxinworkshop/dataset/create功能介绍
本接口用于创建数据集。
接口调用成功后,会在数据集管理页面,新增一条数据集记录。例如,创建一条名称为“数据集名称1”的数据集,接口调用成功后,在数据集管理页面,可以查看到该数据集相关信息。
注意事项
- 调用本文API,使用“安全认证/Access Key ”中的Access Key ID 和 Secret Access Key等进行鉴权,无法使用获取Access Token的方式鉴权,具体鉴权认证机制参考鉴权认证机制。
创建文生图类型数据集
请求示例
# 替换下列示例中的Authorization值、x-bce-date值
curl -i --location 'https://qianfan.baidubce.com/wenxinworkshop/dataset/create'\
--header 'Authorization: bce-auth-v1/f0ee7axxxx/2023-09-19T13:42:13Z/180000/host;x-bce-date/9a8cfb8ee58a8f44a21a52640015de61bc55ca2e6d8cc23d080016e374525543'\
--header 'x-bce-date: 2023-09-19T13:37:10Z'\
--header 'Content-Type: application/json'\
--data '{
"name": "1",
"dataType": 7,
"projectType": 705,
"templateType": 70500,
"storageType": "usrBos",
"storageId": "yourBucket",
"rawStoragePath": "/yourDir/"
}'
响应示例
{
"log_id": "ywh0p301qrbz1sbv",
"result": {
"id": 2328,
"groupId": 1402,
"groupName": "goodBye_dataset",
"displayName": "",
"createFrom": 0,
"bmlDatasetId": "ds-rjsh2ygj0ztqsjb9",
"versionId": 1,
"userId": 113,
"dataType": 7,
"projectType": 705,
"templateType": 70500,
"remark": "",
"storageType": "usrBos",
"storageInfo": {
"storageId": "yourBucket",
"storagePath": "/yourBucket/yourDir/_system_/dataset/ds-rjsh2ygj0ztqsjb9/images",
"storageName": "yourBucket",
"rawStoragePath": "/yourDir/",
"region": "bj"
},
"importStatus": -1,
"importProgress": 0,
"exportStatus": -1,
"releaseStatus": 0,
"status": 0,
"isUnique": 0,
"errCode": null,
"createTime": "2023-11-02T14:50:30.6533454+08:00",
"modifyTime": "2023-11-02T14:50:30.653356318+08:00"
},
"status": 200,
"success": true
}
错误码
若请求错误,服务器将返回的JSON文本包含以下参数:
名称 | 描述 |
---|---|
error_code | 错误码 |
error_msg | 错误描述信息,帮助理解和解决发生的错误 |
例如参数错误返回:
{
"error_code": 500001,
"error_msg": "param invalid"
}
创建数据集相关错误码,请查看错误码说明。
请求参数
固定值:application/json
当前时间,遵循ISO8601规范,格式如2016-04-06T08:23:49Z
用于验证请求合法性的认证信息,更多内容请参考鉴权认证机制,签名工具可参考IAM签名工具
数据集名称,当创建新数据集时必传非空,示例:数据集名称
数据类型,可选值如下: · 4:表示文本 · 7:表示跨模态
标注类型,可选值如下: · 20:表示文本对话 · 401:表示泛文本无标注 · 402:表示query问题集 · 705:表示文生图
标注模板类型,可选值如下: · 2000:表示非排序文本对话 · 2001:表示含排序文本对话 · 40100:表示泛文本无标注 · 40200:表示query问题集 · 70500:表示文生图
数据集存储类型,示例:sysBos,可选值如下: · 用户bos,固定值usrBos · 公共bos,固定值sysBos
{
"name": "hello_dataset",
"dataType": 4,
"projectType": 20,
"templateType": 2000,
"storageType": "sysBos"
}
示例代码
返回响应
字符型数据集唯一id,随机字符串,与存储位置相关
导入状态,说明: · -1:未发起导入 · 0:待导入 · 1:导入中 · 2:导入完成 · 3:导入失败 · 4:导入中止
导出状态,说明: · -1:未发起导出 · 0:导出初始化 · 1:导出进行中 · 2:导出完成 · 3:导出失败
发布状态,说明: · 0:未发布 · 1:发布中 · 2:发布成功 · 3:发布失败
状态,说明: · 0:正常 · 1:禁用 · 2:删除
是否去重,说明: · 0:不去重 · 1:去重
导入错误码,说明: · 1:上传的文件大小超过限制 · 2:上传的数据集缺少JSON文件 · 3:上传的文件存在格式错误 · 4:您的账户数据集额度已超限 · 5:上传的样本中存在不合法标签 · 6:上传的样本中存在不合法字符 · 7:上传的样本中存在标签数与文本token数不匹配 · 8:上传的样本标签未在label_map中找到 · 9:文本内容格式与要求不匹配,请重新上传 · 10:上传的压缩包解压失败 · 11:上传的数据集缺少xml文件 · 12:上传的已标注文本缺少标注内容 · 13:上传的文本内容为空或存在空行 · 14:上传的文本编码格式仅支持UTF-8,请重新上传 · 15:上传内容中没有可标注的源文件,请重新上传 · 16 :上传的文件内容不符合要求 · 17:当前数据集标签额度已超限 · 18:上传的视频或音频时长超过限制 · 19:分享的压缩包链接无效 · 20:视频转码失败 · 21:文本区间坐标不合法 · 22:order不合法 · 23:传入文件大小为0 · 24:上传的数据集缺少ocr txt标注 · 25:上传的数据集缺少标注文件 · 26:当前数据集的实体数量超过上限 · 27:上传的分辨率不符合要求 · 50:导入数据失败,数据文件列数不能超过1000列 · 51:导入数据失败,数据集总行数不能超过1000万行 · 52:导入数据失败,数据文件大小超过限制 · 53:导入数据失败,请确保文件编码格式为UTF-8或GBK · 54:导入数据失败,新导入文件与数据集schema不一致 · 55:文档解析失败 · 100:网络异常或服务异常 · 300:BOS没有找到文件
是否操作成功,说明: · true:成功 · false:失败
{
"log_id": "vyckunn0gyg8d5rb",
"result": {
"id": 28919,
"groupId": 23791,
"groupName": "hello_dataset",
"displayName": "",
"createFrom": 0,
"bmlDatasetId": "ds-z07hkq2kyvsmrmdw",
"versionId": 1,
"userId": 1552664,
"dataType": 4,
"projectType": 20,
"templateType": 2000,
"remark": "",
"storageInfo": {
"storageId": "easydata",
"storagePath": "/easydata/_system_/dataset/ds-z07hkq2kyvsmrmdw/texts",
"storageName": "easydata"
},
"importStatus": -1,
"importProgress": 0,
"exportStatus": -1,
"releaseStatus": 0,
"status": 0,
"isUnique": 0,
"errCode": null,
"createTime": "2023-10-25T16:16:38.430058683+08:00",
"modifyTime": "2023-10-25T16:16:38.430066297+08:00"
},
"status": 200,
"success": true
}