智慧图问
POST
https://aip.baidubce.com/rpc/2.0/ai_custom/v1/wenxinworkshop/plugin/{服务后缀名称}/注意:该插件目前面向测试企业用户开放,如需使用请填写申请表单,我们将尽快评估您的需求。
功能介绍
图片解析插件,主要功能为图片理解与识别,并对图片内容进行总结概述,输出用户可理解的自然语言文本描述(句子或段落)。识别能力包含文字OCR解析、人物识别、植物识别、商品识别、车辆识别等。
- 文字OCR可对网页截图、办公文档、表格、题目公式、海报广告等进行解析;
- 人物识别包含演员、歌手、企业家等公众人物,可参考百度百科词条人物(不包含国内国际政要等敏感人物);
- 植物识别能力可识别常见的树木、花卉、农作物等;
- 商品识别能力可输出常见商品名称;
- 车辆识别包含常见车型、品牌以及颜色等属性。
针对通用图片,图片解析插件插件可输出简要图片内容描述,包含图片人物的表情动作描述、物品状态属性描述、景物风景描述等。满足智能AI应用在视觉感知能力的扩展与交互。
本文介绍了实现对智慧图问插件的调用使用说明。
服务后缀名称说明
配置插件应用服务成功后,可以查看服务后缀名称、服务地址等信息。如何配置插件应用服务,详见插件编排使用说明。
配置插件应用成功后,查看服务地址、服务后缀名称。
说明:只有服务状态为上线状态,才可以查看自动生成的服务地址、服务后缀名称。
- 在插件的详情页中,查看完整的服务地址。
请求示例(流式)
# 步骤一,获取access_token,替换下列示例中的API Key与Secret Key
curl 'https://aip.baidubce.com/oauth/2.0/token?grant_type=client_credentials&client_id=[API Key]&client_secret=[Secret Key]'
# 步骤二,调用本文API,使用步骤一获取的access_token,替换下列示例中的“调用接口获取的access_token”
curl 'https://aip.baidubce.com/rpc/2.0/ai_custom/v1/wenxinworkshop/plugin/[服务后缀名称]/?access_token=[步骤一调用接口获取的access_token]'
--data '{"query": "通知书上的大学是什么","plugins":["uuid-chatocr"],"verbose":true,"stream":true,"fileurl":"http://xxxx"}'
-H 'Content-Type: application/json'
响应示例(流式)
# 首包需要的回显信息
data: {'plugin_id': 'uuid-chatocr', 'requests': {'query': '通知书上的大学是什么?', 'filename': '通知书.jpeg'}, 'response': {'error_no': 0, 'error_msg': 'success', 'format': 'json', 'result': {'llm_result': '根据提供的图像文字信息,通知书上的大学是“某某大学”。', 'ocr_result': [{'rect': {'left': 399, 'top': 304, 'width': 291, 'height': 92}, 'word': '某某大学'}, {'rect': {'left': 206, 'top': 509, 'width': 687, 'height': 118}, 'word': '录取通知书'}]}}}
# 后续为用户请求的响应结果
data: {'id': 'as-rpf9gsgffn', 'object': 'chat.completion', 'created': 1694434293, 'sentence_id': 0, 'is_end': False, 'is_truncated': False, 'result': '根据提供的图像文字信息,通知书上的大学是“某某大学”。', 'need_clear_history': False, 'usage': {'prompt_tokens': 563, 'completion_tokens': 9, 'total_tokens': 572}}
错误码
若请求错误,服务器将返回的JSON文本包含以下参数:
名称 | 描述 |
---|---|
error_code | 错误码 |
error_msg | 错误描述信息,帮助理解和解决发生的错误 |
例如Access Token失效返回:
{
"error_code": 110,
"error_msg": "Access token invalid or no longer valid"
}
需要重新获取新的Access Token再次请求。
错误码 | 错误信息 | 描述 |
---|---|---|
0 | 正常 | 正常 |
216100 | 请求参数错误 | 请求参数错误 |
216400 | 服务处理异常错误 | 服务处理异常错误 |
216203 | 图片处理失败 | 图片处理失败 |
请求参数
查询信息。说明: (1)成员不能为空 (2)长度不能超过1000个字符
需要调用的插件,参数为插件ID,插件ID可在插件列表-插件详情中获取。 (1)最多3个插件,最少1个插件。 (2)当多个插件时,插件触发由大模型意图判断控制。 (3)当只有1个插件时,强制指定使用该插件工具。 参数示例:["...", "..."]
是否以流式接口的形式返回数据,默认false,可选值如下: (1)true: 是,以流式接口的形式返回数据 (2)false:否,非流式接口形式返回数据
llm相关参数,不指定参数时,使用调试过程中的默认值。 参数示例:"llm":{"temperature":0.1,"top_p":1,"penalty_score":1}
说明: (1)如果prompt中使用了变量,推理时可以填写具体值; (2)如果prompt中未使用变量,该字段不填。 参数示例:"input_variables":{"key1":"value1","key2":"value2",} key1、key2为配置时prompt中使用了变量key
聊天上下文信息。 参数示例: [{"role":"user","content":"..."},{"role":"assistant","content":"..."},...]
是否返回插件的原始请求信息,默认false,可选值如下: true:是,返回插件的原始请求信息meta_info false:否,不返回插件的原始请求信息meta_info
{
"query": "string",
"plugins": [
"string"
],
"stream": true,
"llm\t": {},
"input_variables": {},
"history\t": {},
"verbose\t": true
}
示例代码
返回响应
回包类型。 chat.completion:多轮对话返回
当前生成的结果是否被截断
表示用户输入是否存在安全,是否关闭当前会话,清理历史会话信息 true:是,表示用户输入存在安全风险,建议关闭当前会话,清理历史会话信息 false:否,表示用户输入无安全风险
token统计信息,token数 = 汉字数+单词数*1.3 (仅为估算逻辑)
{
"id": "as-k4r8wt8xr8",
"object": "chat.completion",
"created": 1692174171,
"result": "根据提供的图像文字信息,通知书上的大学是“某某大学”。",
"is_truncated": false,
"need_clear_history": false,
"usage": {
"prompt_tokens": 190,
"completion_tokens": 27,
"total_tokens": 217
},
"meta_info": {
"requests": {
"query": "通知书上的大学是什么?",
"filename": "通知书.jpeg"
},
"response": {
"error_no": 0,
"error_msg": "success",
"format": "json",
"result": {
"llm_result": "根据提供的图像文字信息,通知书上的大学是“某某大学”。",
"ocr_result": [
{
"rect": {
"left": 399,
"top": 304,
"width": 291,
"height": 92
},
"word": "某某大学"
},
{
"rect": {
"left": 206,
"top": 509,
"width": 687,
"height": 118
},
"word": "录取通知书"
}
]
},
"logid": 2796978908
}
}
}