快速导入并部署第三方模型

为了便于您快速了解自定义模型的导入及发布，您可以按照以下步骤进行相关操作。

前提准备

需要您提前开通对象存储BOS服务。

平台支持HuggingFace>Transformers架构的文生文模型，需要您提前在https://huggingface.co/ 下载，并上传至BOS，需注意：transformers库的版本是须为4.31版本。

平台支持您在本地全量参数微调以后的chatglm2-6b模型导入。

导入模型

登录到千帆大模型操作台，在左侧功能列模型管理中选择我的模型，进入创建模型的主任务界面。

点击“创建模型”按钮，进行模型新建，填写以下基本信息：

2.选择已完成的训练任务及运行，创建一个新的模型版本，具体字段包括：

模型版本：平台自动生成，版本号从V1起递增。

模型版本描述：非必填项，自定义的版本描述，记录模型的业务场景、使用方式等信息。

模型来源选择BOS，填写相应的Bucket和模型地址。

输入输出模式多轮对话chat模型选择【对话模式】，单轮问答模型选择【续写模式】

如果您选择对话模式还需配置历史对话和当前问题的prompt：平台将根据此配置自动拼接当前用户问题和历史轮次问答，方便用户在线测试或接入对话类应用。

两种模式都支持【高级配置】，默认示例如下：

{
    "load_model_class": "AutoModelForCausalLM",
    "load_tokenizer_class": "AutoTokenizer",
    "enable_auto_batch": true,
    "custom_end_str": "",
    "token_decode_return_blank": true,
    "tokenizer_special_tokens": {}
}

注：高级参数说明

load_model_class：模型加载类，用于加载transformers模型；默认值 AutoModelForCausalLM

load_tokenizer_class：tokenizer加载类，用于加载模型；默认值 AutoTokenizer

enable_auto_batch：处理请求时，是否支持auto batch；是否开启auto batch推理，增加服务吞吐；若模型batch推理不兼容，开启后可能导致效果有误；默认值：true；

custom_end_str：自定义生成结束字符串；防止模型不断生成；默认为空值，表示不设置；

token_decode_return_blank：指定英文token解码后是否带有空格，设置为false时，平台会在英文单词间加入空格；默认值为true；

tokenizer_special_tokens：选填，需要添加到tokenizer的特殊token；例如 {"pad_token": "[PAD]"}

多轮对话chat模型导入示例-chatglm2-6b-int4

详细信息可参考示例模型。

在输入输出模式中选择【对话模式】，prompt配置如下

当前问题拼接规范: [Round {round}]\n\n问：{question}\n\n答：

历史问答拼接规范: [Round {round}]\n\n问：{question}\n\n答：{answer}\n\n

外层Prompt模板: {input}

高级配置:

{
    "load_model_class": "AutoModel",
    "token_decode_return_blank": false
}

单轮问答模型导入示例-sqlcoder

详细信息可参考示例模型。

在输入输出模式中选择【续写模式】。
其中高级配置使用默认配置。

本地全量参数微调后的chatglm2-6b模型导入示例

在我的模型中选择创建模型，按照下图所示填写基本信息。

模型配置项，填写模型上传BOS的Bucket地址，本地全量参数微调以后的chatglm2-6b模型应该提前上传至此文件夹。

选择输入输出模式为对话模式，保存对话模式的默认配置。

打开高级配置，并输入以下配置内容。

{
    "custom_end_str": "",
    "enable_auto_batch": true,
    "load_model_class": "AutoModelForCausalLM",
    "load_tokenizer_class": "AutoTokenizer",
    "token_decode_return_blank": true,
    "tokenizer_special_tokens": {}
}

以上步骤完成后，点击“确定”即可。

更多操作可查看BOS导入模型。

部署服务

部署完毕后进入【模型仓库】点击刚导入的模型进入【模型详情】页，模型【版本状态】变成“就绪”说明模型导入成功；点击【部署】按钮进入【创建服务】。

按下图流程完善服务部署，将服务部署至私有资源池。

更多服务部署操作内容可参考在线服务使用说明。

在线测试

进入【体验中心】页，左上角【选择服务】选择部署的服务，输入框输入请求数据，获取结果。

更多在线测试操作内容可参考体验中心使用说明。

前提准备#

导入模型#

多轮对话chat模型导入示例-chatglm2-6b-int4#

单轮问答模型导入示例-sqlcoder#

本地全量参数微调后的chatglm2-6b模型导入示例#

部署服务#