创建模型压缩任务
创建模型压缩任务
登录到千帆大模型操作台,在左侧功能列选择模型压缩,进入模型压缩主任务界面。
点击“创建压缩任务”按钮,进入新建压缩任务页面。(若没有该按钮,请查看任务计费说明)
由用户填写评估任务所需的基本信息、压缩配置、资源配置。
基本信息
填写压缩任务名称、压缩任务描述。
压缩配置
选择源模型: 此处支持选择用户希望压缩的模型,支持从『我的模型』中选择(不支持选择预置模型)。具体支持范围详见模型压缩支持范围 。
模型创建方式:选择压缩后模型的保存方式,支持保存为已有模型新版本(默认为最新版本)或保存为新模型(默认V1版本)。
压缩策略:
压缩策略 策略类型 适用基础模型 描述 量化压缩 INT8 BLOOMZ-7B、Llama-2-7b-chat、ERNIE-Bot-turbo-0725 同等QPS目标下,降低推理显存占用,INT8代表将模型参数压缩至8位字节 INT4 BLOOMZ-7B、Llama-2-7b-chat 同等QPS目标下,降低推理显存占用,INT4代表将模型参数压缩至4位字节 稀疏化 比例50% BLOOMZ-7B、Llama-2-7b-chat 在同等算力资源下,降低单Token时延、提升QPS
资源配置
配置模型压缩的资源环境和计算节点数后,点击“确认”按钮开始进行模型压缩任务。(详细计费规则请见任务计费说明)
任务计费说明
当前模型压缩功能限时免费。
模型压缩支持范围
模型家族 | 模型压缩支持 |
---|---|
ERNIE-Bot | x |
ERNIE-Bot-turbo-0725 | ✓ |
BLOOMZ-7B | ✓ |
Llama-2-7b-chat | ✓ |
- 注意:当前ERNIE-Bot-turbo-0725家族模型仅支持量化压缩>INT8的压缩策略,且其压缩后的模型暂不支持评估。
量化压缩是一种将模拟量转换为离散量的方法,它可以模型参数的存储字节数压缩。INT8代表将模型参数压缩至8位字节。
最后修改时间: 1 年前