创建模型压缩任务

登录到千帆大模型操作台，在左侧功能列选择模型压缩，进入模型压缩主任务界面。

点击“创建压缩任务”按钮，进入新建压缩任务页面。(若没有该按钮，请查看任务计费说明）

由用户填写评估任务所需的基本信息、压缩配置、资源配置。

基本信息

填写压缩任务名称、压缩任务描述。

压缩配置

选择源模型: 此处支持选择用户希望压缩的模型，支持从『我的模型』中选择（不支持选择预置模型）。具体支持范围详见模型压缩支持范围。

模型创建方式：选择压缩后模型的保存方式，支持保存为已有模型新版本（默认为最新版本）或保存为新模型（默认V1版本）。

压缩策略:

压缩策略	策略类型	适用基础模型	描述
量化压缩	INT8	BLOOMZ-7B、Llama-2-7b-chat、ERNIE-Bot-turbo-0725	同等QPS目标下，降低推理显存占用，INT8代表将模型参数压缩至8位字节
INT4	BLOOMZ-7B、Llama-2-7b-chat	同等QPS目标下，降低推理显存占用，INT4代表将模型参数压缩至4位字节
稀疏化	比例50%	BLOOMZ-7B、Llama-2-7b-chat	在同等算力资源下，降低单Token时延、提升QPS

资源配置

配置模型压缩的资源环境和计算节点数后，点击“确认”按钮开始进行模型压缩任务。(详细计费规则请见任务计费说明)

任务计费说明

当前模型压缩功能限时免费。

注意：当前ERNIE-Bot-turbo-0725家族模型仅支持量化压缩>INT8的压缩策略，且其压缩后的模型暂不支持评估。
量化压缩是一种将模拟量转换为离散量的方法，它可以模型参数的存储字节数压缩。INT8代表将模型参数压缩至8位字节。