压缩策略 | 策略类型 | 适用基础模型 | 描述 |
---|---|---|---|
量化压缩 | INT8 | BLOOMZ-7B、Llama-2-7b-chat、ERNIE-Bot-turbo-0725 | 同等QPS目标下,降低推理显存占用,INT8代表将模型参数压缩至8位字节 |
INT4 | BLOOMZ-7B、Llama-2-7b-chat | 同等QPS目标下,降低推理显存占用,INT4代表将模型参数压缩至4位字节 | |
稀疏化 | 比例50% | BLOOMZ-7B、Llama-2-7b-chat | 在同等算力资源下,降低单Token时延、提升QPS |
模型家族 | 模型压缩支持 |
---|---|
ERNIE-Bot | x |
ERNIE-Bot-turbo-0725 | ✓ |
BLOOMZ-7B | ✓ |
Llama-2-7b-chat | ✓ |