第 2 章 支持的模型压缩工作流
LLM Compressor 支持 post-training 量化,一种降低模型大小并改进 CPU 和硬件加速器性能延迟的转换技术,而无需降级模型的准确性。简化的 API 根据您提供的数据集应用量化或健全性。
支持以下高级模型类型和部署工作流:
- Multimodal model: Includes vision-language model
- 混合专家(MoE)模型 :支持模型,如 DeepSeek 和 Mixtral
- 大型模型支持 :使用 Hugging Face 加快 库进行多 GPU 和 CPU 卸载
所有工作流都符合 Hugging Face-compatible,使模型能够量化、压缩和部署 vLLM 以实现效率推测。LLM Compressor 支持多种压缩算法:
-
AWQ: Weight only
INT4quantization -
GPTQ :只有
INT4量化 - FP8: Dynamic-token 量化
- SparseGPT: Post-training sparsity
- SmoothQuant: 激活量化
每个压缩方法都计算权重和激活的最佳扩展和零点。优化扩展可以是每十个、频道、组或令牌。最终结果是一个压缩模型,它保存了所有应用的量化参数。