第 2 章 支持的模型压缩工作流


LLM Compressor 支持 post-training 量化,一种降低模型大小并改进 CPU 和硬件加速器性能延迟的转换技术,而无需降级模型的准确性。简化的 API 根据您提供的数据集应用量化或健全性。

支持以下高级模型类型和部署工作流:

  • Multimodal model: Includes vision-language model
  • 混合专家(MoE)模型 :支持模型,如 DeepSeek 和 Mixtral
  • 大型模型支持 :使用 Hugging Face 加快 库进行多 GPU 和 CPU 卸载

所有工作流都符合 Hugging Face-compatible,使模型能够量化、压缩和部署 vLLM 以实现效率推测。LLM Compressor 支持多种压缩算法:

  • AWQ: Weight only INT4 quantization
  • GPTQ :只有 INT4 量化
  • FP8: Dynamic-token 量化
  • SparseGPT: Post-training sparsity
  • SmoothQuant: 激活量化

每个压缩方法都计算权重和激活的最佳扩展和零点。优化扩展可以是每十个、频道、组或令牌。最终结果是一个压缩模型,它保存了所有应用的量化参数。

Red Hat logoGithubredditYoutubeTwitter

学习

尝试、购买和销售

社区

关于红帽文档

通过我们的产品和服务,以及可以信赖的内容,帮助红帽用户创新并实现他们的目标。 了解我们当前的更新.

让开源更具包容性

红帽致力于替换我们的代码、文档和 Web 属性中存在问题的语言。欲了解更多详情,请参阅红帽博客.

關於紅帽

我们提供强化的解决方案,使企业能够更轻松地跨平台和环境(从核心数据中心到网络边缘)工作。

Theme

© 2026 Red Hat
返回顶部