LLM Compressor
使用 LLM Compressor 库压缩大型语言模型
摘要
前言 复制链接链接已复制到粘贴板!
LLM Compressor 是一个开源库,它以模型压缩纳入最新的研究,允许您以最少的努力生成压缩的模型。
LLM Compressor 框架利用最新的量化、强度和一般压缩技术来提高通用 AI 模型效率、可扩展性和性能,同时保持准确性。借助原生 Hugging Face 和 vLLM 支持,您可以无缝地将优化模型与部署管道集成,以便大规模更快地节约成本推测。
LLM Compressor 只是一个技术预览功能。Developer Preview(开发人员预览)功能不被红帽支持,其功能可能并不完善且不是生产环境就绪。不要将开发人员预览功能用于生产环境或业务关键型工作负载。开发人员预览功能可以在之前可能地包含在红帽产品产品中提前访问即将推出的产品功能,使客户能够测试功能并在开发过程中提供反馈。这些功能可能没有任何文档,可能会随时被更改或删除,测试也会受到限制。红帽可能会提供在没有关联 SLA 的情况下提交对开发人员预览功能的反馈。
第 1 章 关于大型语言模型优化 复制链接链接已复制到粘贴板!
随着 AI 应用程序的成熟和新的压缩算法发布,需要统一工具来应用特定于用户推测需求的各种压缩算法,并优化以在加速硬件上运行。
优化大型语言模型(LLM)涉及平衡三个关键因素:模型大小、会议速度和准确性。改进其中任何一个因素会对其他因素产生负面影响。例如,提高模型准确性通常需要更多参数,这会导致更大的模型和可能较慢。这些因素之间的权衡是服务 LLM 时的一个核心挑战。
LLM Compressor 允许您执行模型优化技术,如量化、强度和压缩等,以减少内存用量、型号大小以及改进推测,而不影响模型响应的准确性。LLM Compressor 支持以下压缩方法:
- Quantization
-
将模型权重和激活转换为较低位格式,如
int8,从而减少内存用量。 - Sparsity
- 将一部分模型权重设为零,通常以固定模式设置为零,从而提高了计算效率。
- 压缩
- 缩小保存的模型文件大小,最好对性能的影响最小。
结合使用这些方法,在受资源限制的硬件上更有效地部署模型。
第 2 章 支持的模型压缩工作流 复制链接链接已复制到粘贴板!
LLM Compressor 支持 post-training 量化,一种降低模型大小并改进 CPU 和硬件加速器性能延迟的转换技术,而无需降级模型的准确性。简化的 API 根据您提供的数据集应用量化或健全性。
支持以下高级模型类型和部署工作流:
- Multimodal model: Includes vision-language model
- 混合专家(MoE)模型 :支持模型,如 DeepSeek 和 Mixtral
- 大型模型支持 :使用 Hugging Face 加快 库进行多 GPU 和 CPU 卸载
所有工作流都符合 Hugging Face-compatible,使模型能够量化、压缩和部署 vLLM 以实现效率推测。LLM Compressor 支持多种压缩算法:
-
AWQ: Weight only
INT4quantization -
GPTQ :只有
INT4量化 - FP8: Dynamic-token 量化
- SparseGPT: Post-training sparsity
- SmoothQuant: 激活量化
每个压缩方法都计算权重和激活的最佳扩展和零点。优化扩展可以是每十个、频道、组或令牌。最终结果是一个压缩模型,它保存了所有应用的量化参数。
第 3 章 与红帽 AI Inference Server 和 vLLM 集成 复制链接链接已复制到粘贴板!
使用 LLM Compressor 创建的 Quantized 和稀疏模型使用 压缩的库( Safetensors 的扩展)保存。压缩格式与模型的量化或 sparsity 类型匹配。这些格式在 vLLM 中受到原生支持,通过使用 Red Hat AI Inference Server 或其他 inference 提供程序,通过优化部署内核实现快速提升。
第 4 章 与 Red Hat OpenShift AI 集成 复制链接链接已复制到粘贴板!
您可以使用 Red Hat OpenShift AI 和 LLM Compressor 来试验模型培训、微调和压缩。LLM Compressor 的 OpenShift AI 集成提供了两个简介示例:
- 代表 tiny 模型的压缩的工作台镜像和笔记本,您可以在 CPU 上运行,突出显示布放压缩如何通过数据自由方法改进。
- 将同一工作流扩展到更大的 Llama 3.2 模型的数据科学管道,突出显示用户可以如何构建可与来自单一 URL 的其他利益相关者共享的自动的 GPU 加速试验。
两者都在 Red Hat AI Examples 存储库中提供。
LLM Compressor 的 OpenShift AI 集成是一项开发者技术预览功能。