LLM Compressor

Red Hat AI Inference Server 3.1

使用 LLM Compressor 库压缩大型语言模型

Red Hat AI Documentation Team

摘要

描述 LLM Compressor 库，以及如何使用它来优化和压缩大型语言模型，然后再推断。

前言
复制链接

LLM Compressor 是一个开源库，它以模型压缩纳入最新的研究，允许您以最少的努力生成压缩的模型。

LLM Compressor 框架利用最新的量化、强度和一般压缩技术来提高通用 AI 模型效率、可扩展性和性能，同时保持准确性。借助原生 Hugging Face 和 vLLM 支持，您可以无缝地将优化模型与部署管道集成，以便大规模更快地节约成本推测。

重要

LLM Compressor 只是一个技术预览功能。Developer Preview（开发人员预览）功能不被红帽支持，其功能可能并不完善且不是生产环境就绪。不要将开发人员预览功能用于生产环境或业务关键型工作负载。开发人员预览功能可以在之前可能地包含在红帽产品产品中提前访问即将推出的产品功能，使客户能够测试功能并在开发过程中提供反馈。这些功能可能没有任何文档，可能会随时被更改或删除，测试也会受到限制。红帽可能会提供在没有关联 SLA 的情况下提交对开发人员预览功能的反馈。

第 1 章关于大型语言模型优化
复制链接

随着 AI 应用程序的成熟和新的压缩算法发布，需要统一工具来应用特定于用户推测需求的各种压缩算法，并优化以在加速硬件上运行。

优化大型语言模型(LLM)涉及平衡三个关键因素：模型大小、会议速度和准确性。改进其中任何一个因素会对其他因素产生负面影响。例如，提高模型准确性通常需要更多参数，这会导致更大的模型和可能较慢。这些因素之间的权衡是服务 LLM 时的一个核心挑战。

LLM Compressor 允许您执行模型优化技术，如量化、强度和压缩等，以减少内存用量、型号大小以及改进推测，而不影响模型响应的准确性。LLM Compressor 支持以下压缩方法：

Quantization: 将模型权重和激活转换为较低位格式，如 int8，从而减少内存用量。
Sparsity: 将一部分模型权重设为零，通常以固定模式设置为零，从而提高了计算效率。
压缩: 缩小保存的模型文件大小，最好对性能的影响最小。

结合使用这些方法，在受资源限制的硬件上更有效地部署模型。

第 2 章支持的模型压缩工作流
复制链接

LLM Compressor 支持 post-training 量化，一种降低模型大小并改进 CPU 和硬件加速器性能延迟的转换技术，而无需降级模型的准确性。简化的 API 根据您提供的数据集应用量化或健全性。

支持以下高级模型类型和部署工作流：

Multimodal model: Includes vision-language model
混合专家(MoE)模型 ：支持模型，如 DeepSeek 和 Mixtral
大型模型支持 ：使用 Hugging Face 加快库进行多 GPU 和 CPU 卸载

所有工作流都符合 Hugging Face-compatible，使模型能够量化、压缩和部署 vLLM 以实现效率推测。LLM Compressor 支持多种压缩算法：

AWQ: Weight only INT4 quantization
GPTQ ：只有 INT4 量化
FP8: Dynamic-token 量化
SparseGPT: Post-training sparsity
SmoothQuant: 激活量化

每个压缩方法都计算权重和激活的最佳扩展和零点。优化扩展可以是每十个、频道、组或令牌。最终结果是一个压缩模型，它保存了所有应用的量化参数。

第 3 章与红帽 AI Inference Server 和 vLLM 集成
复制链接

使用 LLM Compressor 创建的 Quantized 和稀疏模型使用 压缩的库( Safetensors 的扩展)保存。压缩格式与模型的量化或 sparsity 类型匹配。这些格式在 vLLM 中受到原生支持，通过使用 Red Hat AI Inference Server 或其他 inference 提供程序，通过优化部署内核实现快速提升。

第 4 章与 Red Hat OpenShift AI 集成
复制链接

您可以使用 Red Hat OpenShift AI 和 LLM Compressor 来试验模型培训、微调和压缩。LLM Compressor 的 OpenShift AI 集成提供了两个简介示例：

代表 tiny 模型的压缩的工作台镜像和笔记本，您可以在 CPU 上运行，突出显示布放压缩如何通过数据自由方法改进。
将同一工作流扩展到更大的 Llama 3.2 模型的数据科学管道，突出显示用户可以如何构建可与来自单一 URL 的其他利益相关者共享的自动的 GPU 加速试验。

两者都在 Red Hat AI Examples 存储库中提供。

重要

LLM Compressor 的 OpenShift AI 集成是一项开发者技术预览功能。

法律通告
复制链接

The text of and illustrations in this document are licensed by Red Hat under a Creative Commons Attribution–Share Alike 3.0 Unported license ("CC-BY-SA"). An explanation of CC-BY-SA is available at http://creativecommons.org/licenses/by-sa/3.0/. In accordance with CC-BY-SA, if you distribute this document or an adaptation of it, you must provide the URL for the original version.

Red Hat, as the licensor of this document, waives the right to enforce, and agrees not to assert, Section 4d of CC-BY-SA to the fullest extent permitted by applicable law.

Red Hat, Red Hat Enterprise Linux, the Shadowman logo, the Red Hat logo, JBoss, OpenShift, Fedora, the Infinity logo, and RHCE are trademarks of Red Hat, Inc., registered in the United States and other countries.

Linux® is the registered trademark of Linus Torvalds in the United States and other countries.

Java® is a registered trademark of Oracle and/or its affiliates.

XFS® is a trademark of Silicon Graphics International Corp. or its subsidiaries in the United States and/or other countries.

MySQL® is a registered trademark of MySQL AB in the United States, the European Union and other countries.

Node.js® is an official trademark of Joyent. Red Hat is not formally related to or endorsed by the official Joyent Node.js open source or commercial project.

The OpenStack® Word Mark and OpenStack logo are either registered trademarks/service marks or trademarks/service marks of the OpenStack Foundation, in the United States and other countries and are used with the OpenStack Foundation's permission. We are not affiliated with, endorsed or sponsored by the OpenStack Foundation, or the OpenStack community.

All other trademarks are the property of their respective owners.

LLM Compressor

使用 LLM Compressor 库压缩大型语言模型

前言
复制链接

第 1 章关于大型语言模型优化
复制链接

第 2 章支持的模型压缩工作流
复制链接

第 3 章与红帽 AI Inference Server 和 vLLM 集成
复制链接

第 4 章与 Red Hat OpenShift AI 集成
复制链接

法律通告
复制链接

学习

尝试、购买和销售

社区

关于红帽文档

让开源更具包容性

關於紅帽

Theme

Red Hat legal and privacy links

Red Hat legal and privacy links

LLM Compressor

使用 LLM Compressor 库压缩大型语言模型

前言复制链接链接已复制到粘贴板!

第 1 章 关于大型语言模型优化复制链接链接已复制到粘贴板!

第 2 章 支持的模型压缩工作流复制链接链接已复制到粘贴板!

第 3 章 与红帽 AI Inference Server 和 vLLM 集成复制链接链接已复制到粘贴板!

第 4 章 与 Red Hat OpenShift AI 集成复制链接链接已复制到粘贴板!

法律通告复制链接链接已复制到粘贴板!

学习

尝试、购买和销售

社区

关于红帽文档

让开源更具包容性

關於紅帽

Theme

Red Hat legal and privacy links

Red Hat legal and privacy links

前言
复制链接

第 1 章关于大型语言模型优化
复制链接

第 2 章支持的模型压缩工作流
复制链接

第 3 章与红帽 AI Inference Server 和 vLLM 集成
复制链接

第 4 章与 Red Hat OpenShift AI 集成
复制链接

法律通告
复制链接