第 1 章 关于大型语言模型优化


随着 AI 应用程序的成熟和新的压缩算法发布,需要统一工具来应用特定于用户推测需求的各种压缩算法,并优化以在加速硬件上运行。

优化大型语言模型(LLM)涉及平衡三个关键因素:模型大小、会议速度和准确性。改进其中任何一个因素会对其他因素产生负面影响。例如,提高模型准确性通常需要更多参数,这会导致更大的模型和可能较慢。这些因素之间的权衡是服务 LLM 时的一个核心挑战。

LLM Compressor 允许您执行模型优化技术,如量化、强度和压缩等,以减少内存用量、型号大小以及改进推测,而不影响模型响应的准确性。LLM Compressor 支持以下压缩方法:

Quantization
将模型权重和激活转换为较低位格式,如 int8,从而减少内存用量。
Sparsity
将一部分模型权重设为零,通常以固定模式设置为零,从而提高了计算效率。
压缩
缩小保存的模型文件大小,最好对性能的影响最小。

结合使用这些方法,在受资源限制的硬件上更有效地部署模型。

Red Hat logoGithubredditYoutubeTwitter

学习

尝试、购买和销售

社区

关于红帽文档

通过我们的产品和服务,以及可以信赖的内容,帮助红帽用户创新并实现他们的目标。 了解我们当前的更新.

让开源更具包容性

红帽致力于替换我们的代码、文档和 Web 属性中存在问题的语言。欲了解更多详情,请参阅红帽博客.

關於紅帽

我们提供强化的解决方案,使企业能够更轻松地跨平台和环境(从核心数据中心到网络边缘)工作。

Theme

© 2026 Red Hat
返回顶部