第 1 章 关于大型语言模型优化
随着 AI 应用程序的成熟和新的压缩算法发布,需要统一工具来应用特定于用户推测需求的各种压缩算法,并优化以在加速硬件上运行。
优化大型语言模型(LLM)涉及平衡三个关键因素:模型大小、会议速度和准确性。改进其中任何一个因素会对其他因素产生负面影响。例如,提高模型准确性通常需要更多参数,这会导致更大的模型和可能较慢。这些因素之间的权衡是服务 LLM 时的一个核心挑战。
LLM Compressor 允许您执行模型优化技术,如量化、强度和压缩等,以减少内存用量、型号大小以及改进推测,而不影响模型响应的准确性。LLM Compressor 支持以下压缩方法:
- Quantization
-
将模型权重和激活转换为较低位格式,如
int8,从而减少内存用量。 - Sparsity
- 将一部分模型权重设为零,通常以固定模式设置为零,从而提高了计算效率。
- 压缩
- 缩小保存的模型文件大小,最好对性能的影响最小。
结合使用这些方法,在受资源限制的硬件上更有效地部署模型。