第 3 章 与红帽 AI Inference Server 和 vLLM 集成
使用 LLM Compressor 创建的 Quantized 和稀疏模型使用 压缩的库( Safetensors 的扩展)保存。压缩格式与模型的量化或 sparsity 类型匹配。这些格式在 vLLM 中受到原生支持,通过使用 Red Hat AI Inference Server 或其他 inference 提供程序,通过优化部署内核实现快速提升。
使用 LLM Compressor 创建的 Quantized 和稀疏模型使用 压缩的库( Safetensors 的扩展)保存。压缩格式与模型的量化或 sparsity 类型匹配。这些格式在 vLLM 中受到原生支持,通过使用 Red Hat AI Inference Server 或其他 inference 提供程序,通过优化部署内核实现快速提升。
通过我们的产品和服务,以及可以信赖的内容,帮助红帽用户创新并实现他们的目标。 了解我们当前的更新.
红帽致力于替换我们的代码、文档和 Web 属性中存在问题的语言。欲了解更多详情,请参阅红帽博客.
我们提供强化的解决方案,使企业能够更轻松地跨平台和环境(从核心数据中心到网络边缘)工作。