1.3. 了解 Red Hat AI Inference Server
红帽 AI Inference 服务器通过开源 vLLM 项目 上的企业级稳定性和安全性构建提供高级推测功能。
AI Inference 服务器使用持续批处理和十个并行性来提供减少的延迟和更高的吞吐量。持续批处理处理模型请求,因为它们到达,而不是等待全面批处理。Tensor parallelism 在多个 GPU 之间分发 LLM 工作负载。
要降低推断模型的成本,AI Inference 服务器使用页面关注。LLMs 使用一种称为注意的机制来理解与用户对话。通常,请注意,使用大量内存。通过为 LLM 置备内存,如虚拟内存可用于操作系统的方式,页面对此内存的注意。这个方法消耗较少的内存,这会降低成本。
Red Hat AI Inference Server 具有以下功能:
- 混合云的推测运行时 :在加速器、Kubernetes 和 Linux 环境中运行您选择的模型。
- LLM Compressor: 压缩模型以优化加速器和计算使用量。降低成本,同时保持高模型的准确性。
- 优化模型存储库 :获得对一组优化的模型可供推测部署的访问,同时支持 NVIDIA 和 AMD 加速器。
- 已认证可用于红帽产品:与 RHEL AI 和 OpenShift AI 集成.