1.3. 了解 Red Hat AI Inference Server


红帽 AI Inference 服务器通过开源 vLLM 项目 上的企业级稳定性和安全性构建提供高级推测功能。

AI Inference 服务器使用持续批处理和十个并行性来提供减少的延迟和更高的吞吐量。持续批处理处理模型请求,因为它们到达,而不是等待全面批处理。Tensor parallelism 在多个 GPU 之间分发 LLM 工作负载。

要降低推断模型的成本,AI Inference 服务器使用页面关注。LLMs 使用一种称为注意的机制来理解与用户对话。通常,请注意,使用大量内存。通过为 LLM 置备内存,如虚拟内存可用于操作系统的方式,页面对此内存的注意。这个方法消耗较少的内存,这会降低成本。

Red Hat AI Inference Server 具有以下功能:

  • 混合云的推测运行时 :在加速器、Kubernetes 和 Linux 环境中运行您选择的模型。
  • LLM Compressor: 压缩模型以优化加速器和计算使用量。降低成本,同时保持高模型的准确性。
  • 优化模型存储库 :获得对一组优化的模型可供推测部署的访问,同时支持 NVIDIA 和 AMD 加速器。
  • 已认证可用于红帽产品:与 RHEL AI 和 OpenShift AI 集成.
返回顶部
Red Hat logoGithubredditYoutubeTwitter

学习

尝试、购买和销售

社区

关于红帽文档

通过我们的产品和服务,以及可以信赖的内容,帮助红帽用户创新并实现他们的目标。 了解我们当前的更新.

让开源更具包容性

红帽致力于替换我们的代码、文档和 Web 属性中存在问题的语言。欲了解更多详情,请参阅红帽博客.

關於紅帽

我们提供强化的解决方案,使企业能够更轻松地跨平台和环境(从核心数据中心到网络边缘)工作。

Theme

© 2025 Red Hat