第 1 章 关于 AI Inference Server


AI Inference 服务器提供企业级稳定性和安全性,基于上游开源软件进行构建。AI Inference 服务器利用上游 vLLM 项目,它提供第一流推测功能。

例如,AI Inference 服务器使用持续批处理来处理请求,而不必等待完整批处理被累积。它还使用 10sor parallelism 在多个 GPU 之间分发 LLM 工作负载。这些功能提高了延迟和更高的吞吐量。

要降低推断模型的成本,AI Inference 服务器使用页面关注。LLMs 使用一种称为注意的机制来理解与用户对话。通常,请注意,使用大量内存。通过为 LLM 置备内存,如虚拟内存可用于操作系统的方式,页面对此内存的注意。这个方法消耗较少的内存,这会降低成本。

要验证 AI Inference Server 节约成本和性能提高,请完成以下步骤:

返回顶部
Red Hat logoGithubredditYoutubeTwitter

学习

尝试、购买和销售

社区

关于红帽文档

通过我们的产品和服务,以及可以信赖的内容,帮助红帽用户创新并实现他们的目标。 了解我们当前的更新.

让开源更具包容性

红帽致力于替换我们的代码、文档和 Web 属性中存在问题的语言。欲了解更多详情,请参阅红帽博客.

關於紅帽

我们提供强化的解决方案,使企业能够更轻松地跨平台和环境(从核心数据中心到网络边缘)工作。

Theme

© 2025 Red Hat