第 1 章 关于 AI Inference Server
AI Inference 服务器提供企业级稳定性和安全性,基于上游开源软件进行构建。AI Inference 服务器利用上游 vLLM 项目,它提供第一流推测功能。
例如,AI Inference 服务器使用持续批处理来处理请求,而不必等待完整批处理被累积。它还使用 10sor parallelism 在多个 GPU 之间分发 LLM 工作负载。这些功能提高了延迟和更高的吞吐量。
要降低推断模型的成本,AI Inference 服务器使用页面关注。LLMs 使用一种称为注意的机制来理解与用户对话。通常,请注意,使用大量内存。通过为 LLM 置备内存,如虚拟内存可用于操作系统的方式,页面对此内存的注意。这个方法消耗较少的内存,这会降低成本。
要验证 AI Inference Server 节约成本和性能提高,请完成以下步骤: