第 1 章关于 AI Inference Server

AI Inference 服务器提供企业级稳定性和安全性，基于上游开源软件进行构建。AI Inference 服务器利用上游 vLLM 项目，它提供第一流推测功能。

例如，AI Inference 服务器使用持续批处理来处理请求，而不必等待完整批处理被累积。它还使用 10sor parallelism 在多个 GPU 之间分发 LLM 工作负载。这些功能提高了延迟和更高的吞吐量。

要降低推断模型的成本，AI Inference 服务器使用页面关注。LLMs 使用一种称为注意的机制来理解与用户对话。通常，请注意，使用大量内存。通过为 LLM 置备内存，如虚拟内存可用于操作系统的方式，页面对此内存的注意。这个方法消耗较少的内存，这会降低成本。