第 1 章 关于模型服务
当您服务模型时,您将培训的模式上传到 Red Hat OpenShift AI 进行查询,该查询可让您将受培训的模型集成到智能应用程序中。
您可以将模型上传到兼容 S3 的对象存储、持久性卷声明或开放容器项目(OCI)镜像。然后,您可以从项目工作台访问和培训模型。在培训模型后,您可以使用模型平台提供或部署模型。
服务或部署模型使模型作为服务或模型运行时服务器提供,您可以使用 API 访问。然后,您可以从仪表板访问部署模型的 inference 端点,并根据您通过 API 调用提供的数据输入查看预测。通过 API 查询模型也称为模型推断。
您可以在以下模型平台之一提供模型:
- 单模式服务平台
- 多模式服务平台
- NVIDIA NIM 模型服务平台
您选择的模型平台取决于您的业务需求:
- 如果要在自己的运行时服务器上部署每个模型,或想要使用无服务器部署,请选择 单模式服务平台。建议在生产环境中使用 single-model 服务平台。
- 如果您只想使用一个运行时服务器部署多个模型,请选择 多模式服务平台。如果您要部署超过 1,000 个小型和中型模型并希望减少资源消耗,则此选项最好。
- 如果要使用 NVIDIA Inference microservices (NIM)部署模型,请选择 NVIDIA NIM-model 服务平台。
1.1. 单模式服务平台
您可以从 single-model 服务平台上的专用模型部署每个模型。从专用模型服务器部署模型可帮助您部署、监控、扩展和维护需要增加资源的模型。此模型服务平台正在处理大型模型。单型号服务平台基于 KServe 组件。
单型号服务平台对用例有用,例如:
- 大型语言模型(LLM)
- generateive AI
有关设置单模型服务平台的更多信息,请参阅安装单型号服务平台。