第 6 章 使用 Google TPU AI Accelerators 使用 Podman 提供和推断语言模型
在具有 Google TPU AI 加速器的 Google 云虚拟机中使用 Podman 或 Docker 和 Red Hat AI Inference Server 提供大型语言模型。
先决条件
您可以访问配置了 Google TPU AI 加速器的 Google Cloud TPU 虚拟机。如需更多信息,请参阅:
- 已安装 Podman 或 Docker。
- 您以具有 sudo 访问权限的用户身份登录。
-
您可以访问
registry.redhat.io镜像 registry 并已登录。 - 您有一个 Hugging Face 帐户,并生成了一个 Hugging Face 访问令牌。
有关加速器支持的 vLLM 量化方案的更多信息,请参阅 支持的硬件。
流程
在 TPU 服务器主机上打开一个终端,并登录到
registry.redhat.io:podman login registry.redhat.io
$ podman login registry.redhat.ioCopy to Clipboard Copied! Toggle word wrap Toggle overflow 运行以下命令拉取 Red Hat AI Inference Server 镜像:
podman pull registry.redhat.io/rhaiis/vllm-tpu-rhel9:3.2.4
$ podman pull registry.redhat.io/rhaiis/vllm-tpu-rhel9:3.2.4Copy to Clipboard Copied! Toggle word wrap Toggle overflow 可选:验证主机中是否有 TPU。
在 Red Hat AI Inference Server 容器中打开 shell 提示符。运行以下命令:
podman run -it --net=host --privileged -e PJRT_DEVICE=TPU --rm --entrypoint /bin/bash registry.redhat.io/rhaiis/vllm-tpu-rhel9:3.2.4
$ podman run -it --net=host --privileged -e PJRT_DEVICE=TPU --rm --entrypoint /bin/bash registry.redhat.io/rhaiis/vllm-tpu-rhel9:3.2.4Copy to Clipboard Copied! Toggle word wrap Toggle overflow 通过在容器 shell 提示符中运行以下 Python 代码来验证系统 TPU 访问和基本操作:
Copy to Clipboard Copied! Toggle word wrap Toggle overflow 输出示例
Copy to Clipboard Copied! Toggle word wrap Toggle overflow 退出 shell 提示符。
exit
$ exitCopy to Clipboard Copied! Toggle word wrap Toggle overflow
创建卷并将其挂载到容器中。调整容器权限,以便容器可以使用它。
mkdir ./.cache/rhaiis
$ mkdir ./.cache/rhaiisCopy to Clipboard Copied! Toggle word wrap Toggle overflow chmod g+rwX ./.cache/rhaiis
$ chmod g+rwX ./.cache/rhaiisCopy to Clipboard Copied! Toggle word wrap Toggle overflow 将
HF_TOKENHugging Face 令牌添加到private.env文件中。echo "export HF_TOKEN=<huggingface_token>" > private.env
$ echo "export HF_TOKEN=<huggingface_token>" > private.envCopy to Clipboard Copied! Toggle word wrap Toggle overflow 将
HF_HOME变量附加到private.env文件。echo "export HF_HOME=./.cache/rhaiis" >> private.env
$ echo "export HF_HOME=./.cache/rhaiis" >> private.envCopy to Clipboard Copied! Toggle word wrap Toggle overflow 提供
private.env文件。source private.env
$ source private.envCopy to Clipboard Copied! Toggle word wrap Toggle overflow 启动 AI Inference Server 容器镜像:
Copy to Clipboard Copied! Toggle word wrap Toggle overflow
验证
检查 AI Inference Server 服务器是否已启动。在终端中打开一个单独的标签页,并使用 API 发出模型请求:
输出示例