7.2. IBM Power 上的 IBM Spyre AI Accelerators 的 inference 服务配置示例
以下示例描述了 IBM Spyre AI Accelerators 和 IBM Power 上的常见红帽 AI Inference 服务器工作负载。
- 实体提取
使用
lspci命令的输出选择一个 Spyre 卡 ID,例如:$ SPYRE_IDS="0381:50:00.0"Podman 实体提取示例
$ podman run -d \ --device=/dev/vfio \ --name vllm-api \ -v $HOME/models:/models:Z \ -e VLLM_AIU_PCIE_IDS="$SPYRE_IDS" \ -e VLLM_SPYRE_USE_CB=1 \ --pids-limit 0 \ --userns=keep-id \ --group-add=keep-groups \ --memory 100GB \ --shm-size 64GB \ -p 8000:8000 \ registry.redhat.io/rhaiis/vllm-spyre:3.2.5 \ --model /models/granite-3.3-8b-instruct \ -tp 1 \ --max-model-len 3072 \ --max-num-seqs 16- RAG inference service
使用
lspci命令的输出选择 4 个 Spyre 卡 ID,例如:$ SPYRE_IDS="0381:50:00.0 0382:60:00.0 0383:70:00.0 0384:80:00.0"podman RAG inference 服务示例
$ podman run -d \ --device=/dev/vfio \ --name vllm-api \ -v $HOME/models:/models:Z \ -e VLLM_AIU_PCIE_IDS="$SPYRE_IDS" \ -e VLLM_MODEL_PATH=/models/granite-3.3-8b-instruct \ -e VLLM_SPYRE_USE_CB=1 \ --pids-limit 0 \ --userns=keep-id \ --group-add=keep-groups \ --memory 200GB \ --shm-size 64GB \ -p 8000:8000 \ registry.redhat.io/rhaiis/vllm-spyre:3.2.5 \ --model /models/granite-3.3-8b-instruct \ -tp 4 \ --max-model-len 32768 \ --max-num-seqs 32- RAG 嵌入
使用
lspci命令的输出选择一个 Spyre 卡 ID,例如:$ SPYRE_IDS="0384:80:00.0"Podman RAG 嵌入 inference 服务示例
$ podman run -d \ --device=/dev/vfio \ --name vllm-api \ -v $HOME/models:/models:Z \ -e VLLM_AIU_PCIE_IDS="$SPYRE_IDS" \ -e VLLM_MODEL_PATH=/models/granite-embedding-125m-english \ -e VLLM_SPYRE_WARMUP_PROMPT_LENS=64 \ -e VLLM_SPYRE_WARMUP_BATCH_SIZES=64 \ --pids-limit 0 \ --userns=keep-id \ --group-add=keep-groups \ --memory 200GB \ --shm-size 64GB \ -p 8000:8000 \ registry.redhat.io/rhaiis/vllm-spyre:3.2.5 \ --model /models/granite-embedding-125m-english \ -tp 1- re-ranker inference service
使用
lspci命令的输出选择一个 Spyre AI Accelerator 卡 ID,例如:$ SPYRE_IDS="0384:80:00.0"podman re-ranker inference 服务示例
$ podman run -d \ --device=/dev/vfio \ --name vllm-api \ -v $HOME/models:/models:Z \ -e VLLM_AIU_PCIE_IDS="$SPYRE_IDS" \ -e VLLM_MODEL_PATH=/models/bge-reranker-v2-m3 \ -e VLLM_SPYRE_WARMUP_PROMPT_LENS=1024 \ -e VLLM_SPYRE_WARMUP_BATCH_SIZES=4 \ --pids-limit 0 \ --userns=keep-id \ --group-add=keep-groups \ --memory 200GB \ --shm-size 64GB \ -p 8000:8000 \ registry.redhat.io/rhaiis/vllm-spyre:3.2.5 \ --model /models/bge-reranker-v2-m3 \ -tp 1