7.2. IBM Power 上の IBM Spyre AI アクセラレーターの推論提供設定の例
次の例は、IBM Spyre AI アクセラレーターと IBM Power 上の一般的な Red Hat AI 推論サーバーのワークロードを示しています。
- エンティティー抽出
lspciコマンドの出力が含まれる Spyre カード ID を 1 つ選択します。以下に例を示します。$ SPYRE_IDS="0381:50:00.0"Podman エンティティー抽出の例
$ podman run -d \ --device=/dev/vfio \ --name vllm-api \ -v $HOME/models:/models:Z \ -e VLLM_AIU_PCIE_IDS="$SPYRE_IDS" \ -e VLLM_SPYRE_USE_CB=1 \ --pids-limit 0 \ --userns=keep-id \ --group-add=keep-groups \ --memory 100GB \ --shm-size 64GB \ -p 8000:8000 \ registry.redhat.io/rhaiis/vllm-spyre:3.2.5 \ --model /models/granite-3.3-8b-instruct \ -tp 1 \ --max-model-len 3072 \ --max-num-seqs 16- RAG の推論提供
lspciコマンドの出力で、4 Spyre カード ID を選択します。以下に例を示します。$ SPYRE_IDS="0381:50:00.0 0382:60:00.0 0383:70:00.0 0384:80:00.0"Podman RAG inference serving example
$ podman run -d \ --device=/dev/vfio \ --name vllm-api \ -v $HOME/models:/models:Z \ -e VLLM_AIU_PCIE_IDS="$SPYRE_IDS" \ -e VLLM_MODEL_PATH=/models/granite-3.3-8b-instruct \ -e VLLM_SPYRE_USE_CB=1 \ --pids-limit 0 \ --userns=keep-id \ --group-add=keep-groups \ --memory 200GB \ --shm-size 64GB \ -p 8000:8000 \ registry.redhat.io/rhaiis/vllm-spyre:3.2.5 \ --model /models/granite-3.3-8b-instruct \ -tp 4 \ --max-model-len 32768 \ --max-num-seqs 32- RAG 埋め込み
lspciコマンドの出力が含まれる Spyre カード ID を 1 つ選択します。以下に例を示します。$ SPYRE_IDS="0384:80:00.0"Podman RAG 埋め込み会議の例
$ podman run -d \ --device=/dev/vfio \ --name vllm-api \ -v $HOME/models:/models:Z \ -e VLLM_AIU_PCIE_IDS="$SPYRE_IDS" \ -e VLLM_MODEL_PATH=/models/granite-embedding-125m-english \ -e VLLM_SPYRE_WARMUP_PROMPT_LENS=64 \ -e VLLM_SPYRE_WARMUP_BATCH_SIZES=64 \ --pids-limit 0 \ --userns=keep-id \ --group-add=keep-groups \ --memory 200GB \ --shm-size 64GB \ -p 8000:8000 \ registry.redhat.io/rhaiis/vllm-spyre:3.2.5 \ --model /models/granite-embedding-125m-english \ -tp 1- Re-ranker inference serving
lspciコマンドの出力が含まれる Spyre AI アクセラレーターカード ID を 1 つ選択します。以下に例を示します。$ SPYRE_IDS="0384:80:00.0"Podman re-ranker inference serving の例
$ podman run -d \ --device=/dev/vfio \ --name vllm-api \ -v $HOME/models:/models:Z \ -e VLLM_AIU_PCIE_IDS="$SPYRE_IDS" \ -e VLLM_MODEL_PATH=/models/bge-reranker-v2-m3 \ -e VLLM_SPYRE_WARMUP_PROMPT_LENS=1024 \ -e VLLM_SPYRE_WARMUP_BATCH_SIZES=4 \ --pids-limit 0 \ --userns=keep-id \ --group-add=keep-groups \ --memory 200GB \ --shm-size 64GB \ -p 8000:8000 \ registry.redhat.io/rhaiis/vllm-spyre:3.2.5 \ --model /models/bge-reranker-v2-m3 \ -tp 1