第4章 環境変数


環境変数を使用して、AI Inference Server のシステムレベルのインストール、ビルド、ロギングの動作を設定できます。

重要

VLLM_PORTVLLM_HOST_IP は、AI Inference Server の 内部使用 向けのホストポートと IP アドレスを設定します。これは、API サーバーのポートおよび IP アドレスではありません。API サーバーを起動する時には --host $VLLM_HOST_IP--port $VLLM_PORT を使用しないでください。

重要

AI 推論サーバーが使用するすべての環境変数には、先頭に VLLM_ が付きます。Kubernetes を使用している場合は、サービスに vllm という名前を付けないでください。この名前を指定すると、Kubernetes によって設定された環境変数が AI Inference Server 環境変数と競合する可能性があります。これは、Kubernetes が大文字のサービス名を接頭辞として各サービスの環境変数を設定するためです。詳細は、Kubernetes 環境変数 を参照してください。

Expand
表4.1 AI Inference Server 環境変数
環境変数説明

VLLM_TARGET_DEVICE

vLLM のターゲットデバイス cuda (デフォルト)、rocmneuroncpuopenvino をサポートします。

MAX_JOBS

並列に実行するコンパイルジョブの最大数。デフォルトでは、これは CPU の数です。

NVCC_THREADS

nvcc に使用するスレッドの数。デフォルトでは、これは 1 です。設定されている場合、CPU の過剰サブスクライブを避けるために MAX_JOBS を減らします。

VLLM_USE_PRECOMPILED

設定されている場合、AI Inference Server はプリコンパイルされたバイナリー (\*.so) を使用します。

VLLM_TEST_USE_PRECOMPILED_NIGHTLY_WHEEL

テスト用に Python ビルドで毎晩作成される wheel を強制的に使用するかどうか。

CMAKE_BUILD_TYPE

CMake ビルドタイプ。利用可能なオプション: "Debug", "Release", "RelWithDebInfo"。

VERBOSE

設定されている場合、AI Inference Server はインストール中に詳細なログを出力します。

VLLM_CONFIG_ROOT

AI Inference Server 設定ファイルのルートディレクトリー。

VLLM_CACHE_ROOT

AI Inference Server キャッシュファイルのルートディレクトリー。

VLLM_HOST_IP

分散環境で現在のノードの IP アドレスを決定するために使用されます。

VLLM_PORT

分散環境で通信ポートを手動で設定するために使用されます。

VLLM_RPC_BASE_PATH

フロントエンド API サーバーがマルチプロセスモードで実行されているときに IPC に使用されるパス。

VLLM_USE_MODELSCOPE

true の場合、Hugging Face Hub ではなく ModelScope からモデルがロードされます。

VLLM_RINGBUFFER_WARNING_INTERVAL

リングバッファーがいっぱいになったときに警告メッセージを記録する間隔 (秒)。

CUDA_HOME

cudatoolkit ホームディレクトリーへのパス。このディレクトリーの下に bin、include、lib ディレクトリーがあります。

VLLM_NCCL_SO_PATH

NCCL ライブラリーファイルへのパス。PyTorch のバグのため、NCCL バージョン 2.19 以降で必要です。

LD_LIBRARY_PATH

VLLM_NCCL_SO_PATH が設定されていない場合に使用され、AI Inference Server はこのパスで NCCL ライブラリーを見つけようとします。

VLLM_USE_TRITON_FLASH_ATTN

AI Inference Server で Triton Flash Attention を使用するかどうかを制御するフラグ。

VLLM_FLASH_ATTN_VERSION

AI Inference Server に特定の flash-attention バージョン (2 または 3) を使用するように強制します。これは flash-attention バックエンドでのみ有効です。

VLLM_TEST_DYNAMO_FULLGRAPH_CAPTURE

Dynamo フルグラフキャプチャーを有効にする内部フラグ。

LOCAL_RANK

分散設定におけるプロセスのローカルランク。GPU デバイス ID を決定するために使用されます。

CUDA_VISIBLE_DEVICES

分散設定で可視デバイスを制御するために使用されます。

VLLM_ENGINE_ITERATION_TIMEOUT_S

エンジン内の反復ごとのタイムアウト。

VLLM_API_KEY

AI Inference Server API サーバーの API キー。

S3_ACCESS_KEY_ID

tensorizer が S3 からモデルをロードするための S3 アクセスキー ID。

S3_SECRET_ACCESS_KEY

tensorizer が S3 からモデルをロードするための S3 シークレットアクセスキー。

S3_ENDPOINT_URL

tensorizer が S3 からモデルをロードするための S3 エンドポイント URL。

VLLM_USAGE_STATS_SERVER

AI Inference Server 使用統計サーバーの URL。

VLLM_NO_USAGE_STATS

true の場合、使用状況統計の収集が無効になります。

VLLM_DO_NOT_TRACK

true の場合、AI Inference Server 使用状況統計の追跡を無効にします。

VLLM_USAGE_SOURCE

使用状況統計収集のソース。

VLLM_CONFIGURE_LOGGING

1 に設定すると、AI Inference Server はデフォルトの設定または指定された設定パスを使用してロギングを設定します。

VLLM_LOGGING_CONFIG_PATH

ロギング設定ファイルへのパス。

VLLM_LOGGING_LEVEL

vLLM のデフォルトのログレベル。

VLLM_LOGGING_PREFIX

設定されている場合、AI Inference Server はこの接頭辞をすべてのログメッセージの先頭に追加します。

VLLM_LOGITS_PROCESSOR_THREADS

カスタムの logits プロセッサーに使用されるスレッドの数。

VLLM_TRACE_FUNCTION

1 に設定すると、AI Inference Server はデバッグ用に関数呼び出しをトレースします。

VLLM_ATTENTION_BACKEND

注意計算のバックエンド (例: "TORCH_SDPA", "FLASH_ATTN", "XFORMERS")。

VLLM_USE_FLASHINFER_SAMPLER

設定されている場合、AI Inference Server は FlashInfer サンプラーを使用します。

VLLM_FLASHINFER_FORCE_TENSOR_CORES

FlashInfer にテンソルコアの使用を強制します。それ以外の場合はヒューリスティックを使用します。

VLLM_PP_LAYER_PARTITION

パイプラインステージのパーティションストラテジー。

VLLM_CPU_KVCACHE_SPACE

CPU キー値キャッシュスペース (デフォルトは 4 GB)。

VLLM_CPU_OMP_THREADS_BIND

OpenMP スレッドによってバインドされる CPU コア ID。

VLLM_CPU_MOE_PREPACK

サポートされていない CPU 上の MoE レイヤーにプレパックを使用するかどうか。

VLLM_OPENVINO_DEVICE

OpenVINO デバイスの選択 (デフォルトは CPU)。

VLLM_OPENVINO_KVCACHE_SPACE

OpenVINO キー値キャッシュスペース (デフォルトは 4GB)。

VLLM_OPENVINO_CPU_KV_CACHE_PRECISION

OpenVINO KV キャッシュの精度。

VLLM_OPENVINO_ENABLE_QUANTIZED_WEIGHTS

HF Optimum を使用してモデルのエクスポート中に重みの圧縮を有効にします。

VLLM_USE_RAY_SPMD_WORKER

すべてのワーカーでの実行に Ray SPMD ワーカーを有効にします。

VLLM_USE_RAY_COMPILED_DAG

Ray が提供する Compiled Graph API を使用して、コントロールプレーンのオーバーヘッドを最適化します。

VLLM_USE_RAY_COMPILED_DAG_NCCL_CHANNEL

Ray が提供するコンパイル済みグラフで NCCL 通信を有効にします。

VLLM_USE_RAY_COMPILED_DAG_OVERLAP_COMM

Ray が提供するコンパイル済みグラフで GPU 通信のオーバーラップを有効にします。

VLLM_WORKER_MULTIPROC_METHOD

マルチプロセスワーカーの方法 (例: "fork") を指定します。

VLLM_ASSETS_CACHE

ダウンロードしたアセットを保存するためのキャッシュへのパス。

VLLM_IMAGE_FETCH_TIMEOUT

マルチモーダルモデルを提供するときにイメージを取得するためのタイムアウト (デフォルトは 5 秒)。

VLLM_VIDEO_FETCH_TIMEOUT

マルチモーダルモデルを提供するときにビデオを取得するためのタイムアウト (デフォルトは 30 秒)。

VLLM_AUDIO_FETCH_TIMEOUT

マルチモーダルモデルを提供するときにオーディオを取得するためのタイムアウト (デフォルトは 10 秒)。

VLLM_MM_INPUT_CACHE_GIB

マルチモーダルの入力キャッシュのキャッシュサイズ (GiB 単位) (デフォルトは 8GiB)。

VLLM_XLA_CACHE_PATH

XLA 永続キャッシュディレクトリーへのパス (XLA デバイスのみ)。

VLLM_XLA_CHECK_RECOMPILATION

設定されている場合、各実行ステップの後に XLA の再コンパイルをアサートします。

VLLM_FUSED_MOE_CHUNK_SIZE

融合された MoE レイヤーのチャンクサイズ (デフォルトは 32768)。

VLLM_NO_DEPRECATION_WARNING

true の場合、非推奨の警告をスキップします。

VLLM_KEEP_ALIVE_ON_ENGINE_DEATH

true の場合、エンジンエラーが発生した後でも OpenAI API サーバーを稼働状態に保ちます。

VLLM_ALLOW_LONG_MAX_MODEL_LEN

モデルのデフォルトの長さよりも大きい最大シーケンス長を指定できます。

VLLM_TEST_FORCE_FP8_MARLIN

ハードウェアのサポートに関係なく、FP8 量子化に FP8 Marlin を強制的に指定します。

VLLM_TEST_FORCE_LOAD_FORMAT

特定のロード形式を強制的に指定します。

VLLM_RPC_TIMEOUT

バックエンドサーバーからレスポンスを取得するタイムアウト。

VLLM_PLUGINS

ロードするプラグインの一覧。

VLLM_TORCH_PROFILER_DIR

Torch プロファイラートレースを保存するためのディレクトリー。

VLLM_USE_TRITON_AWQ

設定されている場合、AWQ の Triton 実装が使用されます。

VLLM_ALLOW_RUNTIME_LORA_UPDATING

設定されている場合、実行時に Lora アダプターの更新を許可します。

VLLM_SKIP_P2P_CHECK

ピアツーピア機能チェックをスキップします。

VLLM_DISABLED_KERNELS

パフォーマンス比較のために無効にする量子化カーネルのリスト。

VLLM_USE_V1

設定されている場合、V1 コードパスが使用されます。

VLLM_ROCM_FP8_PADDING

ROCm の FP8 重みを 256 バイトにパディングします。

Q_SCALE_CONSTANT

FP8 KV キャッシュの動的クエリースケール係数計算の除数。

K_SCALE_CONSTANT

FP8 KV キャッシュの動的キースケール係数計算用の除数。

V_SCALE_CONSTANT

FP8 KV キャッシュの動的値スケール係数計算用の除数。

VLLM_ENABLE_V1_MULTIPROCESSING

設定されている場合、V1 コードパスの LLM でマルチプロセッシングが有効になります。

VLLM_LOG_BATCHSIZE_INTERVAL

バッチサイズを記録する時間間隔。

VLLM_SERVER_DEV_MODE

設定されている場合、AI Inference Server は開発モードで実行され、デバッグ用の追加エンドポイント (例 :/reset_prefix_cache) が有効になります。

VLLM_V1_OUTPUT_PROC_CHUNK_SIZE

V1 AsyncLLM インターフェイスでトークンごとの出力を処理するために、単一の asyncio タスクで処理するリクエストの最大数を制御します。これは、同時多発的なストリーミングリクエストに影響します。

VLLM_MLA_DISABLE

設定されている場合、AI Inference Server は MLA アテンション最適化を無効にします。

VLLM_ENABLE_MOE_ALIGN_BLOCK_SIZE_TRITON

設定されている場合、AI Inference Server は moe_align_block_size の Triton 実装を使用します (例: fused_moe.pymoe_align_block_size_triton)。

VLLM_RAY_PER_WORKER_GPUS

Ray のワーカーあたりの GPU の数。Ray が単一の GPU 上で複数のアクターをスケジュールできるように、小数に指定できます。

VLLM_RAY_BUNDLE_INDICES

各ワーカーの Ray バンドルに使用されるインデックスを指定します。形式: 整数のコンマ区切りリスト (例: "0,1,2,3")。

VLLM_CUDART_SO_PATH

find_loaded_library() メソッドが正しく動作しない可能性がある場合に、そのパスを指定します。VLLM_CUDART_SO_PATH 環境変数を使用して設定します。

VLLM_USE_HPU_CONTIGUOUS_CACHE_FETCH

Gaudi3 でコストのかかる収集操作を回避するために、連続したキャッシュのフェッチを有効にします。HPU 連続キャッシュのみが対象です。

VLLM_DP_RANK

データ並列設定におけるプロセスのランク。

VLLM_DP_SIZE

データ並列設定のワールドサイズ。

VLLM_DP_MASTER_IP

データ並列設定におけるマスターノードの IP アドレス。

VLLM_DP_MASTER_PORT

データ並列設定におけるマスターノードのポート。

VLLM_CI_USE_S3

RunAI Streamer を使用して CI でモデルをロードするために S3 パスを使用するかどうか。

VLLM_MARLIN_USE_ATOMIC_ADD

gptq/awq marlin カーネルで atomicAdd reduce を使用するかどうか。

VLLM_V0_USE_OUTLINES_CACHE

V0 のアウトラインキャッシュをオンにするかどうか。このキャッシュは上限がなく、ディスク上にあるため、悪意のあるユーザーが含まれる環境では安全ではありません。

VLLM_TPU_DISABLE_TOPK_TOPP_OPTIMIZATION

設定されている場合、top-k および top-p サンプリングに対する TPU 固有の最適化が無効になります。

トップに戻る
Red Hat logoGithubredditYoutubeTwitter

詳細情報

試用、購入および販売

コミュニティー

Red Hat ドキュメントについて

Red Hat をお使いのお客様が、信頼できるコンテンツが含まれている製品やサービスを活用することで、イノベーションを行い、目標を達成できるようにします。 最新の更新を見る.

多様性を受け入れるオープンソースの強化

Red Hat では、コード、ドキュメント、Web プロパティーにおける配慮に欠ける用語の置き換えに取り組んでいます。このような変更は、段階的に実施される予定です。詳細情報: Red Hat ブログ.

会社概要

Red Hat は、企業がコアとなるデータセンターからネットワークエッジに至るまで、各種プラットフォームや環境全体で作業を簡素化できるように、強化されたソリューションを提供しています。

Theme

© 2025 Red Hat