第4章 環境変数
環境変数を使用して、AI Inference Server のシステムレベルのインストール、ビルド、ロギングの動作を設定できます。
VLLM_PORT
と VLLM_HOST_IP
は、AI Inference Server の 内部使用 向けのホストポートと IP アドレスを設定します。これは、API サーバーのポートおよび IP アドレスではありません。API サーバーを起動する時には --host $VLLM_HOST_IP
と --port $VLLM_PORT
を使用しないでください。
AI 推論サーバーが使用するすべての環境変数には、先頭に VLLM_
が付きます。Kubernetes を使用している場合は、サービスに vllm
という名前を付けないでください。この名前を指定すると、Kubernetes によって設定された環境変数が AI Inference Server 環境変数と競合する可能性があります。これは、Kubernetes が大文字のサービス名を接頭辞として各サービスの環境変数を設定するためです。詳細は、Kubernetes 環境変数 を参照してください。
環境変数 | 説明 |
---|---|
|
vLLM のターゲットデバイス |
| 並列に実行するコンパイルジョブの最大数。デフォルトでは、これは CPU の数です。 |
|
nvcc に使用するスレッドの数。デフォルトでは、これは 1 です。設定されている場合、CPU の過剰サブスクライブを避けるために |
| 設定されている場合、AI Inference Server はプリコンパイルされたバイナリー (\*.so) を使用します。 |
| テスト用に Python ビルドで毎晩作成される wheel を強制的に使用するかどうか。 |
| CMake ビルドタイプ。利用可能なオプション: "Debug", "Release", "RelWithDebInfo"。 |
| 設定されている場合、AI Inference Server はインストール中に詳細なログを出力します。 |
| AI Inference Server 設定ファイルのルートディレクトリー。 |
| AI Inference Server キャッシュファイルのルートディレクトリー。 |
| 分散環境で現在のノードの IP アドレスを決定するために使用されます。 |
| 分散環境で通信ポートを手動で設定するために使用されます。 |
| フロントエンド API サーバーがマルチプロセスモードで実行されているときに IPC に使用されるパス。 |
| true の場合、Hugging Face Hub ではなく ModelScope からモデルがロードされます。 |
| リングバッファーがいっぱいになったときに警告メッセージを記録する間隔 (秒)。 |
| cudatoolkit ホームディレクトリーへのパス。このディレクトリーの下に bin、include、lib ディレクトリーがあります。 |
| NCCL ライブラリーファイルへのパス。PyTorch のバグのため、NCCL バージョン 2.19 以降で必要です。 |
|
|
| AI Inference Server で Triton Flash Attention を使用するかどうかを制御するフラグ。 |
| AI Inference Server に特定の flash-attention バージョン (2 または 3) を使用するように強制します。これは flash-attention バックエンドでのみ有効です。 |
| Dynamo フルグラフキャプチャーを有効にする内部フラグ。 |
| 分散設定におけるプロセスのローカルランク。GPU デバイス ID を決定するために使用されます。 |
| 分散設定で可視デバイスを制御するために使用されます。 |
| エンジン内の反復ごとのタイムアウト。 |
| AI Inference Server API サーバーの API キー。 |
| tensorizer が S3 からモデルをロードするための S3 アクセスキー ID。 |
| tensorizer が S3 からモデルをロードするための S3 シークレットアクセスキー。 |
| tensorizer が S3 からモデルをロードするための S3 エンドポイント URL。 |
| AI Inference Server 使用統計サーバーの URL。 |
| true の場合、使用状況統計の収集が無効になります。 |
| true の場合、AI Inference Server 使用状況統計の追跡を無効にします。 |
| 使用状況統計収集のソース。 |
| 1 に設定すると、AI Inference Server はデフォルトの設定または指定された設定パスを使用してロギングを設定します。 |
| ロギング設定ファイルへのパス。 |
| vLLM のデフォルトのログレベル。 |
| 設定されている場合、AI Inference Server はこの接頭辞をすべてのログメッセージの先頭に追加します。 |
| カスタムの logits プロセッサーに使用されるスレッドの数。 |
| 1 に設定すると、AI Inference Server はデバッグ用に関数呼び出しをトレースします。 |
| 注意計算のバックエンド (例: "TORCH_SDPA", "FLASH_ATTN", "XFORMERS")。 |
| 設定されている場合、AI Inference Server は FlashInfer サンプラーを使用します。 |
| FlashInfer にテンソルコアの使用を強制します。それ以外の場合はヒューリスティックを使用します。 |
| パイプラインステージのパーティションストラテジー。 |
| CPU キー値キャッシュスペース (デフォルトは 4 GB)。 |
| OpenMP スレッドによってバインドされる CPU コア ID。 |
| サポートされていない CPU 上の MoE レイヤーにプレパックを使用するかどうか。 |
| OpenVINO デバイスの選択 (デフォルトは CPU)。 |
| OpenVINO キー値キャッシュスペース (デフォルトは 4GB)。 |
| OpenVINO KV キャッシュの精度。 |
| HF Optimum を使用してモデルのエクスポート中に重みの圧縮を有効にします。 |
| すべてのワーカーでの実行に Ray SPMD ワーカーを有効にします。 |
| Ray が提供する Compiled Graph API を使用して、コントロールプレーンのオーバーヘッドを最適化します。 |
| Ray が提供するコンパイル済みグラフで NCCL 通信を有効にします。 |
| Ray が提供するコンパイル済みグラフで GPU 通信のオーバーラップを有効にします。 |
| マルチプロセスワーカーの方法 (例: "fork") を指定します。 |
| ダウンロードしたアセットを保存するためのキャッシュへのパス。 |
| マルチモーダルモデルを提供するときにイメージを取得するためのタイムアウト (デフォルトは 5 秒)。 |
| マルチモーダルモデルを提供するときにビデオを取得するためのタイムアウト (デフォルトは 30 秒)。 |
| マルチモーダルモデルを提供するときにオーディオを取得するためのタイムアウト (デフォルトは 10 秒)。 |
| マルチモーダルの入力キャッシュのキャッシュサイズ (GiB 単位) (デフォルトは 8GiB)。 |
| XLA 永続キャッシュディレクトリーへのパス (XLA デバイスのみ)。 |
| 設定されている場合、各実行ステップの後に XLA の再コンパイルをアサートします。 |
| 融合された MoE レイヤーのチャンクサイズ (デフォルトは 32768)。 |
| true の場合、非推奨の警告をスキップします。 |
| true の場合、エンジンエラーが発生した後でも OpenAI API サーバーを稼働状態に保ちます。 |
| モデルのデフォルトの長さよりも大きい最大シーケンス長を指定できます。 |
| ハードウェアのサポートに関係なく、FP8 量子化に FP8 Marlin を強制的に指定します。 |
| 特定のロード形式を強制的に指定します。 |
| バックエンドサーバーからレスポンスを取得するタイムアウト。 |
| ロードするプラグインの一覧。 |
| Torch プロファイラートレースを保存するためのディレクトリー。 |
| 設定されている場合、AWQ の Triton 実装が使用されます。 |
| 設定されている場合、実行時に Lora アダプターの更新を許可します。 |
| ピアツーピア機能チェックをスキップします。 |
| パフォーマンス比較のために無効にする量子化カーネルのリスト。 |
| 設定されている場合、V1 コードパスが使用されます。 |
| ROCm の FP8 重みを 256 バイトにパディングします。 |
| FP8 KV キャッシュの動的クエリースケール係数計算の除数。 |
| FP8 KV キャッシュの動的キースケール係数計算用の除数。 |
| FP8 KV キャッシュの動的値スケール係数計算用の除数。 |
| 設定されている場合、V1 コードパスの LLM でマルチプロセッシングが有効になります。 |
| バッチサイズを記録する時間間隔。 |
|
設定されている場合、AI Inference Server は開発モードで実行され、デバッグ用の追加エンドポイント (例 |
VLLM_V1_OUTPUT_PROC_CHUNK_SIZE | V1 AsyncLLM インターフェイスでトークンごとの出力を処理するために、単一の asyncio タスクで処理するリクエストの最大数を制御します。これは、同時多発的なストリーミングリクエストに影響します。 |
| 設定されている場合、AI Inference Server は MLA アテンション最適化を無効にします。 |
|
設定されている場合、AI Inference Server は |
| Ray のワーカーあたりの GPU の数。Ray が単一の GPU 上で複数のアクターをスケジュールできるように、小数に指定できます。 |
| 各ワーカーの Ray バンドルに使用されるインデックスを指定します。形式: 整数のコンマ区切りリスト (例: "0,1,2,3")。 |
|
|
| Gaudi3 でコストのかかる収集操作を回避するために、連続したキャッシュのフェッチを有効にします。HPU 連続キャッシュのみが対象です。 |
| データ並列設定におけるプロセスのランク。 |
| データ並列設定のワールドサイズ。 |
| データ並列設定におけるマスターノードの IP アドレス。 |
| データ並列設定におけるマスターノードのポート。 |
| RunAI Streamer を使用して CI でモデルをロードするために S3 パスを使用するかどうか。 |
| gptq/awq marlin カーネルで atomicAdd reduce を使用するかどうか。 |
| V0 のアウトラインキャッシュをオンにするかどうか。このキャッシュは上限がなく、ディスク上にあるため、悪意のあるユーザーが含まれる環境では安全ではありません。 |
| 設定されている場合、top-k および top-p サンプリングに対する TPU 固有の最適化が無効になります。 |