第3章 Red Hat AI Inference Server および vLLM との統合
LLM Compressor を使用して作成した量子化モデルとスパースモデルは compressed-tensors
ライブラリー (Safetensors の拡張) を使用して保存されます。圧縮形式は、モデルの量子化またはスパース性のタイプと一致します。これらの形式は vLLM でネイティブにサポートされているため、Red Hat AI Inference Server やその他の推論プロバイダーを使用して、最適化されたデプロイメントカーネルを通じて高速な推論が可能になります。