第2章 サポート対象のモデルの圧縮ワークフロー
LLM Compressor は、トレーニング後の量子化をサポートしています。これは、モデルの精度を低下させることなく、モデルのサイズを縮小し、CPU とハードウェアアクセラレーターのパフォーマンスの遅延を改善する変換手法です。効率化された API は、提供されたデータセットに基づいて量子化またはスパース性を適用します。
次の高度なモデルタイプとデプロイメントワークフローがサポートされています。
- マルチモーダルモデル: ビジョン言語モデルが含まれています。
- Mixture of experts (MoE) モデル: DeepSeek や Mixtral などのモデルをサポートし、NVFP4 量子化を含むキャリブレーションをサポートしています。
- 大規模モデルのサポート: マルチ GPU および CPU オフロードに Hugging Face accelerate ライブラリーを使用します。
- 単一モデルに複数の量子化方式を適用: NVFP4 と FP8 量子化の組み合わせなど、不均一な量子化をサポートしています。
すべてのワークフローは Hugging Face と互換性があり、モデルを量子化、圧縮し、vLLM を使用してデプロイし、効率的な推論を行うことができます。LLM Compressor は、複数の圧縮アルゴリズムをサポートしています。
-
AWQ: 重みのみの
INT4量子化 -
GPTQ: 重みのみの
INT4量子化 - FP8: トークンごとの動的量子化と DeepSeekV3 スタイルのブロック量子化
- SparseGPT: トレーニング後のスパース性
- SmoothQuant: アクティベーションの量子化
- QuIP 変換: 重みとアクティベーションの量子化
- SpinQuant 変換: 重みとアクティベーションの量子化
これらの各圧縮方法は、重みとアクティベーションの最適なスケールとゼロポイントを計算します。最適化されたスケールは、テンソル、チャネル、グループ、またはトークンごとに設定できます。最終的に、すべての量子化パラメータが適用された圧縮済みモデルになります。