第2章 サポート対象のモデルの圧縮ワークフロー
LLM Compressor は、トレーニング後の量子化をサポートしています。これは、モデルの精度を低下させることなく、モデルのサイズを縮小し、CPU とハードウェアアクセラレーターのパフォーマンスの遅延を改善する変換手法です。効率化された API は、提供されたデータセットに基づいて量子化またはスパース性を適用します。
次の高度なモデルタイプとデプロイメントワークフローがサポートされています。
- マルチモーダルモデル: ビジョン言語モデルが含まれています。
- Mixture of experts (MoE) モデル: DeepSeek や Mixtral などのモデルをサポートします。
- 大規模モデルのサポート: マルチ GPU および CPU オフロードに Hugging Face accelerate ライブラリーを使用します。
すべてのワークフローは Hugging Face と互換性があり、モデルを量子化、圧縮し、vLLM を使用してデプロイし、効率的な推論を行うことができます。LLM Compressor は、複数の圧縮アルゴリズムをサポートしています。
-
AWQ: 重みのみの
INT4量子化 -
GPTQ: 重みのみの
INT4量子化 - FP8: トークンごとの動的量子化
- SparseGPT: トレーニング後のスパース性
- SmoothQuant: 活性化量子化
これらの各圧縮方法は、重みとアクティベーションの最適なスケールとゼロポイントを計算します。最適化されたスケールは、テンソル、チャネル、グループ、またはトークンごとに設定できます。最終的に、すべての量子化パラメータが適用された圧縮済みモデルになります。