第2章 サポート対象のモデルの圧縮ワークフロー


LLM Compressor は、トレーニング後の量子化をサポートしています。これは、モデルの精度を低下させることなく、モデルのサイズを縮小し、CPU とハードウェアアクセラレーターのパフォーマンスの遅延を改善する変換手法です。効率化された API は、提供されたデータセットに基づいて量子化またはスパース性を適用します。

次の高度なモデルタイプとデプロイメントワークフローがサポートされています。

  • マルチモーダルモデル: ビジョン言語モデルが含まれています。
  • Mixture of experts (MoE) モデル: DeepSeek や Mixtral などのモデルをサポートし、NVFP4 量子化を含むキャリブレーションをサポートしています。
  • 大規模モデルのサポート: マルチ GPU および CPU オフロードに Hugging Face accelerate ライブラリーを使用します。
  • 単一モデルに複数の量子化方式を適用: NVFP4 と FP8 量子化の組み合わせなど、不均一な量子化をサポートしています。

すべてのワークフローは Hugging Face と互換性があり、モデルを量子化、圧縮し、vLLM を使用してデプロイし、効率的な推論を行うことができます。LLM Compressor は、複数の圧縮アルゴリズムをサポートしています。

  • AWQ: 重みのみの INT4 量子化
  • GPTQ: 重みのみの INT4 量子化
  • FP8: トークンごとの動的量子化と DeepSeekV3 スタイルのブロック量子化
  • SparseGPT: トレーニング後のスパース性
  • SmoothQuant: アクティベーションの量子化
  • QuIP 変換: 重みとアクティベーションの量子化
  • SpinQuant 変換: 重みとアクティベーションの量子化

これらの各圧縮方法は、重みとアクティベーションの最適なスケールとゼロポイントを計算します。最適化されたスケールは、テンソル、チャネル、グループ、またはトークンごとに設定できます。最終的に、すべての量子化パラメータが適用された圧縮済みモデルになります。

トップに戻る
Red Hat logoGithubredditYoutubeTwitter

詳細情報

試用、購入および販売

コミュニティー

Red Hat ドキュメントについて

Red Hat をお使いのお客様が、信頼できるコンテンツが含まれている製品やサービスを活用することで、イノベーションを行い、目標を達成できるようにします。 最新の更新を見る.

多様性を受け入れるオープンソースの強化

Red Hat では、コード、ドキュメント、Web プロパティーにおける配慮に欠ける用語の置き換えに取り組んでいます。このような変更は、段階的に実施される予定です。詳細情報: Red Hat ブログ.

会社概要

Red Hat は、企業がコアとなるデータセンターからネットワークエッジに至るまで、各種プラットフォームや環境全体で作業を簡素化できるように、強化されたソリューションを提供しています。

Theme

© 2025 Red Hat