はじめに
LLM Compressor は、モデル圧縮に関する最新の研究を取り入れたオープンソースライブラリーで、作業を最小限に抑えながら、圧縮モデルを生成できます。
LLM Compressor フレームワークは、最新の量子化、スパース性、および一般的な圧縮技術を活用して、精度を維持しながら生成 AI モデルの効率、スケーラビリティー、およびパフォーマンスを向上させます。ネイティブでの Hugging Face および vLLM のサポートにより、最適化されたモデルをデプロイメントパイプラインにシームレスに統合し、圧縮テンソルモデル形式を活用して、大規模な推論を高速かつ低コストで実行できます。
LLM Compressor は開発者プレビュー機能です。開発者プレビュー機能は、Red Hat ではいかなる形でもサポートされていません。また、機能的には完全ではなく、実稼働環境に対応していません。開発者プレビュー機能は、実稼働ワークロードまたはビジネスクリティカルなワークロードには使用しないでください。開発者プレビュー機能は、Red Hat 製品オファリングに含まれる可能性がある前に、今後の製品機能への早期アクセスを提供し、お客様が機能をテストし、開発プロセス中にフィードバックを提供できるようにします。これらの機能にはドキュメントがない可能性があり、いつでも変更または削除される可能性があり、テストは制限されています。Red Hat は、関連する SLA なしで、開発者プレビュー機能に関するフィードバックを送信する方法を提供する場合があります。