第1章 大規模な言語モデルの最適化
AI アプリケーションが成熟し、新しい圧縮アルゴリズムが公開されるにつれて、ユーザーの推論要件に固有のさまざまな圧縮アルゴリズムを適用でき、アクセラレーションされたハードウェアで実行するように最適化された、統合ツールが必要になります。
大規模言語モデル (LLM) を最適化するには、モデルのサイズ、推論速度、精度という 3 つの重要な要素のバランスを取る必要があります。これらの要因のいずれかを改善することで、他の要因に悪影響を及ぼす可能性があります。たとえば、モデルの精度を上げるには、通常、より多くのパラメーターが必要となります。その結果、モデルが大きくなり、推論に時間がかかる可能性があります。これらの要素を両立させることが、LLM を提供するときの主な課題の 1 つです。
Red Hat AI Model Optimization Toolkit を使用すると、量子化、スパース性、圧縮などのモデル最適化手法を実行して、メモリー使用量とモデルサイズを削減し、モデル応答の精度に影響を与えずに推論を改善できます。Red Hat AI Model Optimization Toolkit では、次の圧縮方法がサポートされています。
- 量子化
-
モデルの重みとアクティベーションを
int8などの低ビット形式に変換し、メモリー使用量を削減します。 - スパース性
- 多くの場合は固定パターンでモデルの重みの一部をゼロに設定し、より効率的な計算を可能にします。
- 圧縮
- 保存されたモデルファイルのサイズを縮小し、パフォーマンスへの影響を最小限に抑えます。
これらの方法を組み合わせて使用すると、リソースに限りのあるハードウェアでモデルをより効率的にデプロイできます。