1.10. トークンとトークンクォータ制限
トークンとは、テキストを小さく分割したものであり、そのサイズは最小で 1 文字、最大で 1 単語となります。トークンは、OpenShift Lightspeed サービスが大規模言語モデル (LLM) に送信するテキストや、LLM から受信するテキストの量を定量化するのに使用される測定単位です。サービスおよび LLM とのすべてのやり取りはトークンでカウントされます。
トークンのクォータ制限は、特定の期間内に使用できるトークンの数を定義します。トークンのクォータ制限を実装すると、コストを制御し、クエリーのより効率的な使用を促進し、システムの需要を規制するのに役立ちます。マルチユーザー設定において、トークンのクォータ制限は、すべてのユーザーに均等なアクセスを提供し、誰もがクエリーを送信する機会を得られるようにするために役立ちます。
OpenShift クラスターまたは OpenShift ユーザーアカウントのトークンクォータ制限を定義できます。
1.10.1. トークンのクォータ制限の有効化 リンクのコピーリンクがクリップボードにコピーされました!
ConfigMap リソースでキーと値のペアを定義して、OpenShift Lightspeed サービスのトークンのクォータ制限をアクティブにします。OpenShift Lightspeed Pod は ConfigMap リソースをボリュームとしてマウントし、その中に保存されているファイルにアクセスできるようにします。OLSConfig カスタムリソース (CR) は、ConfigMap リソースを参照してクォータ制限情報を取得します。
前提条件
- OpenShift Lightspeed Operator がインストールされている。
- 大規模言語モデルプロバイダーが設定されている。
- PostgreSQL データベースが設定され、OpenShift Lightspeed サービスがデータベースにアクセスできる。
手順
次のコマンドを実行して、OpenShift Lightspeed
OLSconfigCR ファイルを開きます。oc edit olsconfig cluster
$ oc edit olsconfig clusterCopy to Clipboard Copied! Toggle word wrap Toggle overflow トークンのクォータ制限情報を含めるように
spec.ols.quotaHandlersConfig仕様を変更します。OpenShift Lightspeed
OLSConfigCR の例Copy to Clipboard Copied! Toggle word wrap Toggle overflow - 1
- ユーザーアカウントのトークン制限を指定します。
- 2
periodフィールドで指定された期間にわたって、各ユーザーに対して 100,000 のトークンクォータ制限を指定します。- 3
periodフィールドで指定された期間の終了時に、ユーザーのトークンクォータ制限を 1,000 増やします。- 4
- クラスターのトークン制限を指定します。
- 5
periodフィールドで指定された期間にわたって、各クラスターに対して 1,000,000 のトークンクォータ制限を指定します。- 6
periodフィールドで指定された期間の終了時に、クラスターのトークンクォータ制限を 100,000 増やします。- 7
- 期間がリセットされるか、クォータ制限が増加するまでスケジューラーが待機する時間の長さを定義します。
Save をクリックします。
保存操作によりファイルが保存され、変更が適用されてトークンのクォータ制限がアクティブになります。