第4章 JobSet Operator
4.1. JobSet Operator の概要 リンクのコピーリンクがクリップボードにコピーされました!
OpenShift Container Platform で JobSet Operator を使用して、高パフォーマンスコンピューティング(HPC)や AI トレーニングなどの大規模なワークロードを簡単に管理および実行できます。JobSet Operator は、マルチテンプレートジョブサポートや安定したネットワークなどの機能を通じて、迅速な回復と効率的なリソース使用を実現するのに役立ちます。
JobSet Operator はテクノロジープレビュー機能のみです。テクノロジープレビュー機能は、Red Hat 製品のサービスレベルアグリーメント (SLA) の対象外であり、機能的に完全ではないことがあります。Red Hat は、実稼働環境でこれらを使用することを推奨していません。テクノロジープレビュー機能は、最新の製品機能をいち早く提供して、開発段階で機能のテストを行い、フィードバックを提供していただくことを目的としています。
Red Hat のテクノロジープレビュー機能のサポート範囲に関する詳細は、テクノロジープレビュー機能のサポート範囲 を参照してください。
4.1.1. JobSet Operator について リンクのコピーリンクがクリップボードにコピーされました!
OpenShift Container Platform で JobSet Operator を使用して、高パフォーマンスコンピューティング(HPC)または人工知能(AI)のトレーニングなどの大規模で分散されたコンピューティングワークロードを管理し、自動安定性、コーディネーション、障害復旧を行います。
JobSet Operator は JobSet オープンソースプロジェクトに基づいています。
JobSet Operator は、ジョブのグループを単一の調整されたユニットとして管理するように設計されています。これは、HPC などのフィールドや、時間または日の機械のチームを必要とする大規模な AI モデルをトレーニングする場合に役立ちます。
JobSet Operator を使用して、標準の OpenShift Container Platform ジョブに対して大きすぎるか、複雑すぎる問題を解決できます。JobSet Operator は、調整、安定性、およびリカバリーを提供します。
JobSet Operator は、安定したヘッドレスサービスを自動的に設定して、IP アドレスを取得し、ワーカーが障害や再起動後にもお互いを見つけ、通信できるようにします。また、自動障害回復も提供します。大規模なトレーニングジョブの 1 つの部分が失敗した場合、Operator は、保存されたチェックポイントからワーカーのグループ全体を再起動するように設定できます。これにより、時間とコンピューティングコストを節約できます。
JobSet Operator は起動制御を提供し、特定の起動シーケンスを定義でき、依存関係が満たされていることを確認できます。たとえば、ワーカーの接続を試みる前にリーダーが実行されていることを確認してください。
JobSet Operator は、OpenShift Container Platform での大規模で分散されたコンピューティングタスクの管理を容易にし、多数の個別コンポーネントを 1 つの回復性があり、管理可能なシステムに変換します。