第4章 JobSet Operator
4.1. JobSet Operator の概要 リンクのコピーリンクがクリップボードにコピーされました!
OpenShift Container Platform の JobSet Operator を使用すると、高性能コンピューティング (HPC) や AI トレーニングなどの大規模で調整されたワークロードを簡単に管理および実行できます。JobSet Operator は、マルチテンプレートジョブのサポートや安定したネットワークなどの機能を通じて、迅速な回復と効率的なリソース使用を実現します。
JobSet Operator はテクノロジープレビュー機能です。テクノロジープレビュー機能は、Red Hat 製品のサービスレベルアグリーメント (SLA) の対象外であり、機能的に完全ではないことがあります。Red Hat は、実稼働環境でこれらを使用することを推奨していません。テクノロジープレビュー機能は、最新の製品機能をいち早く提供して、開発段階で機能のテストを行い、フィードバックを提供していただくことを目的としています。
Red Hat のテクノロジープレビュー機能のサポート範囲に関する詳細は、テクノロジープレビュー機能のサポート範囲 を参照してください。
4.1.1. JobSet Operator について リンクのコピーリンクがクリップボードにコピーされました!
OpenShift Container Platform の JobSet Operator を使用すると、高性能コンピューティング (HPC) や人工知能 (AI) トレーニングなどの大規模で分散および調整されたコンピューティングワークロードを管理して、自動的な安定、調整、障害復旧を実現できます。
JobSet Operator は、JobSet オープンソースプロジェクトをベースとしています。
JobSet Operator は、ジョブのグループを単一の調整されたユニットとして管理するように設計されています。これは、一連のマシンをチームとして数時間または数日間実行する必要のある、HPC や大規模 AI モデルのトレーニングなどの分野で特に役立ちます。
JobSet Operator を使用すると、標準的な OpenShift Container Platform ジョブにおいては大きすぎる、または複雑すぎる問題を解決できます。JobSet Operator は調整、安定性、および回復を行います。
JobSet Operator は、IP アドレスを取得するための安定したヘッドレスサービスを自動的にセットアップします。これにより、障害が発生して再起動した後でも、ワーカーは互いを見つけて通信できます。また、自動障害復旧機能も提供します。大規模なトレーニングジョブのごく一部が失敗した場合、保存されたチェックポイントからワーカーグループ全体を再起動するように Operator を設定できます。これにより、時間と計算コストが節約されます。
JobSet Operator は起動制御を提供し、これにより依存関係を確実に満たすために特定の起動シーケンスを定義できます。たとえば、ワーカーが接続を試みる前にリーダーが実行されるようにします。
JobSet Operator を使用すると、OpenShift Container Platform 上での大規模で分散および調整されたコンピューティングタスクの管理が容易になり、多数の個別コンポーネントが 1 つの回復力のある管理しやすいシステムになります。