第4章 JobSet Operator
4.1. JobSet Operator の概要 リンクのコピーリンクがクリップボードにコピーされました!
OpenShift Container Platform の JobSet Operator を使用すると、高性能コンピューティング (HPC) や AI トレーニングなどの大規模で協調的なワークロードを管理および実行できます。マルチテンプレートジョブのサポートや安定したネットワーク接続といった機能は、迅速な復旧とリソースの効率的な利用に役立ちます。
4.1.1. JobSet Operator について リンクのコピーリンクがクリップボードにコピーされました!
OpenShift Container Platform の JobSet Operator を使用すると、高性能コンピューティング (HPC) や人工知能 (AI) トレーニングなどの大規模で分散および調整されたコンピューティングワークロードを管理して、自動的な安定、調整、障害復旧を実現できます。
JobSet Operator は、JobSet オープンソースプロジェクトをベースにしています。
JobSet Operator は、ジョブのグループを単一の調整されたユニットとして管理するように設計されています。これは、一連のマシンをチームとして数時間または数日間実行する必要のある、HPC や大規模 AI モデルのトレーニングなどの分野で特に役立ちます。
JobSet Operator を使用すると、標準的な OpenShift Container Platform ジョブにおいては大きすぎる、または複雑すぎる問題を解決できます。JobSet Operator は調整、安定性、および回復を行います。
JobSet Operator は、IP アドレスを取得するための安定したヘッドレスサービスを自動的にセットアップします。これにより、障害が発生して再起動した後でも、ワーカーは互いを見つけて通信できます。また、自動障害復旧機能も提供します。大規模なトレーニングジョブのごく一部が失敗した場合、保存されたチェックポイントからワーカーグループ全体を再起動するように Operator を設定できます。これにより、時間と計算コストが節約されます。
JobSet Operator は起動制御を提供し、これにより依存関係を確実に満たすために特定の起動シーケンスを定義できます。たとえば、ワーカーが接続を試みる前にリーダーが実行されるようにします。
JobSet Operator を使用すると、OpenShift Container Platform 上での大規模で分散および調整されたコンピューティングタスクの管理が容易になり、多数の個別コンポーネントが 1 つの回復力のある管理しやすいシステムになります。