第4章 JobSet Operator


4.1. JobSet Operator の概要

OpenShift Container Platform で JobSet Operator を使用して、高パフォーマンスコンピューティング(HPC)や AI トレーニングなどの大規模なワークロードを簡単に管理および実行できます。JobSet Operator は、マルチテンプレートジョブサポートや安定したネットワークなどの機能を通じて、迅速な回復と効率的なリソース使用を実現するのに役立ちます。

重要

JobSet Operator はテクノロジープレビュー機能のみです。テクノロジープレビュー機能は、Red Hat 製品のサービスレベルアグリーメント (SLA) の対象外であり、機能的に完全ではないことがあります。Red Hat は、実稼働環境でこれらを使用することを推奨していません。テクノロジープレビュー機能は、最新の製品機能をいち早く提供して、開発段階で機能のテストを行い、フィードバックを提供していただくことを目的としています。

Red Hat のテクノロジープレビュー機能のサポート範囲に関する詳細は、テクノロジープレビュー機能のサポート範囲 を参照してください。

4.1.1. JobSet Operator について

OpenShift Container Platform で JobSet Operator を使用して、高パフォーマンスコンピューティング(HPC)または人工知能(AI)のトレーニングなどの大規模で分散されたコンピューティングワークロードを管理し、自動安定性、コーディネーション、障害復旧を行います。

JobSet Operator は JobSet オープンソースプロジェクトに基づいています。

JobSet Operator は、ジョブのグループを単一の調整されたユニットとして管理するように設計されています。これは、HPC などのフィールドや、時間または日の機械のチームを必要とする大規模な AI モデルをトレーニングする場合に役立ちます。

JobSet Operator を使用して、標準の OpenShift Container Platform ジョブに対して大きすぎるか、複雑すぎる問題を解決できます。JobSet Operator は、調整、安定性、およびリカバリーを提供します。

JobSet Operator は、安定したヘッドレスサービスを自動的に設定して、IP アドレスを取得し、ワーカーが障害や再起動後にもお互いを見つけ、通信できるようにします。また、自動障害回復も提供します。大規模なトレーニングジョブの 1 つの部分が失敗した場合、Operator は、保存されたチェックポイントからワーカーのグループ全体を再起動するように設定できます。これにより、時間とコンピューティングコストを節約できます。

JobSet Operator は起動制御を提供し、特定の起動シーケンスを定義でき、依存関係が満たされていることを確認できます。たとえば、ワーカーの接続を試みる前にリーダーが実行されていることを確認してください。

JobSet Operator は、OpenShift Container Platform での大規模で分散されたコンピューティングタスクの管理を容易にし、多数の個別コンポーネントを 1 つの回復性があり、管理可能なシステムに変換します。

トップに戻る
Red Hat logoGithubredditYoutubeTwitter

詳細情報

試用、購入および販売

コミュニティー

Red Hat ドキュメントについて

Red Hat をお使いのお客様が、信頼できるコンテンツが含まれている製品やサービスを活用することで、イノベーションを行い、目標を達成できるようにします。 最新の更新を見る.

多様性を受け入れるオープンソースの強化

Red Hat では、コード、ドキュメント、Web プロパティーにおける配慮に欠ける用語の置き換えに取り組んでいます。このような変更は、段階的に実施される予定です。詳細情報: Red Hat ブログ.

会社概要

Red Hat は、企業がコアとなるデータセンターからネットワークエッジに至るまで、各種プラットフォームや環境全体で作業を簡素化できるように、強化されたソリューションを提供しています。

Theme

© 2025 Red Hat