4장. JobSet Operator
4.1. JobSet Operator 개요 링크 복사링크가 클립보드에 복사되었습니다!
OpenShift Container Platform의 JobSet Operator를 사용하면 고성능 컴퓨팅(HPC) 및 AI 교육과 같은 대규모의 조정된 워크로드를 쉽게 관리하고 실행할 수 있습니다. JobSet Operator는 다중 템플릿 작업 지원 및 안정적인 네트워킹과 같은 기능을 통해 빠른 복구와 효율적인 리소스 사용을 달성하는 데 도움이 될 수 있습니다.
JobSet Operator는 기술 미리 보기 기능일 뿐입니다. 기술 프리뷰 기능은 Red Hat 프로덕션 서비스 수준 계약(SLA)에서 지원되지 않으며 기능적으로 완전하지 않을 수 있습니다. 따라서 프로덕션 환경에서 사용하는 것은 권장하지 않습니다. 이러한 기능을 사용하면 향후 제품 기능을 조기에 이용할 수 있어 개발 과정에서 고객이 기능을 테스트하고 피드백을 제공할 수 있습니다.
Red Hat 기술 프리뷰 기능의 지원 범위에 대한 자세한 내용은 기술 프리뷰 기능 지원 범위를 참조하십시오.
4.1.1. JobSet 연산자에 대하여 링크 복사링크가 클립보드에 복사되었습니다!
OpenShift Container Platform의 JobSet Operator를 사용하면 고성능 컴퓨팅(HPC)이나 인공 지능(AI) 교육과 같은 대규모의 분산되고 조정된 컴퓨팅 워크로드를 관리하고 자동 안정성, 조정 및 장애 복구를 얻을 수 있습니다.
JobSet Operator는 JobSet 오픈 소스 프로젝트를 기반으로 합니다.
JobSet Operator는 여러 작업 그룹을 하나의 조정된 단위로 관리하도록 설계되었습니다. 이 기능은 HPC나 대규모 AI 모델을 훈련하는 분야에서 특히 유용합니다. 이 분야에서는 여러 대의 머신을 몇 시간 또는 며칠 동안 실행해야 합니다.
JobSet 연산자를 사용하면 표준 OpenShift Container Platform 작업으로는 너무 크거나 복잡한 문제를 해결할 수 있습니다. JobSet Operator는 조정, 안정성, 복구를 제공합니다.
JobSet Operator는 IP 주소를 얻기 위해 안정적인 헤드리스 서비스를 자동으로 설정하여, 장애 발생 후 재시작 후에도 작업자가 서로를 찾아 통신할 수 있도록 합니다. 또한 자동적인 장애 복구 기능을 제공합니다. 대규모 훈련 작업의 작은 부분 하나가 실패하면, 운영자는 저장된 체크포인트에서 전체 작업자 그룹을 다시 시작하도록 구성할 수 있습니다. 이렇게 하면 시간과 컴퓨팅 비용이 절약됩니다.
JobSet Operator는 시작 제어 기능을 제공하여 종속성이 충족되도록 특정 시작 순서를 정의할 수 있습니다. 예를 들어, 작업자가 연결을 시도하기 전에 리더가 실행 중인지 확인합니다.
JobSet Operator를 사용하면 OpenShift Container Platform에서 대규모의 분산되고 조정된 컴퓨팅 작업을 보다 쉽게 관리할 수 있으며, 여러 개별 구성 요소를 하나의 탄력적이고 관리하기 쉬운 시스템으로 전환할 수 있습니다.