4장. JobSet Operator
4.1. JobSet Operator 개요 링크 복사링크가 클립보드에 복사되었습니다!
OpenShift Container Platform에서 JobSet Operator를 사용하여 HPC(고성능 컴퓨팅) 및 AI 교육과 같은 대규모 조정된 워크로드를 쉽게 관리하고 실행합니다. JobSet Operator는 다중 템플릿 작업 지원 및 안정적인 네트워킹과 같은 기능을 통해 빠른 복구 및 효율적인 리소스 사용을 지원합니다.
JobSet Operator는 기술 프리뷰 기능 전용입니다. 기술 프리뷰 기능은 Red Hat 프로덕션 서비스 수준 계약(SLA)에서 지원되지 않으며 기능적으로 완전하지 않을 수 있습니다. 따라서 프로덕션 환경에서 사용하는 것은 권장하지 않습니다. 이러한 기능을 사용하면 향후 제품 기능을 조기에 이용할 수 있어 개발 과정에서 고객이 기능을 테스트하고 피드백을 제공할 수 있습니다.
Red Hat 기술 프리뷰 기능의 지원 범위에 대한 자세한 내용은 기술 프리뷰 기능 지원 범위를 참조하십시오.
4.1.1. JobSet Operator 정보 링크 복사링크가 클립보드에 복사되었습니다!
OpenShift Container Platform에서 JobSet Operator를 사용하여 HPC(고성능 컴퓨팅) 또는 AI(인공 지능) 교육과 같은 대규모 분산 및 조정된 컴퓨팅 워크로드를 관리하고 자동 안정성, 조정 및 오류 복구를 얻을 수 있습니다.
JobSet Operator는 JobSet 오픈 소스 프로젝트를 기반으로 합니다.
JobSet Operator는 조정된 단일 단위로 작업 그룹을 관리하도록 설계되었습니다. 이는 HPC와 같은 필드에 특히 유용합니다. 단 몇 시간 또는 며칠 동안 실행하는 데 필요한 대규모 AI 모델 교육이 필요합니다.
JobSet Operator를 사용하여 표준 OpenShift Container Platform 작업에 너무 크거나 너무 복잡한 문제를 해결할 수 있습니다. JobSet Operator는 조정, 안정성 및 복구 기능을 제공합니다.
JobSet Operator는 실패 및 재시작 후에도 작업자가 서로 찾고 통신할 수 있도록 안정적인 헤드리스 서비스를 자동으로 설정하여 IP 주소를 가져옵니다. 자동 장애 복구도 제공합니다. 대규모 교육 작업의 작은 부분 중 하나가 실패하면 저장된 체크포인트에서 전체 작업자 그룹을 다시 시작하도록 Operator를 구성할 수 있습니다. 이를 통해 시간과 컴퓨팅 비용을 절감할 수 있습니다.
JobSet Operator는 시작 컨트롤을 제공하여 특정 시작 순서를 정의하여 종속성을 충족할 수 있습니다. 예를 들어 작업자가 연결을 시도하기 전에 리더가 실행되고 있는지 확인합니다.
JobSet Operator를 사용하면 OpenShift Container Platform에서 대규모, 분산 및 조정된 컴퓨팅 작업을 쉽게 관리할 수 있으므로 많은 개별 구성 요소가 하나의 탄력적이고 관리 가능한 시스템으로 전환됩니다.