4장. JobSet Operator
4.1. JobSet Operator 개요 링크 복사링크가 클립보드에 복사되었습니다!
OpenShift Container Platform에서 JobSet Operator를 사용하여 HPC(고성능 컴퓨팅) 및 AI 교육과 같은 대규모 조정된 워크로드를 관리하고 실행합니다. 다중 템플릿 작업 지원 및 안정적인 네트워킹과 같은 기능을 통해 신속하게 복구하고 리소스를 효율적으로 사용할 수 있습니다.
4.1.1. JobSet Operator 정보 링크 복사링크가 클립보드에 복사되었습니다!
OpenShift Container Platform에서 JobSet Operator를 사용하여 HPC(고성능 컴퓨팅) 또는 AI(인공 지능) 교육과 같은 대규모 분산 및 조정된 컴퓨팅 워크로드를 관리하고 자동 안정성, 조정 및 오류 복구를 얻을 수 있습니다.
JobSet Operator는 JobSet 오픈 소스 프로젝트를 기반으로 합니다.
JobSet Operator는 조정된 단일 단위로 작업 그룹을 관리하도록 설계되었습니다. 이는 HPC와 같은 필드에 특히 유용합니다. 단 몇 시간 또는 며칠 동안 실행하는 데 필요한 대규모 AI 모델 교육이 필요합니다.
JobSet Operator를 사용하여 표준 OpenShift Container Platform 작업에 너무 크거나 너무 복잡한 문제를 해결할 수 있습니다. JobSet Operator는 조정, 안정성 및 복구 기능을 제공합니다.
JobSet Operator는 실패 및 재시작 후에도 작업자가 서로 찾고 통신할 수 있도록 안정적인 헤드리스 서비스를 자동으로 설정하여 IP 주소를 가져옵니다. 자동 장애 복구도 제공합니다. 대규모 교육 작업의 작은 부분 중 하나가 실패하면 저장된 체크포인트에서 전체 작업자 그룹을 다시 시작하도록 Operator를 구성할 수 있습니다. 이를 통해 시간과 컴퓨팅 비용을 절감할 수 있습니다.
JobSet Operator는 시작 컨트롤을 제공하여 특정 시작 순서를 정의하여 종속성을 충족할 수 있습니다. 예를 들어 작업자가 연결을 시도하기 전에 리더가 실행되고 있는지 확인합니다.
JobSet Operator를 사용하면 OpenShift Container Platform에서 대규모, 분산 및 조정된 컴퓨팅 작업을 쉽게 관리할 수 있으므로 많은 개별 구성 요소가 하나의 탄력적이고 관리 가능한 시스템으로 전환됩니다.