1장. 분산 워크로드 개요
분산 워크로드 기능을 사용하여 OpenShift 클러스터의 여러 노드에서 데이터 사이언스 워크로드를 실행하는 데 필요한 리소스를 대기열에, 확장 및 관리할 수 있습니다. 일반적으로 데이터 사이언스 워크로드에는 머신 러닝(ML) 및 Python 워크로드를 포함한 여러 유형의 AI(인공 지능) 워크로드가 포함됩니다.
분산 워크로드는 다음과 같은 이점을 제공합니다.
- 처리 시간이 단축되었기 때문에 더 빨리 반복하고 더 자주 실험할 수 있습니다.
- 더 큰 데이터 집합을 사용하면 더 정확한 모델로 이어질 수 있습니다.
- 단일 노드에서 교육을 받을 수 없는 복잡한 모델을 사용할 수 있습니다.
- 언제든지 분산 워크로드를 제출할 수 있으며 시스템은 필요한 리소스를 사용할 수 있을 때 분산 워크로드를 예약합니다.
1.1. 분산 워크로드 인프라 링크 복사링크가 클립보드에 복사되었습니다!
분산 워크로드 인프라에는 다음 구성 요소가 포함됩니다.
- CodeFlare Operator
- 배포된 보안 클러스터 및 해당 URL에 대한 액세스 권한 부여
- CodeFlare SDK
모든 Python 기반 환경에 대한 원격 분산 컴퓨팅 작업 및 인프라를 정의하고 제어합니다.
참고CodeFlare SDK는 OpenShift AI의 일부로 설치되지 않지만 OpenShift AI에서 제공하는 일부 워크벤치 이미지에 포함되어 있습니다.
- Kubeflow Training Operator
- PyTorch와 같은 다양한 ML 프레임워크로 생성된 ML 모델의 미세 조정 및 확장 가능한 분산 교육 제공
- Kubeflow Training Operator Python Software Development Kit(Operator SDK Training)
- 분산 교육 및 미세 조정 작업 생성 간소화
Training Operator SDK는 OpenShift AI의 일부로 설치되지 않지만 OpenShift AI에서 제공하는 일부 워크벤치 이미지에 포함되어 있습니다.
- KubeRay
- 분산 컴퓨팅 워크로드를 실행하기 위해 OpenShift에서 원격 Cryostat 클러스터 관리
- Red Hat build of Kueue Operator
- 할당량과 분산 워크로드가 사용하는 방법을 관리하고 할당량과 관련하여 분산 워크로드의 대기열을 관리합니다.
이러한 구성 요소 설치에 대한 자세한 내용은 분산 워크로드 구성 요소 설치를 참조하십시오.