3.3. 가속기의 개요
대규모 데이터 세트로 작업하는 경우 액셀러레이터를 사용하여 OpenShift AI에서 데이터 사이언스 모델의 성능을 최적화할 수 있습니다. 가속기를 사용하면 작업을 확장하고 대기 시간을 줄이며 생산성을 높일 수 있습니다. OpenShift AI에서 가속기를 사용하여 다음 작업에서 데이터 과학자를 지원할 수 있습니다.
- NLP(Neature Language Processing)
- 유추
- 고급 네트워크 교육
- 데이터 Cryostat 및 데이터 처리
OpenShift AI는 다음 가속기를 지원합니다.
NVIDIA 그래픽 처리 장치(GPU)
- 모델에서 컴퓨팅 집약적인 워크로드를 사용하려면 OpenShift AI에서 NVIDIA 그래픽 처리 장치(GPU)를 활성화할 수 있습니다.
- OpenShift에서 GPU를 활성화하려면 NVIDIA GPU Operator 를 설치해야 합니다.
Intel Gaudi AI 액셀러레이터
- Intel은 딥러닝 워크로드를 위한 하드웨어 가속기를 제공합니다. 노트북에서 사용할 수 있는 Intel Gaudi AI 액셀러레이터와 관련된 Habana 라이브러리 및 소프트웨어를 사용할 수 있습니다.
- OpenShift AI에서 Intel Gaudi AI 액셀러레이터를 활성화하려면 배포에서 HabanaAI 워크벤치 이미지의 Habana 버전과 일치하는 필요한 종속 항목과 HabanaAI Operator 버전을 설치해야 합니다. Intel Gaudi AI 액셀러레이터에 대한 OpenShift 환경을 활성화하는 방법에 대한 자세한 내용은 OpenShift용 HabanaAI Operator v1.10 및 OpenShift용 HabanaAI Operator v1.13을 참조하십시오.
- 온프레미스 또는 AWS 인스턴스에서 AWS DL1 컴퓨팅 노드를 사용하여 Intel Gaudi AI 가속기를 활성화할 수 있습니다.
OpenShift AI에서 가속기를 사용하려면 먼저 OpenShift 인스턴스에 연결된 액셀러레이터 프로필이 포함되어야 합니다. 배포에 새로 추가된 가속기의 경우 컨텍스트에서 액셀러레이터에 대한 가속기를 구성해야 합니다. OpenShift AI 대시보드의 설정
추가 리소스
3.3.1. OpenShift AI에서 GPU 지원 활성화
선택적으로 데이터 과학자가 모델에서 컴퓨팅 집약적인 워크로드를 사용할 수 있도록 OpenShift AI에서 GPU(그래픽 처리 단위)를 활성화할 수 있습니다.
연결이 끊긴 자체 관리 환경에서 OpenShift AI를 사용하는 경우 대신 OpenShift AI에서 GPU 지원 활성화를 참조하십시오.
사전 요구 사항
- OpenShift 클러스터에 로그인했습니다.
-
OpenShift 클러스터에
cluster-admin
역할이 있습니다.
프로세스
- OpenShift 클러스터에서 GPU 지원을 활성화하려면 NVIDIA 문서의 Red Hat OpenShift Container Platform에 대한 NVIDIA GPU Operator 의 지침을 따르십시오.
migration-gpu-status ConfigMap을 삭제합니다.
- OpenShift 웹 콘솔에서 관리자 화면으로 전환합니다.
- 적절한 ConfigMap을 보려면 프로젝트를 모든 프로젝트 또는 redhat-ods-applications 로 설정합니다.
- migration-gpu-status ConfigMap을 검색합니다.
작업 메뉴( Cryostat)를 클릭하고 목록에서 Delete ConfigMap 을 선택합니다.
Delete ConfigMap 대화 상자가 표시됩니다.
- 대화 상자를 검사하고 올바른 ConfigMap을 삭제하고 있는지 확인합니다.
- 삭제를 클릭합니다.
대시보드 복제본 세트를 다시 시작합니다.
- OpenShift 웹 콘솔에서 관리자 화면으로 전환합니다.
-
워크로드
배포를 클릭합니다. - 적절한 배포를 볼 수 있도록 프로젝트를 모든 프로젝트 또는 redhat-ods-applications 로 설정합니다.
- rhods-dashboard 배포를 검색합니다.
- 작업 메뉴( Cryostat)를 클릭하고 목록에서 롤아웃 재시작 을 선택합니다.
- Status 열에 롤아웃의 모든 포드가 완전히 다시 시작될 때까지 기다립니다.
검증
-
NVIDIA GPU Operator는 OpenShift 웹 콘솔 의 Operator
설치된 Operator 페이지에 나타납니다. -
reset migration-gpu-status 인스턴스는
AcceleratorProfile
CRD(사용자 정의 리소스 정의) 세부 정보 페이지의 Instances 탭에 있습니다.
NVIDIA GPU Operator를 설치한 후 액셀러레이터 프로파일 작업에 설명된 대로 액셀러레이터 프로필을 생성합니다.
3.3.2. Intel Gaudi AI 가속기 활성화
OpenShift AI에서 Intel Gaudi AI 가속기를 사용하려면 필요한 종속 항목을 설치하고 HabanaAI Operator를 배포해야 합니다.
사전 요구 사항
- OpenShift에 로그인했습니다.
-
OpenShift에
cluster-admin
역할이 있습니다.
프로세스
- OpenShift AI에서 Intel Gaudi AI 가속기를 활성화하려면 OpenShift 용 HabanaAI Operator 의 지침을 따르십시오.
OpenShift AI 대시보드에서 설정
액셀러레이터 프로필을 클릭합니다. 기존 액셀러레이터 프로파일을 표시하는 액셀러레이터 프로파일 페이지가 나타납니다. 기존 액셀러레이터 프로파일을 활성화하거나 비활성화하려면 관련 액셀러레이터 프로파일이 포함된 행에서 Enable 열의 토글을 클릭합니다.
가속기 프로파일 생성 을 클릭합니다.
가속기 프로필 생성 대화 상자가 열립니다.
- 이름 필드에 Intel Gaudi AI Accelerator의 이름을 입력합니다.
-
ID 필드에 Intel Gaudi AI Accelerator를 식별하는 고유한 문자열을 입력합니다(예:
habana.ai/gaudi
). - 선택 사항: 설명 필드에 Intel Gaudi AI Accelerator에 대한 설명을 입력합니다.
- 생성 직후 Intel Gaudi AI Accelerator에 대한 액셀러레이터 프로필을 활성화하거나 비활성화하려면 Enable 열의 토글을 클릭합니다.
선택 사항: 허용 오차를 추가하여 일치하는 테인트가 있는 Pod를 예약합니다.
허용 오차 추가를 클릭합니다.
허용 오차 추가 대화 상자가 열립니다.
Operator 목록에서 다음 옵션 중 하나를 선택합니다.
- equal - key/value/effect 매개변수가 일치해야 합니다. 이는 기본값입니다.
- exists - key/effect 매개변수가 일치해야 합니다. 일치하는 빈 value 매개변수를 남겨 두어야 합니다.
영향을 받는 목록에서 다음 옵션 중 하나를 선택합니다.
- 없음
- NoSchedule - 테인트와 일치하지 않는 새 Pod는 해당 노드에 예약되지 않습니다. 노드의 기존 pod는 그대로 유지됩니다.
- PreferNoSchedule - 테인트와 일치하지 않는 새 Pod는 해당 노드에 예약할 수 있지만 스케줄러는 그렇지 않습니다. 노드의 기존 pod는 그대로 유지됩니다.
- NoExecute - 테인트와 일치하지 않는 새 Pod를 해당 노드에 예약할 수 없습니다. 일치하는 톨러레이션이 없는 노드의 기존 pod는 제거됩니다.
-
키 필드에 허용 오차 키
habana.ai/gaudi
을 입력합니다. key는 최대 253자의 문자열입니다. 키는 문자 또는 숫자로 시작해야 하며 문자, 숫자, 하이픈, 점, 밑줄을 포함할 수 있습니다. - 값 필드에 허용 오차 값을 입력합니다. 값은 최대 63자의 문자열입니다. 값은 문자 또는 숫자로 시작해야 하며 문자, 숫자, 하이픈, 점, 밑줄을 포함할 수 있습니다.
Toleration Seconds 섹션에서 다음 옵션 중 하나를 선택하여 Pod가 노드 조건이 있는 노드에 바인딩되는 기간을 지정합니다.
- 영구적으로 - Pod는 노드에 영구적으로 바인딩됩니다.
- 사용자 지정 값 - 노드 조건이 있는 노드에 Pod가 바인딩되는 기간을 정의하기 위해 값(초)을 입력합니다.
- 추가를 클릭합니다.
- 가속기 프로파일 생성 을 클릭합니다.
검증
관리자 관점에서 다음 Operator가 Operator
설치된 Operator 페이지에 표시됩니다. - HabanaAI
- NFD(Node Feature Discovery)
- 커널 모듈 관리 (KMM)
- 액셀러레이터 목록에는 노트북 시작 서버 페이지의 Intel Gaudi AI Accelerator가 표시됩니다. 액셀러레이터를 선택하면 액셀러레이터 수를 선택하는 데 사용할 수 있는 액셀러레이터 수가 표시됩니다.
- 액셀러레이터 프로파일이 액셀러레이터 프로필 페이지에 나타납니다.
-
액셀러레이터 프로파일은
AcceleratorProfile
CRD(사용자 정의 리소스 정의)의 세부 정보 페이지의 Instances 탭에 표시됩니다.