2.15. Pod에 GPU 할당

특성 기반 GPU 할당을 사용하면 OpenShift Container Platform의 GPU(그래픽 처리 장치) 리소스 할당을 미세 조정할 수 있으므로 제품 이름, GPU 메모리 용량, 컴퓨팅 기능, 벤더 이름 및 드라이버 버전을 비롯한 특정 장치 속성을 기반으로 GPU를 요청할 수 있습니다. 이러한 속성은 타사 동적 리소스 할당(DRA) 드라이버에 의해 노출됩니다.

중요

특성 기반 GPU 할당은 기술 프리뷰 기능 전용입니다. 기술 프리뷰 기능은 Red Hat 프로덕션 서비스 수준 계약(SLA)에서 지원되지 않으며 기능적으로 완전하지 않을 수 있습니다. 따라서 프로덕션 환경에서 사용하는 것은 권장하지 않습니다. 이러한 기능을 사용하면 향후 제품 기능을 조기에 이용할 수 있어 개발 과정에서 고객이 기능을 테스트하고 피드백을 제공할 수 있습니다.

Red Hat 기술 프리뷰 기능의 지원 범위에 대한 자세한 내용은 다음 링크를 참조하십시오.

기술 프리뷰 기능 지원 범위

2.15.1. 워크로드에 GPU 할당 정보
링크 복사

특성 기반 GPU 할당을 사용하면 Pod에서 특정 장치 특성에 따라 GPU(그래픽 처리 장치)를 요청할 수 있습니다. 이렇게 하면 각 Pod에 필요한 정확한 GPU 사양이 수신됩니다.

특성 기반 리소스 할당을 사용하려면 동적 리소스 할당(DRA) 드라이버를 설치해야 합니다. DRA 드라이버는 클러스터의 각 노드에서 해당 노드의 하드웨어와 상호 작용하도록 실행되는 타사 애플리케이션입니다.

DRA 드라이버는 다음 특성을 포함하여 OpenShift Container Platform에서 정확한 GPU 선택에 사용할 수 있는 여러 GPU 장치 속성을 알립니다.

제품 이름: Pod는 성능 요구 사항 또는 애플리케이션과의 호환성을 기반으로 정확한 GPU 모델을 요청할 수 있습니다. 이렇게 하면 워크로드에 가장 적합한 하드웨어를 작업에 활용할 수 있습니다.
GPU 메모리 용량: Pod는 8GB, 16GB 또는 40GB와 같은 최소 또는 최대 메모리 용량이 있는 GPU를 요청할 수 있습니다. 이는 대규모 AI 모델 교육 또는 데이터 처리와 같은 메모리 집약적인 워크로드에 유용합니다. 이 속성을 사용하면 애플리케이션에서 리소스를 과다 할당하거나 사용하지 않고도 메모리 요구 사항을 충족하는 GPU를 할당할 수 있습니다.
컴퓨팅 기능: Pod는 지원되는 CUDA 버전과 같은 GPU의 컴퓨팅 기능을 기반으로 GPU를 요청할 수 있습니다. Pod는 애플리케이션의 프레임워크와 호환되는 GPU를 대상으로 지정하고 최적화된 처리 기능을 활용할 수 있습니다.
전원 및 열 프로필: Pod는 전력 사용량 또는 열 특성을 기반으로 GPU를 요청할 수 있으므로 전력에 민감한 또는 온도에 민감한 애플리케이션이 효율적으로 작동할 수 있습니다. 이는 에너지 또는 공약 제약 조건이 중요한 고밀도 환경에서 특히 유용합니다.
장치 ID 및 벤더 ID: Pod는 GPU의 하드웨어 특정 정보를 기반으로 GPU를 요청할 수 있으므로 특정 공급 업체 또는 장치 유형이 필요한 애플리케이션을 통해 대상 지정 요청을 수행할 수 있습니다.
드라이버 버전: Pod는 특정 드라이버 버전을 실행하는 GPU를 요청하여 애플리케이션 종속 항목과의 호환성을 보장하고 GPU 기능 액세스를 극대화할 수 있습니다.

2.15.2. GPU 할당 오브젝트 정보
링크 복사

특성 기반 GPU 할당에서는 다음 오브젝트를 사용하여 코어 GPU(그래픽 처리 장치) 할당 기능을 제공합니다. 이러한 API 종류는 모두 resource.k8s.io/v1beta2 API 그룹에 포함되어 있습니다.

장치 클래스

장치 클래스는 Pod에서 요청할 수 있는 장치 범주와 클레임에서 특정 장치 특성을 선택하는 방법입니다. 일부 장치 드라이버에는 자체 장치 클래스가 포함되어 있습니다. 또는 관리자가 장치 클래스를 만들 수 있습니다. 장치 클래스에는 장치가 요청을 충족하는 경우 true로 평가되어야 하는 CEL(공용 표현식 언어) 표현식인 장치 선택기가 포함되어 있습니다.

다음 예제 DeviceClass 오브젝트는 driver.example.com 장치 드라이버에서 관리하는 장치를 선택합니다.

장치 클래스 오브젝트의 예

apiVersion: resource.k8s.io/v1beta1
kind: DeviceClass
metadata:
  name: example-device-class
spec:
  selectors:
  - cel:
      expression: |-
        device.driver == "driver.example.com"

리소스 슬라이스

각 노드의 DRA(Dynamic Resource Assignment) 드라이버는 클러스터의 리소스 슬라이스 를 생성하고 관리합니다. 리소스 슬라이스는 노드에 연결된 하나 이상의 GPU 리소스를 나타냅니다. Pod에서 리소스 클레임을 생성하고 사용하는 경우 OpenShift Container Platform에서는 리소스 슬라이스를 사용하여 요청된 리소스에 액세스할 수 있는 노드를 찾습니다. 리소스 클레임에 적합한 리소스 슬라이스를 검색한 후 OpenShift Container Platform 스케줄러는 리소스 클레임을 할당 세부 정보로 업데이트하고, 리소스 클레임에 리소스를 할당하고, 리소스에 액세스할 수 있는 노드에 Pod를 예약합니다.

리소스 클레임 템플릿

클러스터 관리자와 운영자는 리소스 클레임 템플릿을 생성하여 특정 장치 클래스에서 GPU를 요청할 수 있습니다. 리소스 클레임 템플릿은 Pod에 별도의 유사한 리소스에 대한 액세스 권한을 제공합니다. OpenShift Container Platform에서는 리소스 클레임 템플릿을 사용하여 Pod에 대한 리소스 클레임을 생성합니다. 템플릿에서 OpenShift Container Platform에서 생성하는 각 리소스 클레임은 특정 Pod에 바인딩됩니다. Pod가 종료되면 OpenShift Container Platform에서 해당 리소스 클레임을 삭제합니다.

다음 예제 리소스 클레임 템플릿은 example-device-class 장치 클래스의 장치를 요청합니다.

리소스 클레임 템플릿 오브젝트의 예

apiVersion: resource.k8s.io/v1beta1
kind: ResourceClaimTemplate
metadata:
  namespace: gpu-test1
  name: gpu-claim-template
spec:
# ...
  spec:
    devices:
      requests:
      - name: gpu
        deviceClassName: example-device-class

리소스 클레임

관리자 및 운영자는 리소스 클레임 을 생성하여 특정 장치 클래스에서 GPU를 요청할 수 있습니다. 리소스 클레임은 여러 Pod와 GPU를 공유할 수 있으므로 리소스 클레임 템플릿과 다릅니다. 또한 요청하는 Pod가 종료될 때 리소스 클레임은 삭제되지 않습니다.

다음 예제 리소스 클레임 템플릿은 CEL 표현식을 사용하여 특정 크기의 example-device-class 장치 클래스의 특정 장치를 요청합니다.

리소스 클레임 오브젝트의 예

apiVersion: resource.k8s.io/v1beta1
kind: ResourceClaim
metadata:
  namespace: gpu-claim
  name: gpu-devices
spec:
  devices:
    requests:
    - name: 1g-5gb
      deviceClassName: example-device-class
      selectors:
      - cel:
          expression: "device.attributes['driver.example.com'].profile == '1g.5gb'"
    - name: 1g-5gb-2
      deviceClassName: example-device-class
      selectors:
      - cel:
          expression: "device.attributes['driver.example.com'].profile == '1g.5gb'"
    - name: 2g-10gb
      deviceClassName: example-device-class
      selectors:
      - cel:
          expression: "device.attributes['driver.example.com'].profile == '2g.10gb'"
    - name: 3g-20gb
      deviceClassName: example-device-class
      selectors:
      - cel:
          expression: "device.attributes['driver.example.com'].profile == '3g.20gb'"

리소스 클레임 구성에 대한 자세한 내용은 "동적 리소스 할당"( 쿠버네티스 문서)을 참조하십시오.

Pod에 리소스 클레임을 추가하는 방법에 대한 자세한 내용은 "포드에 리소스 클레임 추가"를 참조하십시오.

다음 단계

Pod에 리소스 클레임 추가

2.15.3. Pod에 리소스 클레임 추가
링크 복사

특성 기반 GPU 할당에서는 리소스 클레임 및 리소스 클레임 템플릿을 사용하여 Pod의 컨테이너에 대해 특정 GPU(그래픽 처리 단위)를 요청할 수 있습니다. 리소스 클레임은 여러 컨테이너에 사용할 수 있지만 하나의 컨테이너에서만 리소스 클레임 템플릿을 사용할 수 있습니다. 자세한 내용은 추가 리소스 섹션의 "장치 특성을 사용하여 장치 할당 구성"을 참조하십시오.

다음 절차의 예제에서는 특정 GPU를 container0 에 할당하는 리소스 클레임 템플릿과 container1 과 container2 간에 GPU를 공유하는 리소스 클레임을 생성합니다.

사전 요구 사항

동적 리소스 할당(DRA) 드라이버가 설치되어 있습니다. DRA에 대한 자세한 내용은 "동적 리소스 할당"( Kubernetes 문서)을 참조하십시오.
리소스 슬라이스가 생성되었습니다.
리소스 클레임 및/또는 리소스 클레임 템플릿이 생성되었습니다.
cluster 라는 FeatureGate CR을 편집하여 클러스터에 필요한 기술 프리뷰 기능을 활성화했습니다.
FeatureGate CR의 예
```
apiVersion: config.openshift.io/v1
kind: FeatureGate
metadata:
  name: cluster
spec:
  featureSet: TechPreviewNoUpgrade 
```
1
1
필요한 기능을 활성화합니다.
주의
클러스터에서 TechPreviewNoUpgrade 기능 세트를 활성화하면 취소할 수 없으며 마이너 버전 업데이트를 방지할 수 없습니다. 이 기능 세트를 사용하면 테스트 클러스터에서 이러한 기술 프리뷰 기능을 완전히 테스트할 수 있습니다. 프로덕션 클러스터에서 이 기능 세트를 활성화하지 마십시오.

프로세스

다음과 유사한 YAML 파일을 생성하여 Pod를 생성합니다.

리소스를 요청하는 Pod의 예

apiVersion: v1
kind: Pod
metadata:
  namespace: gpu-allocate
  name: pod1
  labels:
    app: pod
spec:
  restartPolicy: Never
  containers:
  - name: container0
    image: ubuntu:24.04
    command: ["sleep", "9999"]
    resources:
      claims:


      - name: gpu-claim-template
  - name: container1
    image: ubuntu:24.04
    command: ["sleep", "9999"]
    resources:
      claims:
      - name: gpu-claim
  - name: container2
    image: ubuntu:24.04
    command: ["sleep", "9999"]
    resources:
      claims:
      - name: gpu-claim
  resourceClaims:


  - name: gpu-claim-template
    resourceClaimTemplateName: example-resource-claim-template
  - name: gpu-claim
    resourceClaimName: example-resource-claim

1: 이 컨테이너에 사용할 하나 이상의 리소스 클레임을 지정합니다.
2: 컨테이너를 시작하는 데 필요한 리소스 클레임을 지정합니다. 리소스 클레임 요청의 임의의 이름과 리소스 클레임 및/또는 리소스 클레임 템플릿을 포함합니다.

CRD 오브젝트를 생성합니다.
```
$ oc create -f <file_name>.yaml
```

Pod 리소스 요청 구성에 대한 자세한 내용은 "동적 리소스 할당"( Kubernetes) 문서를 참조하십시오.

2.15. Pod에 GPU 할당

2.15.1. 워크로드에 GPU 할당 정보
링크 복사

2.15.2. GPU 할당 오브젝트 정보
링크 복사

2.15.3. Pod에 리소스 클레임 추가
링크 복사

자세한 정보

평가판, 구매 및 판매

커뮤니티

Red Hat 소개

보다 포괄적 수용을 위한 오픈 소스 용어 교체

Red Hat 문서 정보

Theme

Red Hat legal and privacy links

Red Hat legal and privacy links

2.15. Pod에 GPU 할당

2.15.1. 워크로드에 GPU 할당 정보링크 복사링크가 클립보드에 복사되었습니다!

2.15.2. GPU 할당 오브젝트 정보링크 복사링크가 클립보드에 복사되었습니다!

2.15.3. Pod에 리소스 클레임 추가링크 복사링크가 클립보드에 복사되었습니다!

자세한 정보

평가판, 구매 및 판매

커뮤니티

Red Hat 소개

보다 포괄적 수용을 위한 오픈 소스 용어 교체

Red Hat 문서 정보

Theme

Red Hat legal and privacy links

Red Hat legal and privacy links

2.15.1. 워크로드에 GPU 할당 정보
링크 복사

2.15.2. GPU 할당 오브젝트 정보
링크 복사

2.15.3. Pod에 리소스 클레임 추가
링크 복사