2장. 새로운 기능 및 개선 사항
이 섹션에서는 Red Hat OpenShift AI 2.19의 새로운 기능 및 개선 사항에 대해 설명합니다.
2.1. 새로운 기능 링크 복사링크가 클립보드에 복사되었습니다!
- keeprails Orchestrator Framework
이제 Guardrails Orchestrator Framework를 일반적으로 사용할 수 있습니다.
Guardrails Orchestrator는 LLM(Large Language Models)에 안전 및 정책 검사(guardrails)를 추가하는 TrustyAI 서비스입니다. TrustyAI Operator가 관리하는 이를 통해 rules(detectors)를 정의하여 Cryostat 입력/출력을 필터링할 수 있습니다.
중요한 이유는 무엇입니까?
- Cryostat는 유해하거나 유해하거나 부정확한 콘텐츠를 생성할 수 있습니다. 가드레일스 Orchestrator는 이러한 위험을 완화하고, 유망적 손상, 위험 문제 및 법적 책임이 발생하지 않습니다.
- 이 솔루션은 Cryostat 애플리케이션이 안전하고 안정적이며 정책을 준수하는지 확인하는 데 도움이 됩니다. 주요 이점으로는 유해한 콘텐츠 탐지, 정책 시행 및 보안 및 품질 개선이 포함됩니다.
- OpenShift에서 분산 PyTorch 작업을 위한 Kubeflow Training Operator(KFTO)
- 이 기능을 사용하면 사용자가 PyTorch 작업을 사용하여 Kubeflow Training Operator(KTFO)를 사용하여 분산 교육 작업을 실행할 수 있으며 NVIDIA 및 AMD 액셀러레이터를 지원합니다.
- 설치된 구성 요소 및 버전 보기
-
이제 설치된 OpenShift AI 구성 요소, 해당 업스트림 구성 요소 및 설치된 구성 요소의 버전을 볼 수 있습니다. Red Hat OpenShift AI 대시보드의 도움말
정보 메뉴에서 설치된 구성 요소 목록에 액세스할 수 있습니다.
- 모델 스토리지를 위한 OCI 컨테이너
OCI 스토리지를 모델 서비스용 클라우드 스토리지 서비스의 대안으로 사용할 수 있습니다. 먼저 모델을 포함할 OCI 컨테이너 이미지를 생성합니다. 이미지는 Quay와 같은 OCI 호환 레지스트리에 업로드됩니다. 모델을 배포할 때 플랫폼 제공 플랫폼은 컨테이너화된 모델의 리포지토리를 참조합니다.
OCI 컨테이너를 사용하면 다음과 같은 이점을 제공할 수 있습니다.
- 클러스터가 다운로드한 이미지의 캐시를 유지하므로 시작 시간이 단축되었습니다. 모델 포드를 다시 시작해도 모델이 다시 다운로드되지 않습니다.
- Pod가 동일한 노드에 예약된다고 가정하면 각 Pod 복제본에서 모델이 다운로드되지 않으므로 디스크 공간 사용량이 줄어듭니다.
- 이미지 또는 비동기 로드를 미리 가져올 때 성능이 향상됩니다.
- 호환성 및 통합은 KServe와 쉽게 통합될 수 있기 때문입니다. 추가 종속성이 필요하지 않으며 인프라를 이미 사용할 수 있을 수 있습니다.
자세한 내용은 모델 스토리지에 OCI 컨테이너 사용을 참조하십시오.
- KFTO를 사용한 다중 노드 PyTorch 분산 교육
Kubeflow Training Operator를 사용하여 여러 노드와 GPU에 분산된 PyTorch 교육이 지원됩니다. 이 기능은 다음과 같은 기능을 활성화합니다.
- PyTorchJob API를 사용하여 노드당 단일 또는 여러 GPU 구성
-
kubeflow- Cryostat SDK
지원 - 구성 가능한 리소스 할당으로 GPU 및 CPU 워크로드에 대한 CryostatCL, RCCL 및 GLECDHE 백엔드 지원
- 교육 스크립트는 ConfigMap을 사용하여 마운트하거나 사용자 정의 컨테이너 이미지에 포함할 수 있습니다.
- DDP 및 FSDP 분산 교육 접근 방식 모두에 대한 지원.
- 분산 워크로드 기능을 통한 작업 예약 또는 Kue
- OpenShift 모니터링을 사용하여 액세스할 수 있는 런타임 지표
- 분산 모델 교육을 위한 NVIDIA GPUDirect RDMA 지원
RDMA(Remote Direct Memory Access)를 사용하여 직접 GPU 상호 연결을 제공하는 NVIDIA GPUDirect RDMA는 이제 KFTO를 사용한 분산 모델 교육에 대해 지원됩니다. 이 기능을 사용하면 호환 가능한 NVIDIA 가속 네트워킹 플랫폼에서 RDMA over Converged Ethernet (RoCE) 및 InfiniBand와의 Cryostat 통신을 가능하게 합니다.
CUDA의 Kubeflow 교육 이미지가 RDMA 사용자 공간 라이브러리를 포함하도록 업데이트되었습니다.
- OCI(Oracle Cloud Infrastructure)에서 OpenShift AI Self-Managed 지원
OpenShift AI Self-Managed는 이제 Oracle Cloud Infrastructure (OCI)의 Red Hat OpenShift Container Platform에서 지원됩니다. OpenShift AI 지원 소프트웨어 플랫폼에 대한 자세한 내용은 Red Hat OpenShift AI: 지원되는 구성 지식 베이스 문서를 참조하십시오.
OCI의 OpenShift Container Platform에 대한 자세한 내용은 OCI에 설치를 참조하십시오.