3장. 기술 프리뷰 기능

중요

이 섹션에서는 Red Hat OpenShift AI 2.25의 기술 프리뷰 기능에 대해 설명합니다. 기술 프리뷰 기능은 Red Hat 프로덕션 서비스 수준 계약(SLA)에서 지원되지 않으며 기능적으로 완전하지 않을 수 있습니다. Red Hat은 프로덕션 환경에서 사용하는 것을 권장하지 않습니다. 이러한 기능을 사용하면 향후 제품 기능을 조기에 이용할 수 있어 개발 과정에서 고객이 기능을 테스트하고 피드백을 제공할 수 있습니다.

Red Hat 기술 프리뷰 기능의 지원 범위에 대한 자세한 내용은 기술 프리뷰 기능 지원 범위를 참조하십시오.

x86 플랫폼에서 지원을 제공하는 IBM#159re AI Accelerator 모델: IBM Cryostat AI Accelerator와 함께 제공되는 모델은 이제 x86 플랫폼을 위한 기술 프리뷰 기능으로 제공됩니다. IBM Cryostatre Operator는 설치를 자동화하고 장치 플러그인, 보조 스케줄러 및 모니터링을 통합합니다. 자세한 내용은 IBM Cryostat Operator 카탈로그 항목을 참조하십시오.

llm-d를 사용한 분산 추론: llm-d를 사용한 분산 추론은 현재 기술 프리뷰 기능으로 제공됩니다. llm-d를 사용한 분산 추론은 다중 모델 서비스, 지능형 추론 스케줄링 및 disaggregated 서비스를 지원하여GenAI 모델에서 GPU 사용률을 개선할 수 있습니다. 자세한 내용은 llm-d를 사용한 분산 유추를 사용하여 모델 배포를 참조하십시오.

OpenShift AI에서 L#178a Stack을 사용하여 AI 앱 빌드

이번 릴리스에서는 L#178a Stack 기술 프리뷰 기능을 통해 RAG(Retrieval-Augmented Generation) 및 에이전트 워크플로를 통해 차세대 AI 애플리케이션을 빌드할 수 있습니다. 원격 유추, 내장 포함 및 벡터 데이터베이스 작업을 지원합니다. 또한 안전성 및 Trusty AI의 LM-Eval 공급자와 같은 공급업체와의 평가를 지원합니다.

이 프리뷰에는 L declarationa Stack Operator를 활성화하고, RAG 툴과 상호 작용하며, 문서 검색을 개선하기 위해 PDF 수집 및 키워드 검색 기능을 자동화하는 데 필요한 툴, 구성 요소 및 지침이 포함되어 있습니다.

중앙 집중식 플랫폼 관찰 기능

메트릭, 추적 및 기본 제공 경고를 포함한 중앙 집중식 플랫폼 관찰 기능은 기술 프리뷰 기능으로 사용할 수 있습니다. 이 솔루션에서는 클러스터 관리자가 다음 작업을 수행할 수 있는 OpenShift AI에 대해 사전 구성된 전용 관찰 기능 스택을 도입합니다.

OpenShift AI 구성 요소 및 워크로드에 대한 플랫폼 메트릭(Prometheus) 및 분산 추적(Tempo)을 확인합니다.
중요한 구성 요소 상태 및 성능 문제를 포함하는 기본 제공 경고(alertmanager) 세트를 관리합니다.
DSCI( DataScienceClusterInitialization ) 사용자 정의 리소스를 편집하여 플랫폼 및 워크로드 메트릭을 외부 타사 관찰 툴로 내보냅니다.
Cluster Observability Operator, Red Hat build of OpenTelemetry 및 Tempo Operator와 통합하여 이 기능을 활성화할 수 있습니다. 자세한 내용은 모니터링 및 관찰 기능을 참조하십시오. 자세한 내용은 관찰 기능 관리를 참조하십시오.

L#178a Stack Distribution 버전 0.2.17 지원

L#178a Stack Distribution에는 이제 L#178a-stack 버전 0.2.17이 기술 프리뷰로 포함되어 있습니다. 이 기능은 다음을 포함하여 다양한 기능을 제공합니다.

모델 공급자: vLLM과 같은 자체 호스팅 공급자가 이제 자동으로 등록되므로 더 이상 INFERENCE_MODEL 변수를 수동으로 설정할 필요가 없습니다.
인프라 및 백엔드: OpenAI 유추를 개선하고 Vector Store API에 대한 지원을 추가했습니다.
오류 처리: 오류가 표준화되었으며 라이브러리 클라이언트 초기화가 개선되었습니다.
액세스 제어: 이제 벡터 저장소 및 파일 API가 액세스 제어를 적용하고 Telemetry 읽기 API는 사용자 역할에 의해 게이트됩니다.
버그 수정.

IBM Power accelerated Triton Inference Server 지원

Python 및 ONNX 백엔드를 사용하여 Triton 유추 서버(CPU만 해당)에 대한 Power 아키텍처 지원을 활성화할 수 있습니다. Red Hat OpenShift AI의 기술 프리뷰 기능으로 IBM Power 아키텍처에서 런타임을 제공하는 사용자 지정 모델로 Triton 유추 서버를 배포할 수 있습니다.

자세한 내용은 Triton Inference Server 이미지를 참조하십시오.

IBM Z 가속화 Triton Inference Server 지원

ONNX-MLIR, Snap ML(C++) 및 PyTorch를 비롯한 여러 백엔드 옵션으로 Triton Inference Server(Telum I/Telum II)에 대해 Z 아키텍처 지원을 활성화할 수 있습니다. Triton Inference Server는 Red Hat OpenShift AI의 기술 프리뷰 기능으로 IBM Z 아키텍처에서 런타임을 제공하는 사용자 지정 모델로 배포할 수 있습니다.

자세한 내용은 IBM Z accelerated Triton Inference Server 에서 참조하십시오.

Kubernetes 이벤트 중심 자동 확장(KEDA) 지원

OpenShift AI는 KServe RawDeployment 모드에서 Kubernetes 이벤트 중심 자동 확장(KEDA)을 지원합니다. 이 기술 프리뷰 기능을 사용하면 유추 서비스에 대한 메트릭 기반 자동 스케일링을 통해 가속기 리소스를 보다 효율적으로 관리하고 운영 비용을 줄이며 추론 서비스의 성능을 개선할 수 있습니다.

KServe RawDeployment 모드에서 유추 서비스에 대한 자동 스케일링을 설정하려면 KEDA를 기반으로 하는 OpenShift CMA(Custom Metrics Autoscaler)를 설치하고 구성해야 합니다.

이 기능에 대한 자세한 내용은 메트릭 기반 자동 스케일링 구성을 참조하십시오.

LM-Eval 모델 평가 UI 기능: TrustyAI는 이제 LM-Eval 모델 평가를 기술 프리뷰로 사용자 친화적인 UI를 제공합니다. 이 기능을 사용하면 지정된 모델에 대한 평가 매개변수를 입력하고 UI에서 모두 평가 결과 페이지를 반환할 수 있습니다.

L#178aStack과 함께 Guardrails Orchestrator 사용

이제 내장 탐지 구성 요소를 사용하여 L#178a Stack을 기술 프리뷰 기능으로 사용하여 Guardrails Orchestrator 도구를 사용하여 탐지를 실행할 수 있습니다. 이 기능을 사용하려면 TrustyAI가 활성화되어 있는지 확인하고 FMS Orchestrator 및 detect가 설정되고 필요한 경우 KServe RawDeployment 모드를 사용하여 완전히 호환됩니다. 필요한 수동 설정이 없습니다. 그런 다음 Red Hat OpenShift AI Operator의 DataScienceCluster 사용자 정의 리소스에서 spec.llamastackoperator.managementState 필드를 Managed 로 설정합니다.

자세한 내용은 GitHub의 Trusty AI FMS Provider 를 참조하십시오.

새로운 기능 저장소 구성 요소

이제 OpenShift AI에서 구성 가능한 구성 요소로 기능 저장소를 설치하고 관리할 수 있습니다. 기능 저장소는 오픈 소스 Feast 프로젝트를 기반으로 ML 모델과 데이터 간의 브리지 역할을 하여 ML 라이프사이클 전반에 걸쳐 일관되고 확장 가능한 기능 관리를 지원합니다.

이 기술 프리뷰 릴리스에는 다음과 같은 기능이 도입되었습니다.

일관된 기능 재사용을 위한 중앙 집중식 기능 리포지토리
ML 모델의 기능을 정의, 관리 및 검색하기 위한 프로그래밍 방식 및 명령줄 상호 작용을 위한 Python SDK 및 CLI
기능 정의 및 관리
광범위한 데이터 소스 지원
기능 구체화를 통한 데이터 수집
온라인 모델 추론 및 오프라인 모델 교육 모두에 대한 기능 검색
중요한 기능을 보호하기 위한 RBAC(역할 기반 액세스 제어)
타사 데이터 및 컴퓨팅 공급자와의 확장성 및 통합
엔터프라이즈 ML 요구 사항을 충족하기 위한 확장성
검색 가능한 기능 카탈로그
가시성 향상을 위한 데이터 라인 추적
구성 세부 정보는 Feature Store 구성을 참조하십시오.

IBM Power 및 IBM Z 아키텍처 지원: IBM Power(ppc64le) 및 IBM Z(s390x) 아키텍처는 이제 기술 프리뷰 기능으로 지원됩니다. 현재 이러한 아키텍처에서 KServe RawDeployment 모드에서 모델만 배포할 수 있습니다.

IBM Power 및 IBM Z 아키텍처에서 vLLM 지원: vLLM 런타임 템플릿은 IBM Power 및 IBM Z 아키텍처에서 기술 프리뷰로 사용할 수 있습니다.

노드 선택기를 사용하여 Red Hat OpenShift AI 대시보드의 특정 작업자 노드에 대한 작업 벤치마크 대상 배포 활성화

이제 하드웨어 프로필을 기술 프리뷰로 사용할 수 있습니다. 하드웨어 프로필 기능을 사용하면 사용자가 워크벤치 또는 모델 서비스 워크로드를 위해 특정 작업자 노드를 대상으로 지정할 수 있습니다. 사용자가 특정 가속기 유형 또는 CPU 전용 노드를 대상으로 지정할 수 있습니다.

이 기능은 현재 액셀러레이터 프로파일과 컨테이너 크기 선택기 필드를 대체하여 다양한 하드웨어 구성을 대상으로 하는 광범위한 기능을 제공합니다. 액셀러레이터 프로필, 테인트 및 톨러레이션은 워크로드에 일치하는 일부 기능을 하드웨어로 제공하는 반면, 특히 일부 노드에 적절한 테인트가 없는 경우 워크로드가 특정 노드에 배치되도록 보장할 수 없습니다.

하드웨어 프로필 기능은 노드 선택기와 함께 액셀러레이터 및 CPU 전용 구성을 모두 지원하여 특정 작업자 노드의 대상 지정 기능을 향상시킵니다. 관리자는 설정 메뉴에서 하드웨어 프로필을 구성할 수 있습니다. 사용자는 UI를 사용하여 워크벤치, 모델 제공 및 데이터 사이언스 파이프라인을 사용하여 활성화된 프로필을 선택할 수 있습니다.

R Cryostat Server 워크벤치 이미지

R Cryostat Server 워크벤치 이미지를 사용하면 R용 통합 개발 환경인 R Cryostat IDE에 액세스할 수 있습니다. R 프로그래밍 언어는 통계 컴퓨팅 및 그래픽으로 데이터 분석 및 예측을 지원하는 데 사용됩니다.

R Cryostat Server 워크벤치 이미지를 사용하려면 먼저 시크릿을 생성하고 BuildConfig 를 트리거하여 빌드한 다음 rstudio-rhel9 이미지 스트림을 편집하여 OpenShift AI UI에서 활성화해야 합니다. 자세한 내용은 R Cryostat Server 워크벤치 이미지 빌드를 참조하십시오.

중요

면책 조항: Red Hat은 OpenShift AI에서 워크벤치 관리를 지원합니다. 그러나 Red Hat은 R Cryostat 소프트웨어에 대한 지원을 제공하지 않습니다. R Cryostat Server는 rstudio.org 를 통해 사용할 수 있으며 라이선스 조건이 적용됩니다. 이 샘플 워크벤치를 사용하기 전에 라이센스 조건을 검토해야 합니다.

CUDA - R Cryostat 서버 워크벤치 이미지

CUDA - R Cryostat 서버 워크벤치 이미지를 사용하면 R Cryostat IDE 및 NVIDIA CUDA Toolkit에 액세스할 수 있습니다. R Cryostat IDE는 통계 컴퓨팅 및 그래픽을 위한 R 프로그래밍 언어를 위한 통합 개발 환경입니다. NVIDIA CUDA 툴킷을 사용하면 GPU 가속 라이브러리 및 최적화 도구를 사용하여 작업을 개선할 수 있습니다.

CUDA - R Cryostat Server 워크벤치 이미지를 사용하려면 먼저 시크릿을 생성하고 BuildConfig 를 트리거하여 빌드한 다음 rstudio-rhel9 이미지 스트림을 편집하여 OpenShift AI UI에서 활성화합니다. 자세한 내용은 R Cryostat Server 워크벤치 이미지 빌드를 참조하십시오.

중요

CUDA - R Cryostat 서버 워크벤치 이미지에는 NVIDIA CUDA 기술이 포함되어 있습니다. CUDA 라이센스 정보는 CUDA Toolkit 설명서에서 확인할 수 있습니다. 이 샘플 워크벤치를 사용하기 전에 라이센스 조건을 검토해야 합니다.

매우 큰 모델의 다중 노드 배포 지원

단일 모델 제공 런타임을 사용할 때 여러 GPU(그래픽 처리 장치) 노드에 모델을 제공하는 기능을 기술 프리뷰 기능으로 사용할 수 있습니다. 여러 GPU 노드에 모델을 배포하여 대용량 언어 모델(LLM)과 같은 대규모 모델을 배포할 때 효율성을 개선합니다. 자세한 내용은 여러 GPU 노드를 사용하여 모델 배포를 참조하십시오.

3장. 기술 프리뷰 기능

자세한 정보

평가판, 구매 및 판매

커뮤니티

Red Hat 소개

보다 포괄적 수용을 위한 오픈 소스 용어 교체

Red Hat 문서 정보

Theme

Red Hat legal and privacy links

Red Hat legal and privacy links