8장. 확인된 문제


이 섹션에서는 Red Hat OpenShift AI 3.0의 알려진 문제와 이러한 문제를 해결하는 알려진 방법에 대해 설명합니다.

RHOAIENG-37228 - OpenStack 및 프라이빗 클라우드 환경에 필요한 수동 DNS 구성

OpenStack에 OpenShift AI 3.0을 배포할 때 외부 DNS가 없는 CodeReady Containers (CRC) 또는 기타 프라이빗 클라우드 환경은 설치 후 대시보드 및 워크벤치와 같은 구성 요소에 대한 외부 액세스가 실패할 수 있습니다. 이는 동적으로 프로비저닝된 LoadBalancer 서비스가 외부 DNS에 IP 주소를 자동으로 등록하지 않기 때문에 발생합니다.

해결방법
액세스를 복원하려면 외부 DNS 시스템에 필요한 A 또는 CNAME 레코드를 수동으로 생성합니다. 자세한 내용은 OpenStack에서 RHOAI 3.x용 외부 DNS 구성 및 프라이빗 클라우드 지식베이스 문서를 참조하십시오.

RHOAIENG-38658 - IBM Z의 토큰 인증에 대한 모델 추론 중 TrustyAI 서비스 문제(s390x)

IBM Z(s390x) 아키텍처에서 토큰 인증이 활성화되면 TrustyAI 서비스에서 모델 유추 중에 오류가 발생합니다. JsonParseException 은 TrustyAI 서비스 로거에 로깅하는 동안 표시되므로 모니터링 프로세스가 실패하거나 예기치 않게 작동합니다.

해결방법
인증 없이 TrustyAI 서비스를 실행합니다. 이 문제는 토큰 인증이 활성화된 경우에만 발생합니다.

RHOAIENG-38333 -Generative AI Playworkspace에 의해 생성된 코드가 유효하지 않으며 작업장에서 필수 패키지가 누락되어 있습니다.

Generative AI Playworkspace에 의해 자동으로 생성된 코드는 OpenShift AI 워크벤치에서 실행할 때 구문 오류가 발생할 수 있습니다. 또한 L#178 aStackClient 패키지는 현재 표준 워크벤치 이미지에 포함되어 있지 않습니다.

RHOAIENG-38263 - IBM Z 용 SHA 런타임에서 Guardrails Detector 모델과 상호 발생 실패

IBM Z 플랫폼에서 Hugging Cryostat 런타임에서 실행되는 Guardrails Detector 모델은 간헐적으로 동일한 요청을 처리하지 못할 수 있습니다. 이전에 반환된 유효한 결과 요청이 다음 예와 유사한 구문 분석 오류와 함께 실패하는 경우도 있습니다.

Invalid numeric literal at line 1, column 20
Copy to Clipboard Toggle word wrap

이 오류로 인해 일반적으로 자동으로 복구되지만 제공 포드가 일시적으로 CrashLoopBackOff 상태가 될 수 있습니다.

해결방법
없음. Pod가 자동으로 다시 시작되고 정상적인 작업을 다시 시작합니다.

RHOAIENG-38253 - Serving 런타임 페이지에 나열되지 않은 llm-d가 있는 분산 유추 서버

llm-d를 사용한 분산 유추 서버는 모델을 배포할 때 사용 가능한 옵션으로 표시되지만 설정 섹션의 Serving 런타임 페이지에 나열되지 않습니다.

이는 llm-d가 있는 Distributed Inference Server 가 표준 제공 런타임 이외의 추가 구성 요소를 포함하는 복합 배포 유형이기 때문에 발생합니다. 따라서 관리자에게 표시되는 서비스 런타임 목록에 표시되지 않으며 현재 최종 사용자에게 숨길 수 없습니다.

해결방법
없음. llm-d 옵션이 있는 분산 유추 서버는 모델 배포에 계속 사용할 수 있지만 Serving 런타임 페이지에서는 관리하거나 볼 수 없습니다.

RHOAIENG-38252 - Model Registry Operator가 OpenShift 4.20의 BYOIDC 모드에서 작동하지 않음

BYOIDC(Bring Your Own Identity Provider) 모드로 구성된 OpenShift 4.20 클러스터에서는 Model Registry Operator 배포가 실패합니다.

ModelRegistry 사용자 정의 리소스를 생성할 때 사용 가능한 상태: True 에 도달하지 않습니다. 대신 리소스에 다음 예와 유사한 상태가 표시됩니다.

status:
  conditions:
  - lastTransitionTime: "2025-11-06T22:09:04Z"
    message: 'unexpected reconcile error: failed to get API group resources: unable to retrieve the complete list of server APIs: user.openshift.io/v1: the server could not find the requested resource'
    reason: DeploymentUnavailable
    status: "False"
    type: Available
Copy to Clipboard Toggle word wrap
해결방법
없음.

OpenShift 4.20에서 BYOIDC 모드를 사용하는 경우 모델 레지스트리 인스턴스를 생성하거나 배포할 수 없습니다.

RHOAIENG-38180 - Workbench 요청 기능 저장소 서비스에 대한 요청으로 인증서 오류가 발생합니다.

기본 구성을 사용하는 경우 Feast(기능 저장소) 배포에 필요한 인증서 및 서비스 엔드 포인트가 없습니다. 결과적으로 워크벤치는 Feast SDK를 사용하여 Feature Store에 요청을 보낼 수 없습니다.

해결방법
기존 FeatureStore CR(사용자 정의 리소스)을 삭제한 다음 다음 구성을 사용하여 새 리소스를 생성합니다.
registry:
  local:
    server:
      restAPI: false
Copy to Clipboard Toggle word wrap

Feature Store Pod 실행이 시작된 후 동일한 CR을 편집하여 registry.local.server.restAPI: true 를 설정하고 CR을 삭제하지 않고 저장합니다. REST 및 gRPC 서비스가 네임스페이스에 모두 생성되었는지 확인하고 Pod가 다시 시작되고 준비될 때까지 기다립니다.

RHOAIENG-37916 - Cryostat-D 배포된 모델은 배포 페이지에서 실패 상태를 표시합니다.

{llm-d}를 사용하여 배포된 모델은 먼저 관련 pod 로그에서 오류 또는 실패를 보고하더라도 OpenShift AI 대시보드의 Deployments 페이지에 Failed 상태를 표시합니다.

배포 상태를 확인하려면 OpenShift 콘솔을 사용하여 프로젝트의 포드를 모니터링합니다. 모델이 준비되면 OpenShift AI 대시보드가 상태를 Started 로 업데이트합니다.

해결방법
모델 상태가 자동으로 업데이트될 때까지 기다리거나 OpenShift 콘솔에서 포드 상태를 확인하여 모델이 성공적으로 시작되었는지 확인합니다.

RHOAIENG-37882 - Custom workbench (AnythingLLM) 로드되지 않음

AnythingLLM 1.8.5와 같은 사용자 정의 워크벤치를 배포하면 로드를 완료하지 못할 수 있습니다. OpenShift AI 3.0부터 모든 워크벤치는 Kubernetes Gateway API의 경로 기반 라우팅과 호환되어야 합니다. 이 요구 사항을 지원하지 않는 사용자 정의 워크벤치 이미지가 올바르게 로드되지 않습니다.

해결방법
${NB_PREFIX} 경로(예: /notebook/<namespace>/<workbench-name> )의 모든 콘텐츠를 제공하여 경로 기반 라우팅을 지원하도록 사용자 정의 워크벤치이미지를 업데이트합니다. 이 접두사 외부의 경로에 대한 요청(예: /index.html 또는 /api/data)은 workbench 컨테이너로 라우팅되지 않습니다.

기존 워크벤치를 수정하려면 다음을 수행합니다.

  • ${NB_PREFIX}/... 경로에서 요청을 처리하도록 애플리케이션을 업데이트합니다.
  • 프레임워크의 기본 경로 구성(예: FastAPI(root_path=os.getenv('NB_PREFIX', ''))
  • 리디렉션의 접두사를 보존하도록 nginx를 업데이트합니다.
  • ${NB_PREFIX}/api, ${NB_PREFIX}/api /kernels , ${NB_PREFIX}/api/terminals 에서 HTTP 200을 반환하는 상태 끝점을 구현합니다.
  • 상대 URL을 사용하고 /menu 와 같은 하드 코딩된 절대 경로를 제거합니다.

자세한 내용은 마이그레이션 가이드: 게이트웨이 API 마이그레이션 가이드를 참조하십시오.

RHOAIENG-37855 - 이름 길이 제한으로 인해 모델 카탈로그의 모델 배포 실패

모델 카탈로그 에서 특정 모델을 배포할 때 배포가 자동으로 실패하고 Starting 상태로 유지될 수 있습니다. 이 문제는 결과 오브젝트 이름이 63자 제한을 초과하면 KServe에서 InferenceService 에서 배포를 생성할 수 없기 때문에 발생합니다.

RedHatAI/Mistral-Small-3.1-24B-Instruct-2503-FP8-dynamic 모델을 배포하려고 하면 KServe에서 isvc.redhataimistral-#187-24b-instruct-2503-fp8-dynamic-predictor 라는 배포를 만들고 69자를 초과하여 허용되는 최대 길이를 초과합니다.
해결방법
더 짧은 모델 이름을 사용하거나 InferenceService 의 이름을 변경하여 생성된 오브젝트 이름이 63자 제한 내에 유지되도록 합니다.

RHOAIENG-37842 - ray.init()가 필요한 Cryostat 워크로드는 OpenShift AI를 트리거할 수 없습니다.

ray.init() 가 필요한 ray 워크로드는 OpenShift AI 환경 외부에서 트리거할 수 없습니다. 이러한 워크로드는 OpenShift의 OpenShift AI에서 실행되는 워크벤치 또는 파이프라인 내에서 제출해야 합니다. 이러한 워크로드를 외부에서 실행하는 것은 지원되지 않으며 초기화 오류가 발생합니다.

해결방법
OpenShift AI 워크벤치 또는 파이프라인 컨텍스트 내에서만 ray.init() 를 호출하는 Cryostat 워크로드를 실행합니다.

RHOAIENG-37743 - 워크벤치 시작 시 진행 표시줄이 표시되지 않음

워크벤치를 시작할 때 Workbench Status 화면의 Progress 탭에는 단계별 진행이 표시되지 않습니다. 대신 "Steps may repeat or occur in a different order."라는 일반 메시지가 표시됩니다.

해결방법
자세한 진행 정보를 보려면 이벤트 로그 탭을 열거나 OpenShift 콘솔을 사용하여 워크벤치와 관련된 포드 세부 정보를 확인합니다.

RHOAIENG-37667 - Cryostat-D 런타임에서만 사용할 수 있는 MaaS(Model-as-a-Service)

MaaS(Model-as-a-Service)는 현재 llm-d 런타임이 있는 Distributed Inference Server로 배포된 모델에서만 지원됩니다. vLLM 런타임으로 배포된 모델은 현재 MaaS에서 제공할 수 없습니다.

해결방법
없음. Model-as-a-Service 기능이 필요한 배포에 llm-d 런타임을 사용합니다.

RHOAIENG-37561 - 대시보드 콘솔 링크가 3.0.0의 IBM Z 클러스터에서 OpenShift AI에 액세스하지 못했습니다.

IBM Z 클러스터의 콘솔 링크를 사용하여 OpenShift AI 3.0.0 대시보드에 액세스하려고 하면 연결에 실패합니다.

해결방법
다음 YAML 파일을 적용하여 Gateway 링크의 경로를 만듭니다.
apiVersion: route.openshift.io/v1
kind: Route
metadata:
  name: data-science-gateway-data-science-gateway-class
  namespace: openshift-ingress
spec:
  host: data-science-gateway.apps.<baseurl>
  port:
    targetPort: https
  tls:
    termination: passthrough
  to:
    kind: Service
    name: data-science-gateway-data-science-gateway-class
    weight: 100
  wildcardPolicy: None
Copy to Clipboard Toggle word wrap

RHOAIENG-37259 - Elyra Pipelines not supported on IBM Z (s390x)

ELYRA Pipelines는 오케스트레이션 및 검증을 위해 DSP(Data Science Pipelines)에 의존합니다. DSP는 현재 IBM Z에서 사용할 수 없으므로 Elyra 파이프라인 관련 기능 및 테스트는 건너뜁니다.

해결방법
없음. ELYRA Pipelines는 IBM Z에서 DSP 지원이 활성화되고 검증되면 올바르게 작동합니다.

RHOAIENG-37015 - PyTorch 2.8 교육 이미지에서 TensorBoard 보고가 실패했습니다.

이미지 registry.redhat.io/rhoai/odh-ovn-cuda128-torch28-py312-rhel9:rhoai-3.0 .rhoai-3.0 과 함께 SFTTrainer 를 사용하는 교육 작업에 TensorBoard 보고를 사용하는 경우 또는 report_to 매개변수가 교육 구성에서 생략될 때 JSON 직렬화 오류로 인해 교육 작업이 실패합니다.

해결방법
최신 버전의 transformerstrl 패키지를 설치하고 교육 구성에서 torch_dtype 매개 변수를 dtype 으로 업데이트합니다.

Training Operator SDK를 사용하는 경우 create_job 함수에서 packages_to_install 매개변수를 사용하여 설치할 패키지를 지정할 수 있습니다.

packages_to_install=[
    "transformers==4.57.1",
    "trl==0.24.0"
]
Copy to Clipboard Toggle word wrap

RHOAIENG-36757 - 연결이 없는 경우 모델 배포 중에 기존 클러스터 스토리지 옵션이 누락됨

데이터 연결이 정의되지 않은 프로젝트에서 모델 배포를 생성할 때 프로젝트에 적절한 PVC(영구 볼륨 클레임)가 있는 경우에도 기존 클러스터 스토리지 옵션이 표시되지 않습니다. 이렇게 하면 모델 배포를 위해 기존 PVC를 선택할 수 없습니다.

해결방법
프로젝트에 하나 이상의 유형 URI 를 생성하여 기존 클러스터 스토리지 옵션이 표시되도록 합니다.

RHOAIENG-31071 - IBM Z (s390x)에서 지원되지 않는 Parquetset

arc_easyarc_challenge 와 같은 일부 기본 제공 평가 작업은 Parquet 형식의 Hugging Cryostat에서 제공하는 데이터 세트를 사용합니다. parquet는 IBM Z에서 지원되지 않습니다.

해결방법
없음. IBM Z의 모델을 평가하려면 Parquet 대신 지원되는 형식으로 DaemonSet을 사용하십시오.

RHAIENG-1795 - Cryostat를 사용한 CodeFlare가 게이트웨이에서 작동하지 않음

다음 명령을 실행할 때 출력은 Cryostat 클러스터가 생성되고 실행 중임을 나타내지만 게이트웨이 경로가 올바르게 응답하지 않기 때문에 셀이 완료되지 않음을 나타냅니다.

cluster.up()
cluster.wait_ready()
Copy to Clipboard Toggle word wrap

결과적으로 Cryostat 클러스터 가져오기 또는 작업 클라이언트 가져오기와 같은 후속 작업이 실패하여 클러스터에 작업 제출을 방지합니다.

해결방법
없음. CodeFlare를 통해 만들 때 Cryostat 대시보드 게이트웨이 경로가 제대로 작동하지 않습니다.

RHAIENG-1796 - Kubernetes 파이프라인 스토리지를 사용할 때 파이프라인 이름은 DNS와 호환되어야 합니다.

Kubernetes를 파이프라인의 스토리지 백엔드로 사용하는 경우 Elyra는 파이프라인 이름을 DNS 호환 값으로 자동 변환하지 않습니다. Elyra 파이프라인을 시작할 때 DNS 호환이 아닌 이름을 사용하는 경우 다음과 유사한 오류가 표시됩니다.

[TIP: did you mean to set 'https://ds-pipeline-dspa-robert-tests.apps.test.rhoai.rh-aiservices-bu.com/pipeline' as the endpoint, take care not to include 's' at end]
Copy to Clipboard Toggle word wrap
해결방법
Elyra 파이프라인을 생성하거나 실행할 때 DNS 호환 이름을 사용합니다.

RHAIENG-1139 - 여러 네임스페이스에서 동일한 이름으로 L#187aStackDistribution을 배포할 수 없습니다

다른 네임 스페이스에서 동일한 이름으로 두 개의 L#178a StackDistribution 리소스를 생성하면 두 번째 리소스의 ReplicaSet이 L appreciatea Stack Pod를 시작하지 못합니다. 네임스페이스 간에 중복 이름을 사용하는 경우 L#178a Stack Operator는 보안 제약 조건을 올바르게 할당하지 않습니다.

해결방법
모든 네임스페이스에서 각 L#178a StackDistribution 에 고유한 이름을 사용합니다. 예를 들어 프로젝트 이름을 포함하거나 llama-stack-distribution-209342 와 같은 접미사를 추가합니다.

RHAIENG-1624 - 연결이 끊긴 클러스터에서 API 시간 초과 포함

연결이 끊긴 클러스터에서 포함된 기본 포함 모델(기본 포함 모델ibm-granite/granite-embedding-125m-english)을 사용할 때 포함 API 호출이 시간 초과될 수 있습니다.

해결방법

L#178a StackDistribution 사용자 정의 리소스에 다음 환경 변수를 추가하여 포함된 모델을 오프라인으로 사용합니다.

- name: SENTENCE_TRANSFORMERS_HOME
  value: /opt/app-root/src/.cache/huggingface/hub
- name: HF_HUB_OFFLINE
  value: "1"
- name: TRANSFORMERS_OFFLINE
  value: "1"
- name: HF_DATASETS_OFFLINE
  value: "1"
Copy to Clipboard Toggle word wrap

RHOAIENG-34923 - hapyterLab에서 파이프라인을 실행할 때 런타임 구성이 누락됨

프로젝트의 첫 번째 활성 워크벤치의 파이프라인을 실행할 때 Elyra 파이프라인 편집기에 런타임 구성이 표시되지 않을 수 있습니다. 이는 초기 워크벤치 세션에 대한 구성이 채워지지 않았기 때문에 발생합니다.

해결방법
워크벤치를 다시 시작합니다. 다시 시작한 후 파이프라인 실행에 런타임 구성을 사용할 수 있게 됩니다.

RHAIENG-35055 - OpenShift AI 2.24에서 업그레이드한 후 모델 카탈로그가 초기화되지 않음

OpenShift AI 2.24에서 업그레이드한 후 모델 카탈로그를 초기화 및 로드하지 못할 수 있습니다. OpenShift AI 대시보드에는 모델 카탈로그 오류에 대한 요청 액세스 권한이 표시됩니다.

해결방법

다음 명령을 실행하여 기존 모델 카탈로그 ConfigMap 및 배포를 삭제합니다.

$ oc delete configmap model-catalog-sources -n rhoai-model-registries --ignore-not-found
$ oc delete deployment model-catalog -n rhoai-model-registries --ignore-not-found
Copy to Clipboard Toggle word wrap

RHAIENG-35529 - 외부 Argo 워크플로우를 사용할 때 Data Science Pipelines Operator의 조정 문제

기존 외부 Argo 워크플로우 설치를 삭제하기 전에 포함된 Argo Workflows 컨트롤러(argoWorkflowsControllers: Managed)를 활성화하면 워크플로우 컨트롤러가 시작되지 않고 DSPO(Data Science Pipelines Operator)에서 사용자 정의 리소스를 올바르게 조정하지 못할 수 있습니다.

해결방법
포함된 Argo Workflows 컨트롤러를 활성화하기 전에 클러스터에서 기존 외부 Argo Workflows 인스턴스를 삭제합니다.

RHAIENG-36756 - 연결이 없는 경우 모델 배포 중에 기존 클러스터 스토리지 옵션이 누락됨

정의된 데이터 연결 없이 프로젝트에서 모델 배포를 생성할 때 PVC(영구 볼륨 클레임)를 사용할 수 있는 경우에도 기존 클러스터 스토리지 옵션이 표시되지 않습니다. 따라서 모델 스토리지에 대한 기존 PVC를 선택할 수 없습니다.

해결방법
프로젝트에 하나 이상의 유형 URI 연결을 생성합니다. 그런 다음 기존 클러스터 스토리지 옵션을 사용할 수 있게 됩니다.

RHOAIENG-36817 - 모델 서버 크기가 small으로 설정된 경우 Inference 서버가 실패합니다.

대시보드를 통해 유추 서비스를 생성할 때 작은 모델 서버 크기를 선택하면 후속 유추 요청이 실패합니다. 결과적으로 유추 서비스 자체의 배포가 성공하지만 추론 요청은 시간 초과 오류와 함께 실패합니다.

해결방법
이 문제를 해결하려면 드롭다운에서 모델 서버 크기를 선택합니다.

RHOAIENG-33995 - Phi 및 Mistral 모델에 대한 추론 서비스 배포 실패

openshift-container-platform 4.19가 있는 IBM Power 클러스터에서 vLLM 런타임을 사용하여 Phi 및 Mistral 모델에 대한 유추 서비스 생성은 CPU 백엔드와 관련된 오류로 인해 실패합니다. 결과적으로 이러한 모델의 배포가 영향을 받아 서비스 생성에 실패합니다.

해결방법
이 문제를 해결하려면 CPU 및 Phi 모델에 대해 활성화된 경우 제공 런타임에서 sliding_window 메커니즘을 비활성화합니다. Sliding 창은 현재 V1에서 지원되지 않습니다.

RHOAIENG-33795 - IBM Z의 Triton Inference Server에 대한 gRPC 엔드 포인트 확인에 필요한 수동 경로 생성

gRPC 끝점을 사용하여 Triton Inference 서버를 확인하는 경우 경로가 자동으로 생성되지 않습니다. 이는 Operator가 현재 기본적으로 REST에 대한 에지 종료 경로를 생성하기 때문에 발생합니다.

해결방법

이 문제를 해결하려면 IBM Z의 Triton Inference Server의 gRPC 끝점 확인에 수동 경로 생성이 필요합니다.

  1. 모델 배포 Pod가 실행 중이면 다음 콘텐츠를 사용하여 YAML 파일에 에지 종료 Route 오브젝트를 정의합니다.

    apiVersion: route.openshift.io/v1
    kind: Route
    metadata:
      name: <grpc-route-name>                  # e.g. triton-grpc
      namespace: <model-deployment-namespace>  # namespace where your model is deployed
      labels:
        inferenceservice-name: <inference-service-name>
      annotations:
        haproxy.router.openshift.io/timeout: 30s
    spec:
      host: <custom-hostname>                  # e.g. triton-grpc.<apps-domain>
      to:
        kind: Service
        name: <service-name>                   # name of the predictor service (e.g. triton-predictor)
        weight: 100
      port:
        targetPort: grpc                       # must match the gRPC port exposed by the service
      tls:
        termination: edge
      wildcardPolicy: None
    Copy to Clipboard Toggle word wrap
  2. Route 오브젝트를 생성합니다.

    oc apply -f <route-file-name>.yaml
    Copy to Clipboard Toggle word wrap
  3. 유추 요청을 보내려면 다음 명령을 입력합니다.

    grpcurl -cacert <ca_cert_file>\ 
    1
    
      -protoset triton_desc.pb \
      -d '{
        "model_name": "<model_name>",
        "inputs": [
          {
            "name": "<input_tensor_name>",
            "shape": [<shape>],
            "datatype": "<data_type>",
            "contents": {
              "<datatype_specific_contents>": [<input_data_values>]
            }
          }
        ],
        "outputs": [
          {
            "name": "<output_tensor_name>"
          }
        ]
      }' \
      <grpc_route_host>:443 \
      inference.GRPCInferenceService/ModelInfer
    Copy to Clipboard Toggle word wrap
    1
    <ca_cert_file>은 클러스터 라우터 CA 인증서의 경로입니다(예: router-ca.crt).
참고

<triton_protoset_file>은 protobuf 설명자 파일로 컴파일됩니다. protoc -I. --descriptor_set_out=triton_desc.pb --include_imports grpc_service.proto 로 생성할 수 있습니다.

triton-inference-service GitHub 페이지에서 grpc_service.protomodel_config.proto 파일을 다운로드합니다.

RHOAIENG-33697 - 상태가 "시작되지 않은 경우 모델을 편집하거나 삭제할 수 없음

NVIDIA NIM 또는 단일 모델 제공 플랫폼에 모델을 배포할 때 작업 메뉴의 편집삭제 옵션은 시작 또는 보류 중 상태의 모델에 사용할 수 없습니다. 이러한 옵션은 모델이 성공적으로 배포된 후에만 사용할 수 있습니다.

해결방법
모델이 Started 상태가 될 때까지 기다린 후 모델을 변경하거나 삭제합니다.

RHOAIENG-33645 - LM-Eval Tier1 테스트 실패

이전 버전의 trustyai-service-operator 를 사용하는 경우 confirm_run_unsafe_code 가 인수로 전달되지 않기 때문에 LM-Eval Tier1 테스트에는 오류가 발생할 수 있습니다.

해결방법
최신 버전의 trustyai-service-operator 를 사용하고 AllowCodeExecution 가 활성화되어 있는지 확인합니다.

RHOAIENG-29729 - 업그레이드 후 재시작 루프에 모델 레지스트리 Operator

모델 레지스트리 구성 요소가 활성화된 상태에서 OpenShift AI 버전 2.22 이하에서 버전 2.23 이상으로 업그레이드한 후 모델 레지스트리 Operator가 재시작 루프에 들어갈 수 있습니다. 이는 model-registry-operator-controller-manager Pod의 관리자 컨테이너에 대한 메모리 제한이 부족하기 때문입니다.

해결방법

이 문제를 해결하려면 model-registry-operator-controller-manager 배포에 대한 조정을 트리거해야 합니다. 배포에 opendatahub.io/managed='true' 주석을 추가하면 이 작업이 수행되고 올바른 메모리 제한을 적용합니다. 다음 명령을 실행하여 주석을 추가할 수 있습니다.

oc annotate deployment model-registry-operator-controller-manager -n redhat-ods-applications opendatahub.io/managed='true' --overwrite
Copy to Clipboard Toggle word wrap
참고

이 명령은 model-registry-operator-controller-manager 배포에서 사용자 지정 값을 덮어씁니다. 사용자 지정 배포 값에 대한 자세한 내용은 구성 요소 배포 리소스 사용자 지정을 참조하십시오.

배포가 업데이트되고 메모리 제한이 128Mi에서 256Mi로 증가하면 컨테이너 메모리 사용량이 안정화되고 재시작 루프가 중지됩니다.

RHOAIENG-31238 - DSCInitialization을 생성할 때 새로운 관찰 기능 스택 활성화

DSCInitialization 리소스를 제거하고 OpenShift AI 콘솔 양식 보기를 사용하여 새 리소스를 생성하면 기술 프리뷰 관찰 기능을 사용할 수 있습니다. 이로 인해 DSCInitialization 리소스를 다시 생성할 때 원하지 않는 관찰 기능이 배포됩니다.

해결방법

이 문제를 해결하려면 양식 보기를 사용하여 DSCInitiliazation 리소스를 다시 생성할 때 "metrics" 및 "traces" 필드를 수동으로 제거합니다.

기술 프리뷰 관찰 기능을 사용하려면 필요하지 않습니다.

RHOAIENG-32599 - IBM Z 클러스터에서 유추 서비스 생성 실패

IBM Z 클러스터에서 vLLM 런타임을 사용하여 유추 서비스를 생성하려고 하면 다음 오류와 함께 실패합니다. ValueError: 'aimv2'는 이미 Transformers 구성에서 사용 중인 다른 이름을 선택합니다.

해결방법
없음.

RHOAIG-29731 - OpenShift 4.19를 사용하는 IBM Power 클러스터에서 Inference 서비스 생성이 실패합니다.

OpenShift Container Platform 버전 4.19의 IBM Power 클러스터에서 vLLM 런타임을 사용하여 유추 서비스를 생성하려고 하면 NUMA(Non-Uniform Memory Access)와 관련된 오류로 인해 실패합니다.

해결방법
유추 서비스를 생성할 때 환경 변수 VLLM_CPU_OMP_THREADS_BINDall 로 설정합니다.

RHOAIENG-292 - 사용 통계 디렉토리 액세스로 인해 IBM Z에서 권한 오류를 기록합니다.

IBM Z 아키텍처에서 vLLM을 실행하면 유추 서비스가 성공적으로 시작되지만 사용량 통계 보고와 관련된 백그라운드 스레드에 오류를 기록합니다. 이는 서비스가 액세스 권한이 없는 제한된 위치(/.config)에 사용 데이터를 쓰려고 하기 때문에 발생합니다.

로그에 다음 오류가 표시됩니다.

Exception in thread Thread-2 (_report_usage_worker):
Traceback (most recent call last):
 ...
PermissionError: [Error 13] Permission denied: '/.config'
Copy to Clipboard Toggle word wrap
해결방법
이 오류를 방지하고 사용량 통계 로깅을 표시하지 않으려면 유추 서비스 배포에서 VLLM_NO_USAGE_STATS=1 환경 변수를 설정합니다. 이렇게 하면 자동 사용 보고가 비활성화되므로 시스템 디렉터리에 쓰기 시 권한 문제가 발생하지 않습니다.

RHOAIG-245 - 처음 시작한 후 워크벤치에 런타임 이미지가 존재하지 않음

런타임 이미지 목록이 네임스페이스에서 첫 번째 실행 중인 워크벤치 인스턴스를 올바르게 채우지 않으므로 Elyra 파이프라인 편집기에서 선택할 수 있는 이미지가 표시되지 않습니다.

해결방법
워크벤치를 다시 시작합니다. 워크벤치를 다시 시작한 후 런타임 이미지 목록에 Elyra 파이프라인 편집기의 워크벤치와 선택 상자가 모두 채워집니다.

RHOAIENG-20209 - 요청된 리소스가 임계값을 초과하면 경고 메시지가 표시되지 않음

분산 워크로드 프로젝트 메트릭 을 클릭하고 요청 리소스 섹션을 보면 차트에 요청된 리소스 값과 각 리소스(CPU메모리)에 대한 총 공유 할당량 값이 표시됩니다. 그러나 모든 프로젝트의 Requested by all projects 값이 해당 리소스에 대한 Warning 임계값 을 초과하면 예상되는 경고 메시지가 표시되지 않습니다.

해결방법
없음.

SRVKS-1301 (이전에는 RHOAIENG-18590)로 문서화되어 있음 - KServe를 비활성화하고 활성화한 후 KnativeServing 리소스가 실패합니다.

DataScienceCluster에서 kserve 구성 요소를 비활성화하고 활성화하면 KnativeServing 리소스가 실패할 수 있습니다.

해결방법

Knative와 관련된 모든 ValidatingWebhookConfigurationMutatingWebhookConfiguration Webhook를 삭제합니다.

  1. Webhook를 가져옵니다.

    oc get ValidatingWebhookConfiguration,MutatingWebhookConfiguration | grep -i knative
    Copy to Clipboard Toggle word wrap
  2. KServe가 비활성화되어 있는지 확인합니다.
  3. Webhook를 가져옵니다.

    oc get ValidatingWebhookConfiguration,MutatingWebhookConfiguration | grep -i knative
    Copy to Clipboard Toggle word wrap
  4. Webhook를 삭제합니다.
  5. KServe를 활성화합니다.
  6. KServe Pod가 성공적으로 생성할 수 있고 knative-serving 네임스페이스의 Pod가 활성 상태이고 작동하는지 확인합니다.

RHOAIENG-16247 - OpenShift AI 대시보드에서 실행이 시작될 때 Elyra 파이프라인 실행 출력을 덮어씁니다.

Elyra에서 파이프라인을 생성하고 실행하면 파이프라인 실행에 의해 생성된 출력은 오브젝트 스토리지의 bucket-name/pipeline-name-timestamp 폴더에 저장됩니다.

Elyra에서 파이프라인이 생성되고 OpenShift AI 대시보드에서 파이프라인 실행이 시작되면 타임스탬프 값이 업데이트되지 않습니다. 이로 인해 파이프라인 실행이 동일한 파이프라인 실행의 이전 파이프라인 실행으로 생성된 파일을 덮어쓸 수 있습니다.

runid 는 항상 오브젝트 스토리지에 사용되는 폴더에 추가되므로 이 문제는 OpenShift AI 대시보드를 사용하여 컴파일 및 가져온 파이프라인에 영향을 미치지 않습니다. AI 파이프라인에 사용되는 스토리지 위치에 대한 자세한 내용은 파이프라인 을 사용하여 데이터 저장을 참조하십시오.

해결방법
Elyra 파이프라인에 파일을 저장할 때 각 파이프라인 실행 시 다른 하위 폴더 이름을 사용합니다.

OCPBUGS-49422 - AMD GPU 및 AMD ROCm 워크벤치 이미지는 연결이 끊긴 환경에서 지원되지 않습니다.

이번 OpenShift AI 릴리스는 AMD GPU Operator를 설치하려면 GPU 드라이버 컴파일에 필요한 종속성을 가져오기 위해 인터넷 액세스가 필요하기 때문에 연결이 끊긴 환경에서 AMD GPU 및 AMD ROCm 워크벤치 이미지를 지원하지 않습니다.

해결방법
없음.

RHOAIENG-7716 - 파이프라인 조건 그룹 상태가 업데이트되지 않음

루프(dsl.ParallelFor) 또는 조건 그룹(dsl.lf)이 있는 파이프라인을 실행하면 파이프라인 실행이 완료된 후에도 UI에 루프 및 그룹에 대한 Running 상태가 표시됩니다.

해결방법

하위 작업이 활성 상태로 유지되지 않았는지 확인하여 파이프라인이 여전히 실행 중인지 확인할 수 있습니다.

  1. OpenShift AI 대시보드에서 개발 및 교육 파이프라인 실행을 클릭합니다.
  2. 프로젝트 목록에서 데이터 사이언스 프로젝트를 클릭합니다.
  3. 실행 탭에서 상태를 확인할 파이프라인 실행을 클릭합니다.
  4. 조건 그룹을 확장하고 하위 작업을 클릭합니다.

    하위 작업에 대한 정보가 포함된 패널이 표시됩니다.

  5. 패널에서 Task 세부 정보 탭을 클릭합니다.

    Status 필드에 하위 작업에 대한 올바른 상태가 표시됩니다.

RHOAIENG-6409 - 성공적인 실행을 위해 파이프라인 로그에 매개변수 오류를 저장할 수 없습니다

파이프라인을 두 번 이상 실행하면 파이프라인 실행이 성공하도록 파이프라인 로그에 매개변수 오류를 저장할 수 없습니다. 이러한 오류는 무시해도 됩니다.

해결방법
없음.

RHOAIENG-3025 - OVMS 예상 디렉터리 레이아웃 KServe StoragePuller 레이아웃

OVMS(OpenVINO Model Server) 런타임을 사용하여 단일 모델 제공 플랫폼(KServe 사용)에 모델을 배포할 때 OVMS에서 예상되는 디렉터리 레이아웃과 KServe에서 사용하는 모델 가져오기 논리의 디렉터리 레이아웃이 일치하지 않습니다. 특히 OVMS에서는 모델 파일이 /< mnt>/models/1/ 디렉터리에 있어야 하지만 KServe는 이를 /<mnt>/models/ 디렉터리에 배치합니다.

해결방법

다음 작업을 수행합니다.

  1. S3 호환 스토리지 버킷에서 모델 파일을 1/ 이라는 디렉터리에 배치합니다(예: /< s3_storage_bucket>/models/1/<model_files > ).
  2. OVMS 런타임을 사용하여 단일 모델 제공 플랫폼에 모델을 배포하려면 다음 옵션 중 하나를 선택하여 모델 파일의 경로를 지정합니다.

    • OpenShift AI 대시보드를 사용하여 모델을 배포하는 경우 데이터 연결의 경로 필드에서 /<s3_storage_bucket>/models/ 형식을 사용하여 모델 파일의 경로를 지정합니다. 1/ 디렉터리를 경로의 일부로 지정하지 마십시오.
    • 모델을 배포하기 위해 자체 InferenceService 사용자 지정 리소스를 생성하는 경우 storageURI 필드의 값을 /<s3_storage_bucket>/models/ 로 구성합니다. 1/ 디렉터리를 경로의 일부로 지정하지 마십시오.

KServe는 지정한 경로의 하위 디렉터리에서 모델 파일을 가져옵니다. 이 경우 KServe는 S3 호환 스토리지의 /<s3_storage_bucket>/models/1/ 디렉토리에서 모델 파일을 올바르게 가져옵니다.

RHOAIENG-3018 - KServe의 OVMS는 대시보드에 올바른 끝점을 노출하지 않습니다.

OVMS(OpenVINO Model Server) 런타임을 사용하여 단일 모델 제공 플랫폼에 모델을 배포할 때 배포된 모델의 유추 끝점 필드에 표시된 URL이 완료되지 않습니다.

해결방법
모델에 쿼리를 보내려면 /v2/models/_<model-name>_/infer 문자열을 URL 끝에 추가해야 합니다. _<model-name>_ 을 배포된 모델의 이름으로 바꿉니다.

RHOAIENG-2228 - 간격이 15초로 설정될 때 성능 메트릭 그래프가 지속적으로 변경됩니다.

모델 지표 화면의 끝점 성능 탭에서 새로 고침 간격을 15초로 설정하고 시간 범위를 1시간으로 설정하면 그래프 결과가 지속적으로 변경됩니다.

해결방법
없음.

RHOAIENG-2183 - 끝점 성능 그래프에 잘못된 레이블이 표시될 수 있습니다.

모델 지표 화면의 끝점 성능 탭에서 그래프 툴팁에 잘못된 레이블이 표시될 수 있습니다.

해결방법
없음.

RHOAIENG-131 - gRPC 끝점이 Loaded로 보고한 후 제대로 응답하지 않음

수많은 InferenceService 인스턴스가 생성되고 요청을 지시하면 SMCP(Service Mesh Control Plane)가 응답하지 않습니다. InferenceService 인스턴스의 상태는 Loaded 이지만 gRPC 끝점에 대한 호출은 오류와 함께 반환됩니다.

해결방법
ServiceMeshControlPlane 사용자 정의 리소스(CR)를 편집하여 Istio 송신 및 인그레스 Pod의 메모리 제한을 늘립니다.

RHOAIENG-1619 (이전에는 DATA-SCIENCE-PIPELINES-165)로 문서화되어 있습니다. S3 버킷을 쓸 수 없는 경우 오류 메시지

데이터 연결을 설정하고 S3 버킷을 쓸 수 없으며 파이프라인을 업로드하려고 하면 파이프라인을 저장할 수 없음 이라는 오류 메시지가 도움이 되지 않습니다.

해결방법
데이터 연결 인증 정보가 올바르고 사용자가 지정한 버킷에 대한 쓰기 액세스 권한이 있는지 확인합니다.

RHOAIENG-1207 (이전에는 ODH-DASHBOARD-1758) - cnfTB 사용자 정의 서비스 런타임을 여러 번 중복된 오류

model-serving 런타임을 여러 번 복제하면 Serving 런타임 이름 "<name>"과 함께 중복이 실패합니다.

해결방법
metadata.name 필드를 고유한 값으로 변경합니다.

RHOAIENG-133 - 기존 워크벤치는 워크벤치 다시 시작한 후 Elyra 파이프라인을 실행할 수 없습니다.

Elyra tellpyterLab 확장을 사용하여 hieradatapyterLab 내에서 파이프라인을 생성 및 실행하고, 워크벤치 내에서 워크벤치 이미지를 생성하고 실행한 파이프라인 서버를 구성하면 워크벤치를 다시 시작한 후에도 파이프라인을 실행할 수 없습니다.

해결방법
  1. 실행 중인 워크벤치를 중지합니다.
  2. 워크벤치를 편집하여 약간의 수정을 수행합니다. 예를 들어 새 더미 환경 변수를 추가하거나 불필요한 기존 환경 변수를 삭제합니다. 변경 사항을 저장하십시오.
  3. 워크벤치를 다시 시작합니다.
  4. sendpyterLab의 왼쪽 사이드바에서 런타임을 클릭합니다.
  5. 기본 런타임이 선택되어 있는지 확인합니다.

RHODS-12798 - Pod 실패, "unable to init seccomp" 오류

seccomp 메모리 누수를 도입한 알려진 커널 버그로 인해 Pod는 Running 상태 대신 CreateContainerError 상태 또는 Pending 상태로 인해 실패합니다. Pod가 실패한 네임스페이스에서 이벤트를 확인하거나 oc describe pod 명령을 실행하면 다음 오류가 표시됩니다.

runc create failed: unable to start container process: unable to init seccomp: error loading seccomp filter into kernel: error loading seccomp filter: errno 524
Copy to Clipboard Toggle word wrap

KUBEFLOW-177 - OAuth 프록시에 의해 전달되지 않은 애플리케이션의 전달자 토큰

내부 인증 메커니즘이 전달자 토큰을 기반으로 하는 경우 애플리케이션을 사용자 지정 워크벤치 이미지로 사용할 수 없습니다. OAuth-proxy 구성은 헤더에서 전달자 토큰을 제거하며 애플리케이션이 제대로 작동할 수 없습니다.

해결방법
없음.

KUBEFLOW-157 - OpenShift AI 대시보드에서 이미 로그아웃한 경우 duepyterLab에서 로깅이 작동하지 않음

CryostatpyterLab에서 로그아웃하기 전에 OpenShift AI 대시보드에서 로그아웃하는 경우 teachingpyterLab에서 로그아웃하는 데 성공하지 못합니다. 예를 들어, sendpyter 노트북의 URL을 알고 있으면 브라우저에서 이 URL을 다시 열 수 있습니다.

해결방법
OpenShift AI 대시보드에서 로그아웃하기 전에 sendpyterLab에서 로그아웃합니다.

RHODS-7718 - 대시보드 권한이 없는 사용자는 실행 중인 워크벤치를 무기한 계속 사용할 수 있습니다.

Red Hat OpenShift AI 관리자가 사용자의 권한을 취소하면 사용자는 실행 중인 워크벤치를 무기한 계속 사용할 수 있습니다.

해결방법
OpenShift AI 관리자가 사용자의 권한을 취소하는 경우 관리자는 해당 사용자의 실행 중인 워크벤치도 중지해야 합니다.

RHODS-5543 - NVIDIA GPU Operator를 사용할 때 필요한 것보다 더 많은 노드가 노드 자동 스케일러에 의해 생성됩니다.

사용 가능한 리소스가 부족하여 Pod를 예약할 수 없는 경우 노드 자동 스케일러는 새 노드를 생성합니다. 새로 생성된 노드가 관련 GPU 워크로드를 수신할 때까지 지연이 발생합니다. 결과적으로 Pod를 예약할 수 없으며 노드 자동 스케일러는 GPU 워크로드를 수신할 준비가 될 때까지 추가 새 노드를 지속적으로 생성합니다. 이 문제에 대한 자세한 내용은 Red Hat Knowledgebase 솔루션에서 NVIDIA GPU Operator를 사용할 때 노드 자동 스케일러에서 필요한 것보다 많은 노드를 참조하십시오.

해결방법
machineset.spec.template.spec.metadatacluster-api/accelerator 레이블을 적용합니다. 이로 인해 자동 스케일러는 GPU 드라이버가 배포될 때까지 해당 노드를 준비되지 않은 것으로 간주합니다.

RHODS-4799 - Tensorboard를 보려면 수동 단계가 필요합니다.

사용자에게 TensorFlow 또는 PyTorch 워크벤치 이미지가 있고 TensorBoard를 사용하여 데이터를 표시하려는 경우 워크벤치 환경에 환경 변수를 추가하고 해당 변수를 코드에서 사용하려면 수동 단계가 필요합니다.

해결방법

기본 워크벤치를 시작할 때 다음 코드를 사용하여 TENSORBOARD_PROXY_URL 환경 변수의 값을 설정하여 OpenShift AI 사용자 ID를 사용합니다.

import os
os.environ["TENSORBOARD_PROXY_URL"]= os.environ["NB_PREFIX"]+"/proxy/6006/"
Copy to Clipboard Toggle word wrap

RHODS-4718 - Intel® oneAPI AI Analytics Toolkits 빠른 시작은 존재하지 않는 샘플 노트북을 참조합니다.

대시보드의 리소스 페이지에 있는 Intel® oneAPI AI Analytics Toolkits 빠른 시작에는 사용자가 명령 단계의 일부로 샘플 노트북을 로드해야 하지만, 연결된 리포지토리에 없는 노트북을 나타냅니다.

해결방법
없음.

RHOAING-1147 (이전에는 RHODS-2881) - 대시보드의 작업이 명확하게 표시되지 않음

비활성화된 애플리케이션 라이센스를 다시 무효화하고 비활성화된 애플리케이션 타일을 제거하는 대시보드 작업은 사용자에게 명확하게 표시되지 않습니다. 이러한 작업은 사용자가 애플리케이션 타일의 Disabled 레이블을 클릭하면 표시됩니다. 따라서 의도한 워크플로우가 사용자에게 명확하지 않을 수 있습니다.

해결방법
없음.

RHODS-2096 - OpenShift AI에서 IBM Cryostat Studio를 사용할 수 없음

IBM Cryostat Studio는 OpenShift Dedicated 4.9 이상에 OpenShift AI를 설치할 때 이러한 OpenShift Dedicated 버전과 호환되지 않기 때문에 사용할 수 없습니다.

해결방법
OpenShift Dedicated 4.9 이상에서 Cryostat Studio를 수동으로 구성하는 방법에 대한 지원이 필요한 경우 Red Hat 고객 포털에 문의하십시오.
맨 위로 이동
Red Hat logoGithubredditYoutubeTwitter

자세한 정보

평가판, 구매 및 판매

커뮤니티

Red Hat 문서 정보

Red Hat을 사용하는 고객은 신뢰할 수 있는 콘텐츠가 포함된 제품과 서비스를 통해 혁신하고 목표를 달성할 수 있습니다. 최신 업데이트를 확인하세요.

보다 포괄적 수용을 위한 오픈 소스 용어 교체

Red Hat은 코드, 문서, 웹 속성에서 문제가 있는 언어를 교체하기 위해 최선을 다하고 있습니다. 자세한 내용은 다음을 참조하세요.Red Hat 블로그.

Red Hat 소개

Red Hat은 기업이 핵심 데이터 센터에서 네트워크 에지에 이르기까지 플랫폼과 환경 전반에서 더 쉽게 작업할 수 있도록 강화된 솔루션을 제공합니다.

Theme

© 2025 Red Hat