8장. 확인된 문제

이 섹션에서는 Red Hat OpenShift AI 2.11의 알려진 문제와 이러한 문제를 해결하는 알려진 방법에 대해 설명합니다.

RHOAIENG-9670 - 요청을 처리하는 동안 vLLM 컨테이너가 간헐적으로 충돌함

단일 모델 제공 플랫폼에서 KServe 런타임에 vLLM ServingRuntime 을 사용하여 모델을 배포하고 사용한 하드웨어 플랫폼에 따라 tensor-parallel-size 도 구성한 경우 kserve-container 컨테이너가 요청을 처리하는 동안 간헐적으로 충돌합니다.

해결방법: 없음. 컨테이너를 다시 시작한 후 요청이 성공적으로 처리됩니다.

RHOAIENG-9498 - Pipeline 실행 실행 상태가 업데이트되지 않음

완료된 파이프라인 실행의 실행은 실행 중 상태의 UI에 표시됩니다.

해결방법: 없음.

RHOAIENG-9481 - 작업 메뉴를 클릭할 때 Pipeline이 메뉴 결함을 실행합니다.

실험 > 실험 및 실행 페이지에서 파이프라인 실행 옆에 있는 작업 메뉴( Cryostat)를 클릭하면 표시되는 메뉴가 완전히 표시되지 않으며 모든 메뉴 항목을 보려면 스크롤해야 합니다.

해결방법: 없음.

RHOAIENG-8553 - 사용자 정의 이미지로 만든 Workbench show !Deleted 플래그

OpenShift 클러스터에서 내부 이미지 레지스트리를 비활성화한 다음 이미지 태그를 사용하여 가져온 사용자 정의 이미지로 워크벤치를 만듭니다(예: quay.io/my-wb-images/my-image:tag ) !Deleted 플래그가 Data Science Projects 페이지의 Workbenches 탭의 Notebook 이미지 열에 표시됩니다. 워크벤치를 중지하면 다시 시작할 수 없습니다.

해결방법

SHA 다이제스트를 사용하여 사용자 지정 이미지(예: quay.io/my-repo/my-image@sha256:xxxxxxxxx )를 가져온 다음 사용자 지정 이미지를 사용하여 workbench를 만듭니다.

참고

OpenShift 클러스터 관리자는 클러스터에서 내부 이미지 레지스트리가 활성화되어 있는지 확인할 수 있습니다.
OpenShift AI admin 사용자는 태그 표기법을 사용하여 사용자 지정 이미지를 가져왔는지 확인할 수 있습니다.

RHOAIENG-8294 - OpenShift AI 2.8을 버전 2.10 이상으로 업그레이드할 때 CodeFlare 오류

OpenShift AI 2.8을 버전 2.10 이상으로 업그레이드하려고 하면 AppWrapper CRD(사용자 정의 리소스 정의) 버전과 일치하지 않기 때문에 CodeFlare 구성 요소에 대해 다음 오류 메시지가 표시됩니다.

ReconcileCompletedWithComponentErrors DataScienceCluster resource reconciled with component errors: 1 error occurred: * CustomResourceDefinition.apiextensions.k8s.io "appwrappers.workload.codeflare.dev" is invalid: status.storedVersions[0]: Invalid value: "v1beta1": must appear in spec.versions

해결방법

기존 AppWrapper CRD를 삭제합니다.

$ oc delete crd appwrappers.workload.codeflare.dev

최신 버전의 AppWrapper CRD를 설치합니다.

$ oc apply -f https://raw.githubusercontent.com/project-codeflare/codeflare-operator/main/config/crd/crd-appwrapper.yml

RHOAIENG-7947 - KServe의 쿼리 중 모델 제공 실패

처음에 ModelMesh 구성 요소를 설치하고 다중 모델 제공 플랫폼을 활성화하지만 나중에 KServe 구성 요소를 설치하고 단일 모델 제공 플랫폼을 사용하도록 설정하면 단일 모델 제공 플랫폼에 배포된 모델에 대한 유추 요청이 실패할 수 있습니다. 이러한 경우 inference 요청은 404 - Not Found 오류를 반환하고 odh-model-controller 배포 오브젝트에는 Reconciler 오류 메시지가 표시됩니다.

해결방법: OpenShift에서 odh-model-controller 배포 오브젝트를 다시 시작합니다.

RHOAIENG-7887 - Kueue에서 CryostatCluster 또는 PyTorchJob 리소스를 모니터링하지 못했습니다.

모든 구성 요소가 활성화된 DataScienceCluster CR을 생성하면 Cryostat 구성 요소와 Training Operator 구성 요소 전에 Kue 구성 요소가 설치됩니다. 결과적으로 Kueue 구성 요소에서는 Cryostat Cluster 또는 PyTorchJob 리소스를 모니터링하지 않습니다.

해결방법

다음 작업 중 하나를 수행합니다.

Cryostat 구성 요소와 Training Operator 구성 요소를 설치한 후 redhat-ods-applications 네임스페이스에서 Kueue 컨트롤러 Pod를 다시 시작합니다.
또는 DataScienceCluster CR을 편집하여 kue 구성 요소를 Removed 로 표시하고 Kueue가 제거될 때까지 기다린 다음 kue 구성 요소를 다시 Managed 로 표시하도록 합니다.

RHOAIENG-7716 - 파이프라인 조건 그룹 상태가 업데이트되지 않음

조건 그룹이 있는 파이프라인을 실행할 때(예: dsl.lf ) UI는 파이프라인 실행이 완료된 후에도 그룹에 대한 Running 상태를 표시합니다.

해결방법

하위 작업이 활성 상태로 유지되지 않았는지 확인하여 파이프라인이 여전히 실행 중인지 확인할 수 있습니다.

OpenShift AI 대시보드에서 Data Science Pipelines Runs 를 클릭합니다.
프로젝트 드롭다운 메뉴에서 데이터 사이언스 프로젝트를 클릭합니다.
실행 탭에서 상태를 확인할 파이프라인 실행을 클릭합니다.
조건 그룹을 확장하고 하위 작업을 클릭합니다.
하위 작업에 대한 정보가 포함된 패널이 표시됩니다.
패널에서 Task 세부 정보 탭을 클릭합니다.
Status 필드에 하위 작업에 대한 올바른 상태가 표시됩니다.

RHOAIENG-6646 - 업그레이드 중 Model Serving 페이지를 볼 때 오류가 표시됩니다.

OpenShift AI 업그레이드가 진행되는 동안 대시보드를 사용하여 모델을 배포하려고 하면 t.status가 정의되지 않은 오류 메시지가 표시될 수 있습니다.

해결방법: 업그레이드된 OpenShift AI Operator가 준비될 때까지 기다린 다음 브라우저의 페이지를 새로 고칩니다.

RHOAIENG-6486 - Pod 레이블, 주석 및 허용 오차는 TensorFlow 2024.1 노트북 이미지와 함께 Elyra sumpyterLab 확장을 사용할 때 구성할 수 없습니다.

TensorFlow 2024.1 노트북 이미지와 함께 Elyra popyterLab 확장을 사용하는 경우 실행된 파이프라인에서 Pod 레이블, 주석 또는 허용 오차를 구성할 수 없습니다. 이는 kfp 및 tf2onnx 패키지와의 종속성 충돌 때문입니다.

해결방법

TensorFlow 2024.1 노트북 이미지와 함께 작업하는 경우 작업을 완료한 후 할당된 워크벤치 노트북 이미지를 Standard Data Science 2024.1 노트북 이미지로 변경합니다.

Elyra tellpyterLab 확장의 Pipeline 속성 탭에서 Tensorflow 런타임 이미지를 각 파이프라인 노드에 대해 관련 Pod 레이블, 주석 또는 허용 오차와 함께 개별적으로 파이프라인 노드의 기본 런타임 이미지로 설정합니다.

RHOAIENG-6435 - 분산 워크로드 리소스가 프로젝트 메트릭에 포함되지 않음

분산 워크로드 지표 > 프로젝트 메트릭 을 클릭하고 요청 리소스 섹션을 보면 모든 프로젝트의 요청 에서 현재 큐에 허용되지 않은 분산 워크로드에 대한 리소스가 제외됩니다.

해결방법: 없음.

RHOAIENG-6409 - 성공적인 실행을 위해 파이프라인 로그에 매개변수 오류를 저장할 수 없습니다

데이터 사이언스 파이프라인 2.0을 사용하여 파이프라인을 두 번 이상 실행하면 파이프라인 실행을 위해 매개변수 오류가 파이프라인 로그에 표시될 수 없습니다. 이러한 오류는 무시해도 됩니다.

해결방법: 없음.

RHOAIENG-6376 - 파이프라인 구성 요소에 pip_index_urls 를 포트 번호 및 경로가 포함된 URL로 설정한 후 Pipeline 실행 생성이 실패합니다.

파이프라인을 생성하고 구성 요소의 pip_index_urls 값을 포트 번호와 경로가 포함된 URL로 설정하면 파이프라인 코드를 컴파일한 다음 파이프라인 실행을 생성하면 다음과 같은 오류가 발생합니다.

ValueError: Invalid IPv6 URL

해결방법

protocol://hostname 만 사용하여 새 pip 서버를 생성하고 새 서버로 구성 요소의 pip_index_urls 값을 업데이트합니다.
파이프라인 코드를 다시 컴파일합니다.
새 파이프라인 실행을 생성합니다.

RHOAIENG-4812 - 분산 워크로드 메트릭이 GPU 메트릭을 제외함

이번 OpenShift AI 릴리스에서 분산 워크로드 메트릭은 GPU 메트릭을 제외합니다.

해결방법: 없음.

RHOAIENG-4570 - 설치 또는 업그레이드와 함께 기존 Argo 워크플로우 설치 충돌

데이터 사이언스 파이프라인 2.0에는 Argo Workflows 설치가 포함되어 있습니다. OpenShift AI는 이 Argo Workflow 설치의 직접 고객 사용을 지원하지 않습니다. 데이터 사이언스 파이프라인 2.0을 사용하여 OpenShift AI를 설치하거나 업그레이드하려면 클러스터에 Argo 워크플로우의 기존 설치가 없는지 확인합니다. 자세한 내용은 데이터 사이언스 파이프라인 2.0 활성화를 참조하십시오.

해결방법: 기존 Argo Workflows 설치를 제거하거나 데이터 정보pipelines 를 Removed 로 설정한 다음 설치 또는 업그레이드를 진행합니다.

RHOAIENG-3913 - Red Hat OpenShift AI Operator에 오류와 함께 Degraded condition of False 가 잘못 표시됨

OpenShift AI Operator에서 사용하는 DSC(DataScienceCluster) 오브젝트에서 KServe 구성 요소를 활성화했지만 종속 Red Hat OpenShift Service Mesh 및 Red Hat OpenShift Serverless Operator를 설치하지 않은 경우 DSC 오브젝트의 kserveReady 조건이 KServe가 준비되지 않았음을 올바르게 보여줍니다. 그러나 Degraded 상태에 False 값이 잘못 표시됩니다.

해결방법: Red Hat OpenShift Serverless 및 Red Hat OpenShift Service Mesh Operator를 설치한 다음 DSC를 다시 생성합니다.

RHOAIENG-4240 - 안전하지 않은 환경에서 Cryostat 클러스터에 작업을 제출하지 못했습니다.

비보안 OpenShift 클러스터에서 노트북에서 분산 데이터 과학 워크로드를 실행할 때 ConnectionError: Failed to connect to Cryostat 오류 메시지가 표시될 수 있습니다.

해결방법: 노트북의 ClusterConfiguration 섹션에서 openshift_oauth 옵션을 True 로 설정합니다.

RHOAIENG-3981 - 보안되지 않은 환경에서 Cryostat 클러스터가 준비될 때까지 기다리는 기능

보안되지 않은 OpenShift 클러스터에서 노트북에서 분산 데이터 사이언 워크로드를 실행할 때 Cryostat 클러스터가 준비될 때까지 기다리는 기능(cluster.wait_ready())이 준비 상태에 있어도 중단됩니다.

해결방법

다음 작업 중 하나를 수행합니다.

노트북의 ClusterConfiguration 섹션에서 openshift_oauth 옵션을 True 로 설정합니다.
cluster.wait_ready() 기능을 사용하는 대신 Cryostat 클러스터 경로 URL을 열어 Cryostat 클러스터 가용성을 수동으로 확인할 수 있습니다. URL에서 Cryostat 대시보드를 사용할 수 있으면 클러스터가 준비됩니다.

RHOAIENG-3025 - OVMS 예상 디렉터리 레이아웃 KServe StoragePuller 레이아웃

OVMS(OpenVINO Model Server) 런타임을 사용하여 단일 모델 제공 플랫폼(KServe 사용)에 모델을 배포할 때 OVMS에서 예상되는 디렉터리 레이아웃과 KServe에서 사용하는 모델 가져오기 논리의 디렉터리 레이아웃이 일치하지 않습니다. 특히 OVMS에서는 모델 파일이 /< mnt>/models/1/ 디렉터리에 있어야 하지만 KServe는 이를 /<mnt>/models/ 디렉터리에 배치합니다.

해결방법

다음 작업을 수행합니다.

S3 호환 스토리지 버킷에서 모델 파일을 1/ 이라는 디렉터리에 배치합니다(예: /< s3_storage_bucket>/models/1/<model_files > ).
OVMS 런타임을 사용하여 단일 모델 제공 플랫폼에 모델을 배포하려면 다음 옵션 중 하나를 선택하여 모델 파일의 경로를 지정합니다.
- OpenShift AI 대시보드를 사용하여 모델을 배포하는 경우 데이터 연결의 경로 필드에서 /<s3_storage_bucket>/models/ 형식을 사용하여 모델 파일의 경로를 지정합니다. 1/ 디렉터리를 경로의 일부로 지정하지 마십시오.
- 모델을 배포하기 위해 자체 InferenceService 사용자 지정 리소스를 생성하는 경우 storageURI 필드의 값을 /<s3_storage_bucket>/models/ 로 구성합니다. 1/ 디렉터리를 경로의 일부로 지정하지 마십시오.

KServe는 지정한 경로의 하위 디렉터리에서 모델 파일을 가져옵니다. 이 경우 KServe는 S3 호환 스토리지의 /<s3_storage_bucket>/models/1/ 디렉토리에서 모델 파일을 올바르게 가져옵니다.

RHOAIENG-3018 - KServe의 OVMS는 대시보드에 올바른 끝점을 노출하지 않습니다.

OVMS(OpenVINO Model Server) 런타임을 사용하여 단일 모델 제공 플랫폼에 모델을 배포할 때 배포된 모델의 유추 끝점 필드에 표시된 URL이 완료되지 않습니다.

해결방법: 모델에 쿼리를 보내려면 /v2/models/_<model-name>_/infer 문자열을 URL 끝에 추가해야 합니다. _<model-name>_ 을 배포된 모델의 이름으로 바꿉니다.

RHOAIENG-2759 - 프로젝트에 보안 및 일반 모델 서버가 있는 경우 모델 배포가 실패합니다.

한 서버가 토큰 인증을 사용하고 다른 서버에서 인증을 사용하지 않는 프로젝트에서 두 번째 모델 서버를 만들 때 두 번째 모델의 배포가 시작되지 않을 수 있습니다.

해결방법: 없음.

RHOAIENG-2602 - "상세 응답 시간" 서버 메트릭 그래프는 ModelMesh pod 재시작으로 인해 여러 행을 보여줍니다.

평균 응답 시간 서버 지표 그래프는 ModelMesh Pod가 다시 시작되면 여러 행을 보여줍니다.

해결방법: 없음.

RHOAIENG-2585 - 클러스터에서 UWM이 활성화되지 않은 경우 UI에 오류/경고가 표시되지 않음

Red Hat OpenShift AI는 클러스터에서 UWM(User Workload Monitoring)이 비활성화된 경우 사용자에게 올바르게 경고하지 않습니다. UWM은 모델 메트릭의 올바른 기능에 필요합니다.

해결방법: 사용자 정의 프로젝트에 대한 모니터링 활성화에 설명된 대로 클러스터에서 UWM이 활성화되어 있는지 수동으로 확인합니다.

RHOAIENG-2555 - Serving Runtime을 변경할 때 모델 프레임워크 선택기가 재설정되지 않음

모델 배포 대화 상자를 사용하여 단일 모델 제공 플랫폼에 모델을 배포하는 경우 런타임 및 지원되는 프레임워크를 선택한 다음 다른 런타임으로 전환하면 기존 프레임워크 선택 사항이 재설정되지 않습니다. 즉, 선택한 런타임에 지원되지 않는 프레임워크를 사용하여 모델을 배포할 수 있습니다.

해결방법: 모델을 배포하는 동안 선택한 런타임을 변경하는 경우 프레임워크 선택 목록을 다시 클릭하고 지원되는 프레임워크를 선택합니다.

RHOAIENG-2468 - KServe와 동일한 프로젝트의 서비스는 OpenShift에서 액세스할 수 없게 될 수 있습니다.

단일 모델 제공 플랫폼(KServe 사용)에 배포된 모델이 포함된 데이터 과학 프로젝트에 OpenShift AI가 아닌 서비스를 배포하는 경우 서비스의 접근성이 OpenShift 클러스터의 네트워크 구성의 영향을 받을 수 있습니다. 호스트 네트워크 네임스페이스와 함께 OVN-Kubernetes 네트워크 플러그인 을 사용하는 경우 특히 그러합니다.

해결방법

다음 작업 중 하나를 수행합니다.

단일 모델 제공 플랫폼에 배포된 모델이 포함되지 않은 다른 데이터 사이언스 프로젝트에 서비스를 배포합니다. 또는 다른 OpenShift 프로젝트에서 서비스를 배포합니다.
서비스가 되는 데이터 사이언스 프로젝트에서 다음 예와 같이 애플리케이션 pod에 수신 트래픽을 허용하는 네트워크 정책을 추가합니다.
```
apiVersion: networking.k8s.io/v1
kind: NetworkPolicy
metadata:
  name: allow-ingress-to-myapp
spec:
  podSelector:
    matchLabels:
      app: myapp
  ingress:
     - {}
```

RHOAIENG-2228 - 간격이 15초로 설정될 때 성능 메트릭 그래프가 지속적으로 변경됩니다.

모델 지표 화면의 끝점 성능 탭에서 새로 고침 간격을 15초로 설정하고 시간 범위를 1시간으로 설정하면 그래프 결과가 지속적으로 변경됩니다.

해결방법: 없음.

RHOAIENG-2183 - 끝점 성능 그래프에 잘못된 레이블이 표시될 수 있습니다.

모델 지표 화면의 끝점 성능 탭에서 그래프 툴팁에 잘못된 레이블이 표시될 수 있습니다.

해결방법: 없음.

RHOAIENG-1919 - Model Serving 페이지가 배포 직후 모델 경로 URL을 가져오지 못하거나 보고되지 않음

OpenShift AI 대시보드에서 모델을 배포할 때 시스템은 다음 경고 메시지를 표시하고 모델의 Status 열은 OK/green 확인 표시로 성공했음을 나타냅니다.

Failed to get endpoint for this deployed model. routes.rout.openshift.io"<model_name>" not found

해결방법: 브라우저 페이지를 새로 고칩니다.

RHOAIENG-404 - OpenShift AI 대시보드에서 사용 가능한 페이지 대신 구성 요소를 찾을 수 없는 페이지가 무작위로 표시됨

Red Hat OpenShift AI 대시보드에 액세스하면 No Components Found 페이지가 표시될 수 있습니다.

해결방법: 브라우저 페이지를 새로 고칩니다.

RHOAIENG-234 - Insecure 클러스터의 VSCode에서 .ipynb 파일을 볼 수 없음

안전하지 않은 클러스터의 Google Chrome에서 코드 서버 노트북 이미지를 사용하면 .ipynb 파일을 볼 수 없습니다.

해결방법: 다른 브라우저를 사용하십시오.

RHOAIENG-1128 - 워크벤치에 연결되지 않은 PV(영구 볼륨) 크기를 늘리려고 할 때 Unclear 오류 메시지가 표시됩니다.

워크벤치에 연결되지 않은 PV(영구 볼륨)의 크기를 늘리려고 하면 명확하지 않은 오류 메시지가 표시됩니다.

해결방법: 크기를 늘리기 전에 PV가 워크벤치에 연결되어 있는지 확인합니다.

RHOAIENG-545 - CryostatpyterLab 파이프라인 편집기에서 일반 기본 노드 런타임 이미지를 지정할 수 없습니다

sendpyterLab IDE 파이프라인 편집기에서 Elyra 파이프라인을 편집하고 PIPELINE PROPERTIES 탭을 클릭하고 일반 노드 기본값 섹션으로 스크롤하여 런타임 이미지 필드를 편집하면 변경 사항이 저장되지 않습니다.

해결방법: 각 노드에 대해 명시적으로 필요한 런타임 이미지를 정의합니다. NODE PROPERTIES 탭을 클릭하고 Runtime Image 필드에 필요한 이미지를 지정합니다.

RHOAIENG-497 - OpenShift Service Mesh CR에서 사용자 알림 없이 삭제됨

DSCInitialization 리소스를 삭제하면 OpenShift Service Mesh CR도 삭제됩니다. 경고 메시지가 표시되지 않습니다.

해결방법: 없음.

RHOAIENG-282 - 필요한 리소스를 사용할 수 없는 경우 작업 로드를 디스패치해서는 안 됩니다.

단일 머신 인스턴스에 CryostatCluster를 성공적으로 프로비저닝할 수 있는 충분한 리소스가 없는 경우에도 워크로드가 디스패치되는 경우가 있습니다. AppWrapper CRD는 Running 상태로 유지되며 관련 Pod는 무기한 Pending 상태로 유지됩니다.

해결방법: 클러스터에 리소스를 추가합니다.

RHOAIENG-131 - gRPC 끝점이 Loaded로 보고한 후 제대로 응답하지 않음

수많은 InferenceService 인스턴스가 생성되고 요청을 지시하면 SMCP(Service Mesh Control Plane)가 응답하지 않습니다. InferenceService 인스턴스의 상태는 Loaded 이지만 gRPC 끝점에 대한 호출은 오류와 함께 반환됩니다.

해결방법: ServiceMeshControlPlane 사용자 정의 리소스(CR)를 편집하여 Istio 송신 및 인그레스 Pod의 메모리 제한을 늘립니다.

RHOAIENG-130 - 모델이 출시되었을 때 동기화 문제

KServe 컨테이너의 상태가 Ready 이면 TGIS 컨테이너가 준비되지 않은 경우에도 요청이 허용됩니다.

해결방법: 몇 초 동안 모든 초기화가 완료되고 TGIS 컨테이너가 실제로 준비되었는지 확인한 다음 요청 출력을 검토합니다.

RHOAIENG-3115 - 모델은 준비 상태로 표시된 후 몇 초 동안 쿼리할 수 없습니다.

다중 모델 제공 플랫폼을 사용하여 배포된 모델은 대시보드에 Ready 로 표시되더라도 쿼리에 응답하지 않을 수 있습니다. 모델 엔드포인트를 쿼리할 때 "Application is not available" 응답이 표시될 수 있습니다.

해결방법: 30-40초 동안 기다린 다음 브라우저에서 페이지를 새로 고칩니다.

RHOAIENG-1619 (이전에는 DATA-SCIENCE-PIPELINES-165)로 문서화되어 있습니다. S3 버킷을 쓸 수 없는 경우 오류 메시지

데이터 연결을 설정하고 S3 버킷을 쓸 수 없으며 파이프라인을 업로드하려고 하면 파이프라인을 저장할 수 없음 이라는 오류 메시지가 도움이 되지 않습니다.

해결방법: 데이터 연결 인증 정보가 올바르고 사용자가 지정한 버킷에 대한 쓰기 액세스 권한이 있는지 확인합니다.

RHOAIENG-1207 (이전에는 ODH-DASHBOARD-1758) - cnfTB 사용자 정의 서비스 런타임을 여러 번 중복된 오류

model-serving 런타임을 여러 번 복제하면 Serving 런타임 이름 "<name>"과 함께 중복이 실패합니다.

해결방법: metadata.name 필드를 고유한 값으로 변경합니다.

RHOAIENG-1204 (이전에는 ODH-DASHBOARD-1771) - Pipeline 초기화 중 JavaScript 오류

실행이 시작될 때 파이프라인 실행 세부 정보 페이지가 작동하지 않는 경우가 있습니다.

해결방법: 페이지를 새로 고칩니다.

RHOAIENG-1203 (이전에는 ODH-DASHBOARD-1781) - 시작 실행 상태에 대한 Missing 툴팁

데이터 사이언스 파이프라인 실행에는 표시된 상태 아이콘의 툴팁 텍스트가 표시되지 않는 경우가 있습니다.

해결방법: 자세한 내용은 파이프라인 실행 세부 정보 페이지를 보고 실행 출력을 참조하십시오.

RHOAIENG-1201 (이전에는 ODH-DASHBOARD-1908) - 빈 환경 변수를 사용하여 워크벤치를 생성할 수 없습니다

워크벤치를 생성할 때 변수 추가 를 클릭하지만 목록에서 환경 변수 유형을 선택하지 않으면 워크벤치를 생성할 수 없습니다. 이 필드는 필수로 표시되지 않으며 오류 메시지가 표시되지 않습니다.

해결방법: 없음.

RHOAIENG-582 (이전에는 ODH-DASHBOARD-1335) - 기여자에 대한 편집 권한 이름 변경

편집 이라는 용어는 정확하지 않습니다.

대부분의 리소스의 경우 Edit 권한이 있는 사용자는 리소스를 편집하고 리소스를 생성할 수도 있습니다.
편집 권한이 있는 사용자는 프로젝트를 편집할 수 없습니다.

Contributor 라는 용어는 이 권한이 부여한 작업을 보다 정확하게 설명합니다.

해결방법: 없음.

RHOAIENG-432 (이전에는 RHODS-12928) - 지원되지 않는 문자를 사용하면 여러 대시가 있는 Kubernetes 리소스 이름을 생성할 수 있습니다.

리소스를 생성하고 이름에 지원되지 않는 문자를 지정하면 각 공간이 대시로 교체되고 지원되지 않는 기타 문자가 제거되어 잘못된 리소스 이름이 발생할 수 있습니다.

해결방법: 없음.

RHOAIENG-226 (이전에는 RHODS-12432로 문서화됨) - 노트북 조각 모음 ConfigMap을 비활성화하면 대시보드에서 권한이 삭제됨

redhat-ods -applications 네임스페이스에서 laptop-controller-culler-config ConfigMap을 삭제하면 더 이상 OpenShift AI 대시보드의 클러스터 설정 페이지에 변경 사항을 저장할 수 없습니다. HTTP 요청으로 인해 저장 작업이 실패하고 오류가 발생했습니다.

해결방법

cluster-admin 권한이 있는 사용자로 다음 단계를 완료합니다.

oc 클라이언트를 사용하여 클러스터에 로그인합니다.
다음 명령을 입력하여 redhat-ods-applications 애플리케이션 네임스페이스에서 OdhDashboardConfig 사용자 정의 리소스를 업데이트합니다.
```
$ oc patch OdhDashboardConfig odh-dashboard-config -n redhat-ods-applications --type=merge -p '{"spec": {"dashboardConfig": {"notebookController.enabled": true}}}'
```

RHOAIENG-133 - 기존 워크벤치에서 Elyra 파이프라인을 다시 시작한 후 실행할 수 없습니다.

Elyra tellpyterLab 확장을 사용하여 conpyterLab 내에서 데이터 사이언스 파이프라인을 생성 및 실행하고 작업벤치 내에서 워크벤치 이미지를 생성한 후 파이프라인 서버를 구성하면, 노트북을 다시 시작한 후에도 파이프라인을 실행할 수 없습니다.

해결방법

실행 중인 노트북을 중지합니다.
워크벤치를 편집하여 약간의 수정을 수행합니다. 예를 들어 새 더미 환경 변수를 추가하거나 불필요한 기존 환경 변수를 삭제합니다. 변경 사항을 저장하십시오.
노트북을 다시 시작합니다.
sendpyterLab의 왼쪽 사이드바에서 런타임을 클릭합니다.
기본 런타임이 선택되어 있는지 확인합니다.

RHOAIENG-11 - 9월 설치된 CodeFlare Operator 인스턴스를 지원하지 않음

Red Hat OpenShift AI에서 CodeFlare Operator는 별도의 Operator가 아닌 기본 제품에 포함되어 있습니다. Red Hat 또는 커뮤니티에서 별도로 설치한 CodeFlare Operator 인스턴스는 지원되지 않습니다.

해결방법: 설치된 CodeFlare Operator를 삭제하고 Red Hat 지식베이스 솔루션에 설명된 대로 Red Hat OpenShift AI를 설치 및 구성 하십시오. 데이터 과학 클러스터에 별도로 설치된 CodeFlare Operator에서 마이그레이션하는 방법을 설명합니다.

RHODS-12798 - Pod 실패, "unable to init seccomp" 오류

seccomp 메모리 누수를 도입한 알려진 커널 버그로 인해 Pod는 Running 상태 대신 CreateContainerError 상태 또는 Pending 상태로 인해 실패합니다. Pod가 실패한 네임스페이스에서 이벤트를 확인하거나 oc describe pod 명령을 실행하면 다음 오류가 표시됩니다.

runc create failed: unable to start container process: unable to init seccomp: error loading seccomp filter into kernel: error loading seccomp filter: errno 524

해결방법: Red Hat 지식베이스 솔루션 Pod에 설명된 대로 net.core.bpf_jit_limit 값을 늘리면 OpenShift 4에서 seccomp 필터를 kernel: errno 524로 로드하는 동안 오류가 발생했습니다.

KUBEFLOW-177 - OAuth 프록시에 의해 전달되지 않은 애플리케이션의 전달자 토큰

내부 인증 메커니즘이 전달자 토큰을 기반으로 하는 경우 애플리케이션을 사용자 지정 워크벤치 이미지로 사용할 수 없습니다. OAuth-proxy 구성은 헤더에서 전달자 토큰을 제거하며 애플리케이션이 제대로 작동할 수 없습니다.

해결방법: 없음.

RHOAIENG-5646 (이전에는 NOTEBOOKS-218로 문서화됨) - Elyra 파이프라인 편집기에서 저장된 데이터 사이언스 파이프라인은 호환되지 않는 런타임을 참조합니다.

OpenShift AI 버전 1.31 이상에서 .pipeline 형식으로 Elyra 파이프라인 편집기에 파이프라인을 저장하면 파이프라인은 OpenShift AI 버전 1.32 이상과 호환되지 않는 런타임을 참조합니다.

결과적으로 OpenShift AI를 버전 1.32 이상으로 업그레이드한 후 파이프라인을 실행하지 못합니다.

해결방법: OpenShift AI를 버전 1.32 이상으로 업그레이드한 후 관련 런타임 이미지를 다시 선택합니다.

참고BOOKS-210 - 노트북에서 PDF 파일로 내보내지 못했습니다.

Samplespyter에서 PDF 파일로 노트북을 내보내면 오류와 함께 내보내기 프로세스가 실패합니다.

해결방법: 없음.

RHOAIENG-1210 (이전에는 ODH-DASHBOARD-1699) - 모든 구성 변경 사항에 대해 Workbench가 자동으로 재시작되지는 않음

워크벤치의 구성 설정을 편집하면 구성 설정을 변경하면 워크벤치가 다시 시작됨이라는 경고 메시지가 표시됩니다. 다음 경우 워크벤치가 자동으로 다시 시작되지 않기 때문에 이 경고는 오작동합니다.

이름 편집
설명 편집
기존 환경 변수의 키와 값 편집, 추가 또는 제거

해결방법: 워크벤치를 수동으로 다시 시작합니다.

RHOAIENG-1208 (이전에는 ODH-DASHBOARD-1741)로 문서화되어 있음 - 이름으로 시작하는 워크벤치를 만들 수 없습니다.

숫자로 시작하는 워크벤치를 생성하려고 하면 워크벤치가 시작되지 않습니다.

해결방법: 워크벤치를 삭제하고 문자로 시작하는 이름으로 새 항목을 만듭니다.

RHOAIENG-1205 (이전에는 RHODS-11791)로 문서화되어 있음 - 업그레이드 후 사용 데이터 수집이 활성화됨

이전에 Allow collection of usage data 옵션 선택 취소(즉, 비활성화됨)가 있는 경우 OpenShift AI를 업그레이드할 때 이 옵션이 선택(즉, 활성화됨)됩니다.

해결방법

사용 데이터 수집 허용 옵션을 수동으로 재설정합니다. 이렇게 하려면 다음 작업을 수행합니다.

OpenShift AI 대시보드의 왼쪽 메뉴에서 설정 클러스터 설정을 클릭합니다.
클러스터 설정 페이지가 열립니다.
사용 데이터 수집 섹션에서 사용 데이터 수집 허용 을 선택 해제합니다.
변경 사항 저장을 클릭합니다.

KUBEFLOW-157 - OpenShift AI 대시보드에서 이미 로그아웃한 경우 duepyterLab에서 로깅이 작동하지 않음

CryostatpyterLab에서 로그아웃하기 전에 OpenShift AI 대시보드에서 로그아웃하는 경우 teachingpyterLab에서 로그아웃하는 데 성공하지 못합니다. 예를 들어, sendpyter 노트북의 URL을 알고 있으면 브라우저에서 이 URL을 다시 열 수 있습니다.

해결방법: OpenShift AI 대시보드에서 로그아웃하기 전에 sendpyterLab에서 로그아웃합니다.

RHODS-9789 - 데이터베이스 이름 또는 사용자 이름 필드에 대시를 포함하는 사용자 지정 데이터베이스가 포함된 경우 Pipeline 서버를 시작하지 못했습니다.

사용자 지정 데이터베이스를 사용하는 파이프라인 서버를 생성할 때 dbname 필드 또는 사용자 이름 필드에 설정한 값이 대시를 포함하는 경우 파이프라인 서버가 시작되지 않습니다.

해결방법: 영향을 받는 필드에서 대시를 생략하도록 파이프라인 서버를 편집합니다.

RHOAIENG-580 (이전에는 RHODS-9412로 문서화됨) - 편집 권한이 있는 사용자가 워크벤치를 생성하는 경우 Elyra 파이프라인이 실행되지 않음

프로젝트에 대한 편집 권한이 부여된 사용자가 프로젝트 워크벤치를 생성하는 경우 해당 사용자는 다음 동작을 확인합니다.

워크벤치 생성 프로세스 중에 사용자는 Kubernetes 역할 바인딩 생성과 관련된 Error creating workbench 메시지를 확인합니다.
이전 오류 메시지에도 불구하고 OpenShift AI는 여전히 워크벤치를 생성합니다. 그러나 오류 메시지는 사용자가 Elyra 데이터 사이언스 파이프라인을 실행하기 위해 워크벤치를 사용할 수 없음을 의미합니다.
사용자가 워크벤치를 사용하여 Elyra 파이프라인을 실행하려고 하면, sendpyter는 실패한 초기화를 설명하는 오류 작성 요청 메시지를 표시합니다.
해결방법
관리자 권한이 있는 사용자(예: 프로젝트 소유자)는 편집 권한이 있는 사용자를 대신하여 워크벤치를 생성해야 합니다. 그런 다음 해당 사용자는 워크벤치를 사용하여 Elyra 파이프라인을 실행할 수 있습니다.

RHOAIENG-583 (이전에는 RHODS-8921 및 RHODS-6373으로 문서화됨) - 누적 문자 제한을 초과하면 파이프라인 서버를 생성하거나 워크벤치를 시작할 수 없습니다.

데이터 사이언스 프로젝트 이름에 대한 누적 문자 제한과 파이프라인 서버 이름이 62자를 초과하면 파이프라인 서버를 성공적으로 생성할 수 없습니다. 마찬가지로 데이터 사이언스 프로젝트 이름과 워크벤치 이름의 누적 문자 제한이 62자를 초과하면 워크벤치를 시작할 수 없습니다.

해결방법: 30자를 초과하지 않도록 데이터 과학 프로젝트의 이름을 바꿉니다.

RHODS-7718 - 대시보드 권한이 없는 사용자는 실행 중인 노트북과 워크벤치를 무기한 계속 사용할 수 있습니다.

Red Hat OpenShift AI 관리자가 사용자의 권한을 취소하면 사용자는 실행 중인 노트북 및 워크벤치를 무기한 계속 사용할 수 있습니다.

해결방법: OpenShift AI 관리자가 사용자의 권한을 취소하는 경우 관리자는 해당 사용자의 실행 중인 노트북 및 워크벤치도 중지해야 합니다.

RHOAIENG-1157 (이전에는 RHODS-6955로 문서화됨) - 워크벤치 편집 시 오류가 발생할 수 있습니다.

워크벤치를 편집할 때 다음과 유사한 오류가 발생할 수 있습니다.

Error creating workbench
Operation cannot be fulfilled on notebooks.kubeflow.org "workbench-name": the object has been modified; please apply your changes to the latest version and try again

해결방법: 없음.

RHOAIENG-1132 (이전에는 RHODS-6383로 문서화됨) - 워크벤치 생성 프로세스 중에 필요한 경우 ImagePullBackOff 오류 메시지가 표시되지 않습니다.

Pod는 컨테이너 레지스트리에서 컨테이너 이미지를 가져오는 데 문제가 발생할 수 있습니다. 오류가 발생하면 관련 Pod가 ImagePullBackOff 상태가 됩니다. 워크벤치 생성 프로세스 중에 ImagePullBackOff 오류가 발생하면 적절한 메시지가 표시되지 않습니다.

해결방법: ImagePullBackOff 오류에 대한 자세한 내용은 이벤트 로그를 확인합니다. 이렇게 하려면 시작 시 워크벤치 상태를 클릭합니다.

RHOAIENG-1152 (이전에는 RHODS-6356)로 문서화되어 있음 - 대시보드에 로그인하지 않은 사용자가 노트북 생성 프로세스가 실패합니다.

대시보드의 노트북 관리 페이지에는 OpenShift의 사용자 그룹 및 관리자 그룹에 속한 사용자가 표시됩니다. 그러나 관리자가 대시보드에 로그인하지 않은 사용자를 대신하여 노트북 서버를 시작하려고 하면 서버 생성 프로세스가 실패하고 다음과 같은 오류 메시지가 표시됩니다.

Request invalid against a username that does not exist.

해결방법: 관련 사용자가 대시보드에 로그인하도록 요청합니다.

RHODS-5763 - 노트북 선택 시 표시되는 잘못된 패키지 버전

Start a laptop server (네임스트로 시작 서버 시작) 페이지에는 Anaconda 노트북 이미지에 대한 잘못된 버전 번호가 표시됩니다.

해결방법: 없음.

RHODS-5543 - NVIDIA GPU Operator를 사용할 때 필요한 것보다 더 많은 노드가 노드 자동 스케일러에 의해 생성됩니다.

사용 가능한 리소스가 부족하여 Pod를 예약할 수 없는 경우 노드 자동 스케일러는 새 노드를 생성합니다. 새로 생성된 노드가 관련 GPU 워크로드를 수신할 때까지 지연이 발생합니다. 결과적으로 Pod를 예약할 수 없으며 노드 자동 스케일러는 GPU 워크로드를 수신할 준비가 될 때까지 추가 새 노드를 지속적으로 생성합니다. 이 문제에 대한 자세한 내용은 Red Hat Knowledgebase 솔루션에서 NVIDIA GPU Operator를 사용할 때 노드 자동 스케일러에서 필요한 것보다 많은 노드를 참조하십시오.

해결방법: machineset.spec.template.spec.metadata 에 cluster-api/accelerator 레이블을 적용합니다. 이로 인해 자동 스케일러는 GPU 드라이버가 배포될 때까지 해당 노드를 준비되지 않은 것으로 간주합니다.

RHOAIENG-1149 (이전에 문서화된 RHODS-5216) - 애플리케이션 시작 관리자 메뉴에 OpenShift Cluster Manager에 대한 링크가 잘못 표시됩니다.

Red Hat OpenShift AI는 애플리케이션 시작 관리자 메뉴에서 OpenShift Cluster Manager에 대한 링크를 잘못 표시합니다. 이 링크를 클릭하면 URL이 유효하지 않기 때문에 "페이지를 찾을 수 없음" 오류가 발생합니다.

해결방법: 없음.

RHOAIENG-1137 (이전에는 RHODS-5251)로 문서화되어 있음 - Notebook 서버 관리 페이지에는 권한 액세스 권한이 손실된 사용자가 표시됩니다.

이전에 propyter에서 노트북 서버를 시작한 사용자가 그렇게 할 수 있는 권한이 손실되는 경우(예: OpenShift AI 관리자가 사용자의 그룹 설정을 변경하거나 허용된 그룹에서 사용자를 제거하는 경우) 관리자는 서버 관리 페이지에서 사용자의 노트북 서버를 계속 확인합니다. 결과적으로 관리자는 권한이 취소된 사용자에게 속한 노트북 서버를 다시 시작할 수 있습니다.

해결방법: 없음.

RHODS-4799 - Tensorboard를 보려면 수동 단계가 필요합니다.

사용자에게 TensorFlow 또는 PyTorch 노트북 이미지가 있고 TensorBoard를 사용하여 데이터를 표시하려는 경우, 노트북 환경에 환경 변수를 포함하고 해당 변수를 코드에서 사용하기 위해 수동 단계가 필요합니다.

해결방법

노트북 서버를 시작할 때 다음 코드를 사용하여 TENSORBOARD_PROXY_URL 환경 변수의 값을 설정하여 OpenShift AI 사용자 ID를 사용합니다.

import os
os.environ["TENSORBOARD_PROXY_URL"]= os.environ["NB_PREFIX"]+"/proxy/6006/"

RHODS-4718 - Intel® oneAPI AI Analytics Toolkits 빠른 시작은 존재하지 않는 샘플 노트북을 참조합니다.

대시보드의 리소스 페이지에 있는 Intel® oneAPI AI Analytics Toolkits 빠른 시작에는 사용자가 명령 단계의 일부로 샘플 노트북을 로드해야 하지만, 연결된 리포지토리에 없는 노트북을 나타냅니다.

해결방법: 없음.

RHODS-4627 - Anaconda Professional Edition의 라이센스 유효성 검사를 담당하는 CronJob이 일시 중단되어 매일 실행되지 않습니다.

Anaconda Professional Edition의 라이센스 검증을 담당하는 CronJob은 OpenShift AI Operator에 의해 자동으로 일시 중단됩니다. 결과적으로 CronJob은 예약된 대로 매일 실행되지 않습니다. 또한 Anaconda Professional Edition의 라이센스가 만료되면 Anaconda Professional Edition이 OpenShift AI 대시보드에서 비활성화된 것으로 표시되지 않습니다.

해결방법: 없음.

RHOAIENG-1141 (이전에는 RHODS-4502로 문서화됨) - 대시보드의 NVIDIA GPU Operator 타일이 불필요하게 표시됩니다.

NVIDIA GPU Operator가 설치된 후 GPU를 사용하여 GPU를 자동으로 사용할 수 있습니다. 따라서 탐색 페이지의 NVIDIA GPU Operator 타일에 있는 Enable 버튼이 중복됩니다. 또한 Enable 버튼을 클릭하면 Operator가 설치되지 않은 경우에도 NVIDIA GPU Operator 타일이 Enabled 페이지로 이동합니다.

해결방법: 없음.

RHOAIENG-1135 (이전에는 RHODS-3985)로 문서화되어 있음 - ISV Operator를 제거한 후 대시보드는 활성화된 페이지 콘텐츠를 표시하지 않습니다.

ISV Operator를 제거한 후 대시보드의 활성화 페이지에 콘텐츠가 표시되지 않습니다. 대신 다음 오류가 표시됩니다.

Error loading components
HTTP request failed

해결방법: 30-40초 동안 기다린 다음 브라우저에서 페이지를 새로 고칩니다.

RHODS-3984 - 노트북 선택 시 표시되는 잘못된 패키지 버전

OpenShift AI 인터페이스에서 노트북 시작 서버 페이지에 는 oneAPI AI Analytics Toolkit 노트북 이미지에 포함된 sendpyterLab 및 Notebook 패키지의 잘못된 버전 번호가 표시됩니다. 페이지에 이 이미지에서 사용하는 Python 버전에 잘못된 값이 표시될 수도 있습니다.

해결방법: oneAPI AI Analytics Toolkit 노트북 서버를 시작할 때, 노트북 서버에 어떤 Python 패키지가 설치되어 있는지, 그리고 노트북 셀에서 !pip list 명령을 실행하여 어떤 버전의 패키지인지 확인할 수 있습니다.

RHODS-2956 - 노트북 인스턴스를 생성할 때 오류가 발생할 수 있습니다.

sendpyter에서 노트북 인스턴스를 만들 때 Directory not found 오류가 간헐적으로 표시됩니다. 이 오류 메시지는 Dismiss 를 클릭하여 무시할 수 있습니다.

해결방법: 없음.

RHOAING-1147 (이전에는 RHODS-2881) - 대시보드의 작업이 명확하게 표시되지 않음

비활성화된 애플리케이션 라이센스를 다시 무효화하고 비활성화된 애플리케이션 타일을 제거하는 대시보드 작업은 사용자에게 명확하게 표시되지 않습니다. 이러한 작업은 사용자가 애플리케이션 타일의 Disabled 레이블을 클릭하면 표시됩니다. 따라서 의도한 워크플로우가 사용자에게 명확하지 않을 수 있습니다.

해결방법: 없음.

RHOAIENG-1134 (이전에는 RHODS-2879로 문서화됨) - 라이센스 재검증 작업이 불필요하게 표시됩니다.

라이센스 검증 또는 활성화 시스템이 없는 애플리케이션에 대해 비활성화된 애플리케이션 라이센스를 재검증하는 대시보드 작업이 불필요하게 나타납니다. 또한 사용자가 재검증할 수 없는 라이센스를 재검증하려고 하면 작업을 완료할 수 없는 이유를 나타내는 피드백이 표시되지 않습니다.

해결방법: 없음.

RHOAIENG-2305 (이전에는 RHODS-2650로 문서화됨) - Pachyderm 배포 중에 오류가 발생할 수 있습니다.

Pachyderm Operator 인스턴스를 생성할 때 Webhook 오류가 간헐적으로 표시되어 생성 프로세스가 성공적으로 시작되지 않습니다. Webhook 오류는 Pachyderm Operator가 상태 점검에 실패하여 재시작하거나 Operator 프로세스가 컨테이너의 할당된 메모리 제한을 초과하여 OOM(Out of Memory) 종료를 트리거한다는 것을 나타냅니다.

해결방법: 오류가 더 이상 표시되지 않을 때까지 Pachyderm 인스턴스 생성 프로세스를 반복합니다.

RHODS-2096 - OpenShift AI에서 IBM Cryostat Studio를 사용할 수 없음

IBM Cryostat Studio는 OpenShift Dedicated 4.9 이상에 OpenShift AI를 설치할 때 이러한 OpenShift Dedicated 버전과 호환되지 않기 때문에 사용할 수 없습니다.

해결방법: OpenShift Dedicated 4.9 이상에서 Cryostat Studio를 수동으로 구성하는 데 도움이 필요한 경우 Marketplace 지원팀에 문의하십시오.

8장. 확인된 문제

자세한 정보

평가판, 구매 및 판매

커뮤니티

Red Hat 문서 정보

보다 포괄적 수용을 위한 오픈 소스 용어 교체

Red Hat 소개

Red Hat legal and privacy links

Red Hat legal and privacy links