8장. 확인된 문제
이 섹션에서는 Red Hat OpenShift AI 2.22의 알려진 문제와 이러한 문제를 해결하는 알려진 방법에 대해 설명합니다.
RHOAIENG-29352 - Missing Documentation and Support 메뉴 항목
OpenShift AI 상단 탐색 모음에서 도움말 아이콘(
)을 클릭하면 메뉴에 정보 메뉴 항목만 포함됩니다. 문서 및 지원 메뉴 항목이 누락되어 있습니다.
- 해결방법
- 없음.
RHOAIENG-292 - 사용 통계 디렉토리 액세스로 인해 IBM Z에서 권한 오류를 기록합니다.
IBM Z 아키텍처에서 vLLM을 실행하면 유추 서비스가 성공적으로 시작되지만 사용량 통계 보고와 관련된 백그라운드 스레드에 오류를 기록합니다. 이는 서비스가 액세스 권한이 없는 제한된 위치(/.config
)에 사용 데이터를 쓰려고 하기 때문에 발생합니다.
로그에 다음 오류가 표시됩니다.
Exception in thread Thread-2 (_report_usage_worker): Traceback (most recent call last): ... PermissionError: [Error 13] Permission denied: '/.config'
Exception in thread Thread-2 (_report_usage_worker):
Traceback (most recent call last):
...
PermissionError: [Error 13] Permission denied: '/.config'
- 해결방법
-
이 오류를 방지하고 사용량 통계 로깅을 표시하지 않으려면 유추 서비스 배포에서
VLLM_NO_USAGE_STATS=1
환경 변수를 설정합니다. 이렇게 하면 자동 사용 보고가 비활성화되므로 시스템 디렉터리에 쓰기 시 권한 문제가 발생하지 않습니다.
RHOAIENG-28910 - 관리되지 않는 KServe 리소스는 2.16에서 2.19 이상으로 업그레이드한 후 삭제됩니다.
OpenShift AI 2.16에서 2.22로 업그레이드하는 동안 소유자 참조가 관련 KServe 관련 리소스에서 완전히 제거되기 전에 FeatureTracker
CR(사용자 정의 리소스)이 삭제됩니다. 결과적으로 Red Hat OpenShift AI Operator가 Managed
상태로 처음 생성한 리소스가 DataScienceCluster
(DSC) 사용자 정의 리소스(CR)에서 의도치 않게 제거될 수 있었습니다. 이 문제로 인해 리소스가 수동으로 복원될 때까지 모델 서비스 기능이 중단될 수 있습니다.
2.16에서 Unmanaged
로 변경된 경우 2.22에서 다음 리소스가 삭제될 수 있습니다.
유형 | 네임스페이스 | 이름 |
---|---|---|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
- 해결방법
OpenShift AI 2.16에서 2.22로 이미 업그레이드한 경우 다음 작업 중 하나를 수행합니다.
-
기존 백업이 있는 경우
FeatureTracker
CR에 대한 소유자 참조 없이 삭제된 리소스를 수동으로 다시 생성합니다. 기존 백업이 없는 경우 Operator를 사용하여 삭제된 리소스를 다시 생성할 수 있습니다.
- 이미 다시 생성한 모든 리소스를 백업하십시오.
DSC에서
spec.components.kserve.serving.managementState
를Managed
로 설정한 다음 Operator에서 리소스를 다시 생성할 수 있도록 변경 사항을 저장합니다.Operator가 리소스를 다시 생성할 때까지 기다립니다.
-
DSC에서
spec.components.kserve.serving.managementState
를 다시Unmanaged
로 설정한 다음 변경 사항을 저장합니다. -
재생성된
KnativeServing
,ServiceMeshMember
및Gateway
CRs 리소스에 대한 이전 사용자 정의 변경 사항을 다시 적용합니다.
아직 업그레이드하지 않은 경우 이 문제를 방지하기 위해 업그레이드하기 전에 다음 작업을 수행합니다.
-
DSC에서
spec.components.kserve.serving.managementState
를Unmanaged
로 설정합니다. -
위 표에 나열된 영향을 받는
KnativeServing
,ServiceMeshMember
및게이트웨이
리소스에 대해FeatureTracker
소유자 참조를 삭제하여 CR을 편집합니다. 이 편집에서는FeatureTracker
에 대한 리소스의 종속성을 제거하고 업그레이드 프로세스 중에 리소스 삭제를 방지합니다.
-
기존 백업이 있는 경우
NVPE-302,NVPE-303 - NIM 모델용 스토리지 클래스 없음
새로 설치된 OpenShift AI 클러스터에서 NVIDIA NIM 모델 제공 플랫폼에 NVIDIA NIM 모델 제공 플랫폼에 NVIDIA NIM 모델 제공 플랫폼을 배포하려고 하면 스토리지 클래스 드롭다운 메뉴가 채워지거나 모델 배포 페이지에 누락된 것을 확인할 수 있습니다. 이는 스토리지 클래스가 OpenShift AI를 새로 설치할 때 사용자 인터페이스에 로드되거나 캐시되지 않기 때문입니다. 따라서 배포에 대한 스토리지를 구성할 수 없습니다.
- 해결방법
-
OpenShift AI 대시보드에서 설정
스토리지 클래스 를 클릭합니다. 변경하지 마십시오. -
모델
모델 배포를 클릭하여 NIM 모델 배포를 확인합니다. - 모델 배포를 클릭합니다.
- 모델 배포 페이지에서 스토리지 클래스 드롭다운 메뉴가 표시되고 사용 가능한 스토리지 클래스 옵션으로 채워집니다.
-
OpenShift AI 대시보드에서 설정
RHOAIENG-27676 - 액셀러레이터 프로파일이 삭제된 케이스에서 제대로 작동하지 않음
워크벤치, 배포 또는 모델 서버를 생성한 후 액셀러레이터 프로필을 삭제하면 Edit 페이지에서 기존 설정을 사용하지 않고 잘못된 액셀러레이터 프로필을 표시합니다.
- 해결방법
- 없음.
RHOAIENG-25734 - 노트북 이미지와 함께 이름 문제
워크벤치, 배포 또는 모델 서버를 생성한 후 워크벤치를 삭제하고 제품 범위 및 글로벌 범위 모두에 동일한 이름을 사용하면 워크벤치 테이블 및 편집 워크벤치 양식에 잘못된 이름이 표시됩니다.
- 해결방법
- 프로젝트 범위 및 글로벌 범위 액셀러레이터 프로파일에는 동일한 이름을 사용하지 마십시오.
RHOAIENG-25733 - Accelerator 프로파일이 중복 이름에서 제대로 작동하지 않음
워크벤치, 배포 또는 모델을 생성하고 프로젝트 범위 액셀러레이터 프로파일과 동일한 이름을 사용하는 경우 페이지 편집 페이지 및 서버 양식에 잘못된 레이블을 각 테이블 및 양식에 표시합니다.
- 해결방법
- 프로젝트 범위 및 글로벌 범위 액셀러레이터 프로파일에는 동일한 이름을 사용하지 마십시오.
RHOAIG-245 - 처음 시작한 후 워크벤치에 런타임 이미지가 존재하지 않음
런타임 이미지 목록이 네임스페이스에서 첫 번째 실행 중인 워크벤치 인스턴스를 올바르게 채우지 않으므로 Elyra 파이프라인 편집기에서 선택할 수 있는 이미지가 표시되지 않습니다.
- 해결방법
- 워크벤치를 다시 시작합니다. 워크벤치를 다시 시작한 후 런타임 이미지 목록에 Elyra 파이프라인 편집기의 워크벤치와 선택 상자가 모두 채워집니다.
RHOAIENG-25090 - 모델 등록 옵션이 비활성화되면 InstructLab prerequisites-check-op
작업이 실패합니다.
< model 레지스트리 이름>에 모델 추가 확인란을 선택하지 않고 LAB-tuning 실행을 시작하면 InstructLab 파이프라인이 시작되지만 Pod 로그에서 다음 오류와 함께 prerequisites-check-op
작업이 실패합니다.
failed: failed to resolve inputs: the resolved input parameter is null: output_model_name
failed: failed to resolve inputs: the resolved input parameter is null: output_model_name
- 해결방법
- LAB-tuning run을 구성할 때 Add model to <model registry name > 체크박스를 선택합니다.
RHOAIENG-25056 - 중첩된 파이프라인에 사용되는 선택적 입력 매개 변수가 설정되지 않은 경우 데이터 사이언스 파이프라인 작업이 실패합니다.
파이프라인에 선택적 입력 매개변수가 있는 경우 해당 매개변수의 값이 제공되지 않고 중첩된 파이프라인에 사용되는 경우 해당 매개변수를 사용하는 작업이 다음 오류와 함께 실패합니다.
failed: failed to resolve inputs: resolving input parameter with spec component_input_parameter:"optional_input": parent DAG does not have input parameter optional_input
failed: failed to resolve inputs: resolving input parameter with spec component_input_parameter:"optional_input": parent DAG does not have input parameter optional_input
- 해결방법
- 중첩된 파이프라인 작업을 사용할 때 모든 선택적 매개변수의 값을 제공합니다.
RHOAIENG-24786 - 연결이 끊긴 환경에서 Authorino Operator를 기술 프리뷰에서 Stable로 업그레이드하지 못했습니다.
연결이 끊긴 환경에서는 Red Hat Authorino Operator를 Technical Preview에서 Stable로 업그레이드하면 authconfig-migrator-qqttz
Pod의 오류와 함께 실패합니다.
- 해결방법
-
Red Hat Authorino Operator를
tech-preview-v1
업데이트 채널(v1.1.2)의 최신 버전으로 업데이트합니다. 다음 스크립트를 실행합니다.
Copy to Clipboard Copied! Toggle word wrap Toggle overflow -
stable
업데이트 채널을 사용하도록 Red Hat Authorino Operator 서브스크립션을 업데이트합니다. - Authorino 1.2.1의 업데이트 옵션을 선택합니다.
-
Red Hat Authorino Operator를
RHOAIENG-20209 - 요청된 리소스가 임계값을 초과하면 경고 메시지가 표시되지 않음
분산 워크로드
- 해결방법
- 없음.
SRVKS-1301 (이전에는 RHOAIENG-18590)로 문서화되어 있음 - KServe를 비활성화하고 활성화한 후 KnativeServing
리소스가 실패합니다.
DataScienceCluster에서 kserve
구성 요소를 비활성화하고 활성화하면 KnativeServing
리소스가 실패할 수 있습니다.
- 해결방법
Knative와 관련된 모든
ValidatingWebhookConfiguration
및MutatingWebhookConfiguration
Webhook를 삭제합니다.Webhook를 가져옵니다.
oc get ValidatingWebhookConfiguration,MutatingWebhookConfiguration | grep -i knative
oc get ValidatingWebhookConfiguration,MutatingWebhookConfiguration | grep -i knative
Copy to Clipboard Copied! Toggle word wrap Toggle overflow - KServe가 비활성화되어 있는지 확인합니다.
Webhook를 가져옵니다.
oc get ValidatingWebhookConfiguration,MutatingWebhookConfiguration | grep -i knative
oc get ValidatingWebhookConfiguration,MutatingWebhookConfiguration | grep -i knative
Copy to Clipboard Copied! Toggle word wrap Toggle overflow - Webhook를 삭제합니다.
- KServe를 활성화합니다.
-
KServe Pod가 성공적으로 생성할 수 있고
knative-serving
네임스페이스의 Pod가 활성 상태이고 작동하는지 확인합니다.
RHOAIENG-16247 - OpenShift AI 대시보드에서 실행이 시작될 때 Elyra 파이프라인 실행 출력을 덮어씁니다.
Elyra에서 파이프라인을 생성하고 실행하면 파이프라인 실행에 의해 생성된 출력은 오브젝트 스토리지의 bucket-name/pipeline-name-timestamp
폴더에 저장됩니다.
Elyra에서 파이프라인이 생성되고 OpenShift AI 대시보드에서 파이프라인 실행이 시작되면 타임스탬프 값이 업데이트되지 않습니다. 이로 인해 파이프라인 실행이 동일한 파이프라인 실행의 이전 파이프라인 실행으로 생성된 파일을 덮어쓸 수 있습니다.
runid
는 항상 오브젝트 스토리지에 사용되는 폴더에 추가되므로 이 문제는 OpenShift AI 대시보드를 사용하여 컴파일 및 가져온 파이프라인에 영향을 미치지 않습니다. 데이터 사이언스 파이프라인에 사용되는 저장 위치에 대한 자세한 내용은 데이터 사이언스 파이프라인 을 사용하여 데이터 저장 을 참조하십시오.
- 해결방법
- Elyra 파이프라인에 파일을 저장할 때 각 파이프라인 실행 시 다른 하위 폴더 이름을 사용합니다.
OCPBUGS-49422 - AMD GPU 및 AMD ROCm 워크벤치 이미지는 연결이 끊긴 환경에서 지원되지 않습니다.
이번 OpenShift AI 릴리스는 AMD GPU Operator를 설치하려면 GPU 드라이버 컴파일에 필요한 종속성을 가져오기 위해 인터넷 액세스가 필요하기 때문에 연결이 끊긴 환경에서 AMD GPU 및 AMD ROCm 워크벤치 이미지를 지원하지 않습니다.
- 해결방법
- 없음.
RHOAIENG-12516 - 의도하지 않은 릴리스 채널에서 빠른
릴리스를 사용할 수 있습니다.
스트림 이미지 전달 프로세스의 알려진 문제로 인해 현재 의도하지 않은 스트리밍 채널(예: stable ,
)에서 stable
-x.y빠른
릴리스를 사용할 수 있습니다. 정확한 릴리스 유형, 채널 및 지원 라이프사이클 정보는 Red Hat OpenShift AI Self - Managed 라이프 사이클 페이지의 라이프 사이클 표를 참조하십시오.
- 해결방법
- 없음.
RHOAIENG-8294 - OpenShift AI 2.8을 버전 2.10 이상으로 업그레이드할 때 CodeFlare 오류
OpenShift AI 2.8을 버전 2.10 이상으로 업그레이드하려고 하면 AppWrapper
CRD(사용자 정의 리소스 정의) 버전과 일치하지 않기 때문에 CodeFlare 구성 요소에 대해 다음 오류 메시지가 표시됩니다.
ReconcileCompletedWithComponentErrors DataScienceCluster resource reconciled with component errors: 1 error occurred: * CustomResourceDefinition.apiextensions.k8s.io "appwrappers.workload.codeflare.dev" is invalid: status.storedVersions[0]: Invalid value: "v1beta1": must appear in spec.versions
ReconcileCompletedWithComponentErrors DataScienceCluster resource reconciled with component errors: 1 error occurred: * CustomResourceDefinition.apiextensions.k8s.io "appwrappers.workload.codeflare.dev" is invalid: status.storedVersions[0]: Invalid value: "v1beta1": must appear in spec.versions
- 해결방법
기존
AppWrapper
CRD를 삭제합니다.oc delete crd appwrappers.workload.codeflare.dev
$ oc delete crd appwrappers.workload.codeflare.dev
Copy to Clipboard Copied! Toggle word wrap Toggle overflow 약 20초 동안 기다린 다음 다음 예와 같이 새
AppWrapper
CRD가 자동으로 적용되었는지 확인합니다.oc get crd appwrappers.workload.codeflare.dev
$ oc get crd appwrappers.workload.codeflare.dev NAME CREATED AT appwrappers.workload.codeflare.dev 2024-11-22T18:35:04Z
Copy to Clipboard Copied! Toggle word wrap Toggle overflow
모든 구성 요소가 활성화된 DataScienceCluster
CR을 생성하면 Cryostat 구성 요소와 Training Operator 구성 요소 전에 Kue 구성 요소가 설치됩니다. 결과적으로 Kueue 구성 요소에서는 Cryostat Cluster
또는 PyTorchJob
리소스를 모니터링하지 않습니다.
- 해결방법
다음 작업 중 하나를 수행합니다.
-
Cryostat 구성 요소와 Training Operator 구성 요소를 설치한 후
redhat-ods-applications
네임스페이스에서 Kueue 컨트롤러 Pod를 다시 시작합니다. -
또는
DataScienceCluster
CR을 편집하여kue
구성 요소를Removed
로 표시하고 Kueue가 제거될 때까지 기다린 다음kue
구성 요소를 다시Managed
로 표시하도록 합니다.
-
Cryostat 구성 요소와 Training Operator 구성 요소를 설치한 후
루프(dsl.ParallelFor
) 또는 조건 그룹(dsl.lf
)이 있는 파이프라인을 실행하면 파이프라인 실행이 완료된 후에도 UI에 루프 및 그룹에 대한 Running 상태가 표시됩니다.
- 해결방법
하위 작업이 활성 상태로 유지되지 않았는지 확인하여 파이프라인이 여전히 실행 중인지 확인할 수 있습니다.
-
OpenShift AI 대시보드에서 Data Science Pipelines
Runs 를 클릭합니다. - 프로젝트 목록에서 데이터 사이언스 프로젝트를 클릭합니다.
- 실행 탭에서 상태를 확인할 파이프라인 실행을 클릭합니다.
조건 그룹을 확장하고 하위 작업을 클릭합니다.
하위 작업에 대한 정보가 포함된 패널이 표시됩니다.
패널에서 Task 세부 정보 탭을 클릭합니다.
Status 필드에 하위 작업에 대한 올바른 상태가 표시됩니다.
-
OpenShift AI 대시보드에서 Data Science Pipelines
OpenShift AI 2.10으로 업그레이드한 후 클러스터가 파이프라인 내에서만 생성되는 경우 분산 워크로드가 기존 파이프라인에서 더 이상 실행되지 않습니다. 파이프라인이 작동을 중지하고 Cryostat 클러스터가 시작되지 않습니다.
- 해결방법
-
분산 워크로드에 대한 기존 각 파이프라인의 Python 코드에서
cluster.wait_ready
를time.sleep(180)
로 교체하고 코드를 다시 컴파일합니다. 파이프라인을 가져오고 파이프라인 실행을 예약합니다.
RHOAIENG-1197 - Linux에서 Firefox를 사용할 때 파이프라인 실행 생성 페이지의 엔드 날짜 선택기로 인해 파이프라인을 생성할 수 없습니다.
Linux에서 Firefox를 사용하여 예약된 반복 실행으로 파이프라인을 생성하려고 하면 End Date 매개변수를 활성화하면 날짜와 시간에 모두 숫자 (NaN) 값이 표시되고 파이프라인을 생성할 수 없습니다.
- 해결방법
- Linux에서 다른 지원되는 브라우저를 사용하여 예약된 파이프라인 실행을 생성합니다. OpenShift AI가 지원하는 브라우저에 대한 자세한 내용은 Red Hat OpenShift AI: 지원되는 구성 지식 베이스 문서를 참조하십시오.
RHOAIENG-7312 - KServe에서 토큰 인증을 사용하여 쿼리하는 동안 모델 제공 실패
DataScienceCluster
오브젝트에서 ModelMesh 및 KServe 구성 요소를 모두 활성화했는데 권한 부여 공급자로 Authorino를 추가한 경우 경쟁 조건이 발생하여 odh-model-controller
Pod가 ModelMesh에 적합한 상태에서 롤아웃될 수 있지만 KServe 및 Authorino에는 적합하지 않을 수 있습니다. 이 경우 KServe를 사용하여 배포된 실행 중인 모델에 대한 유추 요청을 수행하면 404 - Not Found
오류가 표시됩니다. 또한 odh-model-controller
배포 오브젝트의 로그에 Reconciler
오류 메시지가 표시됩니다.
- 해결방법
-
OpenShift에서
odh-model-controller
배포 오브젝트를 다시 시작합니다.
RHOAIENG-7079 - 파이프라인 작업 상태 및 로그가 OpenShift AI 대시보드에 표시되지 않는 경우가 있음
특히 Elyra를 사용하여 파이프라인을 실행하는 경우 OpenShift AI 대시보드에는 관련 Pod가 정리되지 않았으며 OpenShift 콘솔에서 해당 정보를 계속 사용할 수 있는 경우에도 OpenShift AI 대시보드에 파이프라인 작업 상태 및 로그가 표시되지 않는 경우가 있습니다.
RHOAIENG-6853 - Elyra 파이프라인 Pod에서 Pod 허용 오차를 설정할 수 없습니다
Elyra 파이프라인 Pod에 대한 Pod 허용 오차를 설정하면 허용 오차가 적용되지 않습니다.
- 해결방법
- 없음.
RHOAIENG-7209 - 기본 파이프라인 루트를 설정할 때 오류가 표시됩니다.
데이터 사이언스 파이프라인 SDK 또는 OpenShift AI 사용자 인터페이스를 사용하여 기본 파이프라인 루트를 설정하면 다음과 유사한 오류가 표시됩니다.
F0513 18:25:25.155794 28 main.go:49] failed to execute component: Failed to open bucket "mlpipeline": Failed to retrieve credentials for bucket mlpipeline: Failed to get Bucket credentials from secret name="" namespace="dspa1": resource name may not be empty44
F0513 18:25:25.155794 28 main.go:49] failed to execute component: Failed to open bucket "mlpipeline": Failed to retrieve credentials for bucket mlpipeline: Failed to get Bucket credentials from secret name="" namespace="dspa1": resource name may not be empty44
- 해결방법
- 없음.
RHOAIENG-6711 - ODH-model-controller는 ServiceMeshMemberRoll
오브젝트에서 spec.memberSelectors
필드를 덮어씁니다.
ServiceMeshMemberRoll
리소스의 spec.memberSelectors
필드를 사용하여 프로젝트 또는 네임스페이스를 ServiceMeshMemberRoll
리소스에 추가하면 ODH-model-controller가 해당 필드를 덮어씁니다.
- 해결방법
예와 같이
spec.members
필드를 사용하여ServiceMeshMemberRoll
리소스에 네임스페이스를 명시적으로 추가합니다.spec: members: - <namespace 1> - <namespace 2>
spec: members: - <namespace 1> - <namespace 2>
Copy to Clipboard Copied! Toggle word wrap Toggle overflow
RHOAIENG-6709 - 서로 다른 환경 변수가 지정되면pyter 노트북 생성이 실패할 수 있습니다.
atepyter 노트북을 시작하고 OpenShift AI 워크벤치에서 환경 변수를 편집하면 노트북을 다시 시작할 수 없습니다.
- 해결방법
-
jupyterhub-singleuser-profile
로 시작하는 Hawkularpyter 타일 리소스(Notebook
,PersistentVolumeClaims
,ConfigMaps
)를 삭제합니다. - 노트북을 다시 시작합니다.
-
RHOAIENG-6701 - 클러스터 관리자 권한이 없는 사용자는 Cryostat 대시보드의 작업 제출 끝점에 액세스할 수 없습니다.
OpenShift에 대한 클러스터 관리자 권한이 없는 분산 워크로드 기능의 사용자는 Cryostat 대시보드의 작업 제출 끝점에 액세스하거나 사용하지 못할 수 있습니다.
RHOAIENG-6649 - 외부 경로가 정의되지 않은 모델 서버에서 모델을 볼 때 오류가 표시됩니다.
대시보드를 사용하여 외부 경로가 활성화되어 있지 않은 모델 서버에 모델을 배포하는 경우 모델 생성이 진행되는 동안 t.components가 정의되지 않은
오류 메시지가 표시될 수 있습니다.
- 해결방법
- 없음.
RHOAIENG-6646 - 업그레이드 중 Model Serving 페이지를 볼 때 오류가 표시됩니다.
OpenShift AI 업그레이드가 진행되는 동안 대시보드를 사용하여 모델을 배포하려고 하면 t.status가 정의되지 않은
오류 메시지가 표시될 수 있습니다.
- 해결방법
- 업그레이드된 OpenShift AI Operator가 준비될 때까지 기다린 다음 브라우저의 페이지를 새로 고칩니다.
RHOAIENG-6578 - 권한 부여 토큰을 표시하는 모델은 Authorino Operator를 삭제한 후 실제로 필요하지 않습니다.
단일 모델 제공 플랫폼의 권한 부여 공급자로 Authorino를 추가했지만 나중에 Authorino Operator를 삭제하면 OpenShift AI 대시보드에 토큰 권한 부여가 활성화된 모델에 대한 토큰이 계속 표시될 수 있습니다. 그러나 권한 부여는 더 이상 활성화되지 않으며 요청에 토큰을 지정하지 않고 모델에 대한 성공적인 유추 요청을 수행할 수 있습니다.
RHOAIENG-6505 - Disconnected environments: CryostatCluster TLS 인증서 생성에 필요한 추가 이미지
OpenShift AI 2.22에서 기본 이미지(quay.io/project-codeflare/ray:latest-py39-cu118
)는 mTLS(mutual Transport Layer Security)를 구현할 때 Cryostat 클러스터의 TLS 인증서 생성에 사용됩니다. 연결이 끊긴 환경에서 분산 워크로드를 사용하는 경우 이 이미지를 미러 레지스트리에 추가해야 합니다.
- 해결방법
-
연결이 끊긴 환경에서 분산 데이터 Science 워크로드 실행에 설명된 대로 CodeFlare Operator 구성 맵에서
kuberay:certGeneratorImage
값을 편집하여 자체 이미지를 제공할 수 있습니다.
데이터 사이언스 파이프라인 2.0을 사용하여 파이프라인을 두 번 이상 실행하면 파이프라인 실행을 위해 매개변수 오류가 파이프라인 로그에 표시될 수 없습니다
. 이러한 오류는 무시해도 됩니다.
- 해결방법
- 없음.
파이프라인을 생성하고 구성 요소의 pip_index_urls
값을 포트 번호와 경로가 포함된 URL로 설정하면 파이프라인 코드를 컴파일한 다음 파이프라인 실행을 생성하면 다음과 같은 오류가 발생합니다.
ValueError: Invalid IPv6 URL
ValueError: Invalid IPv6 URL
- 해결방법
-
protocol://hostname
만 사용하여 새 pip 서버를 생성하고 새 서버로 구성 요소의pip_index_urls
값을 업데이트합니다. - 파이프라인 코드를 다시 컴파일합니다.
- 새 파이프라인 실행을 생성합니다.
-
RHOAIENG-6317 - 대시보드에서 파이프라인 실행 Pod 로그를 볼 때 오류가 표시됩니다.
OpenShift AI 대시보드의 로그 뷰어를 사용하여 파이프라인 실행 포드 로그를 볼 때 Pod를 찾을 수 없는
오류 메시지가 표시될 수 있습니다.
- 해결방법
Red Hat OpenShift AI 대시보드 지식 베이스 솔루션에서 파이프라인 실행 Pod 로그를 보는 방법은 Data Science Pipelines 해결방법의 단계를 따르십시오.
참고이 문제는 OpenShift AI 2.9.1에서 부분적으로 해결되었습니다. 나머지 작업에 대한 자세한 내용은 RHOAIENG-7079 를 참조하십시오.
RHOAIENG-5314 - 네트워크 정책으로 인해 데이터 사이언스 파이프라인 서버가 새로운 클러스터에 배포되지 않음
새로운 클러스터에서 데이터 사이언스 파이프라인 서버를 생성할 때 사용자 인터페이스는 로드 상태로 유지되고 파이프라인 서버가 시작되지 않습니다. Pipeline 서버 실패
오류 메시지가 표시될 수 있습니다.
- 해결방법
- OpenShift 웹 콘솔에 클러스터 관리자로 로그인합니다.
- 네트워킹 > NetworkPolicies 를 클릭합니다.
- 프로젝트 목록을 클릭하고 프로젝트를 선택합니다.
- NetworkPolicy 생성 버튼을 클릭합니다.
구성을 통한 구성의 경우 YAML 보기를 선택하고 다음과 같이 네트워크 정책을 정의합니다.
Copy to Clipboard Copied! Toggle word wrap Toggle overflow - 생성을 클릭합니다.
이번 OpenShift AI 릴리스에서 분산 워크로드 메트릭은 GPU 메트릭을 제외합니다.
- 해결방법
- 없음.
RHOAIENG-4570 - 설치 또는 업그레이드와 함께 기존 Argo 워크플로우 설치 충돌
데이터 사이언스 파이프라인 2.0에는 Argo Workflows 설치가 포함되어 있습니다. Red Hat은 이 Argo 워크플로우 설치에 대한 직접 고객 사용을 지원하지 않습니다. 데이터 사이언스 파이프라인 2.0을 사용하여 OpenShift AI를 설치하거나 업그레이드하려면 클러스터에 Argo 워크플로우의 기존 설치가 없는지 확인합니다. 자세한 내용은 데이터 사이언스 파이프라인 2.0으로 마이그레이션 을 참조하십시오.
- 해결방법
-
기존 Argo Workflows 설치를 제거하거나
데이터 정보pipelines
를Removed
로 설정한 다음 설치 또는 업그레이드를 진행합니다.
RHOAIENG-3913 - Red Hat OpenShift AI Operator에 오류와 함께 Degraded
condition of False
가 잘못 표시됨
OpenShift AI Operator에서 사용하는 DSC(DataScienceCluster) 오브젝트에서 KServe 구성 요소를 활성화했지만 종속 Red Hat OpenShift Service Mesh 및 Red Hat OpenShift Serverless Operator를 설치하지 않은 경우 DSC 오브젝트의 kserveReady
조건이 KServe가 준비되지 않았음을 올바르게 보여줍니다. 그러나 Degraded
상태에 False
값이 잘못 표시됩니다.
- 해결방법
- Red Hat OpenShift Serverless 및 Red Hat OpenShift Service Mesh Operator를 설치한 다음 DSC를 다시 생성합니다.
동일한 네임스페이스에 이름이 일치하는 노트북 및 Cryostat 클러스터를 생성하면 시크릿에 이미 소유자가 있기 때문에 하나의 컨트롤러에서 시크릿을 확인하지 못합니다.
- 해결방법
- 이름이 네임스페이스의 해당 노트북 이름과 달라지도록 Cryostat 클러스터의 이름을 변경합니다.
RHOAIENG-5067 - ModelMesh 구성 요소를 기반으로 하는 모델 서버 메트릭 페이지가 로드되지 않음
대문자 또는 공백이 포함된 데이터 과학 프로젝트 이름은 ModelMesh 구성 요소를 기반으로 하는 모델 서버의 모델 서버 메트릭 페이지에서 문제를 일으킬 수 있습니다. 메트릭 페이지에 데이터가 올바르게 수신되지 않아 400 Bad Request
오류가 발생하고 페이지가 로드되지 않을 수 있습니다.
- 해결방법
- OpenShift에서 Kubernetes 리소스 이름 표준을 충족하도록 데이터 과학 프로젝트의 표시 이름을 변경합니다. 소문자 영숫자 및 하이픈만 사용합니다.
RHOAIENG-5025 - 자체 서명된 인증서가 처음 생성된 워크벤치에는 적용되지 않음
자체 서명된 인증서가 중앙에 구성되면 인증서는 데이터 과학 프로젝트에서 생성된 첫 번째 워크벤치에는 적용되지 않습니다.
- 해결방법
- 워크벤치가 포함된 각 데이터 사이언스 프로젝트에 대해 자체 서명된 인증서를 구성한 후 생성된 첫 번째 워크벤치를 삭제한 다음 새 워크벤치를 만듭니다. 자체 서명된 인증서는 새 워크벤치에서 예상대로 작동합니다.
RHOAIENG-4966 - 사용자 정의 CA 번들의 자체 서명된 인증서가 odh-trusted-ca-bundle
구성 맵에서 누락될 수 있습니다.
사용자 정의 CA 번들에 자체 서명된 인증서가 구성되면 ConfigMap이 odh-trusted-ca-bundle
ConfigMap에서 사용자 정의 인증서가 없거나 ConfigMap이 관리
됨으로 설정된 경우 예약되지 않은 네임스페이스에 odh-trusted-ca-bundle
ConfigMap이 포함되지 않는 경우가 있습니다. 이러한 문제는 거의 발생하지 않습니다.
- 해결방법
- Red Hat OpenShift AI Operator Pod를 다시 시작합니다.
RHOAIENG-4572 - 특정 상황에서 설치 및 업그레이드 후 데이터 사이언스 파이프라인을 실행할 수 없습니다
다음과 같은 상황에서 OpenShift AI를 설치하거나 업그레이드한 후 데이터 사이언스 파이프라인을 실행할 수 없습니다.
-
OpenShift AI를 설치하고 유효한 CA 인증서가 있어야 합니다. default-dsci 오브젝트 내에서
trustedCABundle
필드의managementState
필드를Removed
설치 후로 변경했습니다. - OpenShift AI를 버전 2.6에서 버전 2.8으로 업그레이드했으며 유효한 CA 인증서가 있습니다.
OpenShift AI를 버전 2.7에서 버전 2.8으로 업그레이드했으며 유효한 CA 인증서가 있습니다.
- 해결방법
이 문제를 해결하려면 다음 단계를 수행합니다.
-
OpenShift 웹 콘솔에서 Operator
설치된 Operator 를 클릭한 다음 Red Hat OpenShift AI Operator 를 클릭합니다. - DSC 초기화 탭을 클릭합니다.
- default-dsci 오브젝트를 클릭합니다.
- YAML 탭을 클릭합니다.
spec
섹션에서 다음과 같이trustedCABundle
의managementState
필드 값을Managed
로 변경합니다.spec: trustedCABundle: managementState: Managed
spec: trustedCABundle: managementState: Managed
Copy to Clipboard Copied! Toggle word wrap Toggle overflow 참고OpenShift AI 버전 2.6 또는 2.7에서 버전 2.22로 업그레이드하는 경우 YAML 코드에 없는
trustedCABundle
필드와managementState
필드를 수동으로 추가해야 합니다. 또한customCABundle
필드에 값을 입력할 필요가 없습니다.- 저장을 클릭합니다.
대시보드 복제본 세트를 다시 시작합니다.
- OpenShift 웹 콘솔에서 관리자 화면으로 전환합니다.
-
워크로드
배포를 클릭합니다. - 적절한 배포를 볼 수 있도록 프로젝트를 모든 프로젝트 또는 redhat-ods-applications 로 설정합니다.
- rhods-dashboard 배포를 검색합니다.
- 작업 메뉴( Cryostat)를 클릭하고 목록에서 롤아웃 재시작 을 선택합니다.
- Status 열에 롤아웃의 모든 포드가 완전히 다시 시작될 때까지 기다립니다.
-
OpenShift 웹 콘솔에서 Operator
RHOAIENG-4524 - R Cryostat 이미지의 BuildConfig 정의에는 잘못된 분기 발생이 포함됩니다.
R Cryostat 및 CUDA - R Cryostat 워크벤치 이미지에 대한 BuildConfig 정의는 OpenShift AI에서 잘못된 분기를 가리킵니다. BuildConfig 정의는 rhoai-2.8
분기 대신 기본
분기를 잘못 가리킵니다.
- 해결방법
- OpenShift AI에서 R Cryostat 및 CUDA - R Cryostat 워크벤치 이미지를 사용하려면 R Cryostat 이미지 BuildConfig 정의 지식 베이스 솔루션의 분기 해결 단계를 따르십시오.
RHOAIENG-4497 - 자체 서명된 인증서가 있는 다중 모델 제공 플랫폼의 모델 2.8으로 업그레이드한 후 작동이 중지됨
이전 버전에서는 다중 모델 제공 플랫폼에서 모델을 제공할 때 자체 서명된 인증서를 사용하려는 경우 데이터 연결에서 사용하는 storage-config
시크릿을 수동으로 구성하여 CA(인증 기관) 번들을 지정해야 했습니다.
최신 버전으로 이 해결 방법을 사용한 이전 버전의 OpenShift AI를 업그레이드하는 경우 다중 모델 제공 플랫폼에서 더 이상 모델을 제공할 수 없습니다.
- 해결방법
- 다중 모델 제공 플랫폼과 함께 자체 서명된 인증서를 사용하려면 CA 번들 추가 의 단계를 따르십시오.
RHOAIENG-4430 - 데이터 연결 없이 KServe에서 CA Bundle이 작동하지 않음
OpenShift 클러스터에 CA(인증 기관) 번들을 설치하여 자체 서명된 인증서를 사용한 다음 OpenShift AI 대시보드를 사용하여 모델을 제공하는 데이터 연결을 생성한 경우 OpenShift AI는 storage-config
라는 시크릿에 인증서를 자동으로 저장합니다. 그러나 OpenShift AI 대시보드를 무시하고 다른 시크릿 이름 또는 서비스 계정을 지정하도록 기본 InferenceService
리소스를 구성하는 경우 OpenShift AI는 모델에 대한 SSL 연결을 검증하지 못하고 모델 상태에 [SSL: CERTIFICATE_VERIFY_FAILED] 인증서 확인 실패: 자체 서명된 인증서
.
- 해결방법
-
OpenShift AI 대시보드를 사용하여 모델에 대한 데이터 연결을 만듭니다.
InferenceService
리소스를 수동으로 수정하여 다른 시크릿 이름 또는 서비스 계정을 지정하지 마십시오.
RHOAIENG-4327 - Workbenches는 중앙에서 자동으로 구성된 번들의 자체 서명 인증서를 사용하지 않습니다.
OpenShift AI에는 ca-bundle.crt 및 odh-
옵션이 있습니다. 자체 서명된 인증서는 자체 서명된 인증서를 중앙에서 구성한 후 생성한 워크벤치에 적용해야 합니다. 워크벤치는 중앙에서 구성된 번들의 자체 서명된 인증서를 자동으로 사용하지 않습니다.
ca-bundle.crt
에 자체 서명된 인증서를 포함하는 두 가지 번들
- 해결방법
자체 서명된 인증서를 중앙에서 구성하면 새 워크벤치에 적용되며
사용자 지정
접두사를 사용하여/etc/pki/tls/certs/
에서 사용할 수 있습니다. 워크벤치의 도구가 인증서 경로를 가리키는 알려진 환경 변수를 설정하여 이러한 인증서를 사용하도록 할 수 있습니다.-
인증서를 중앙에서 구성할 때
ca-bundle.crt
를 사용하는 경우 경로는/etc/pki/tls/certs/custom-ca-bundle.crt
입니다. -
인증서를 중앙에서 구성할 때
odh-ca-bundle.crt
를 사용한 경우 경로는/etc/pki/tls/certs/custom-odh-ca-bundle.crt
입니다.
-
인증서를 중앙에서 구성할 때
알려진 환경 변수를 설정합니다.
- OpenShift AI 대시보드에서 Data Science 프로젝트로 이동하여 워크벤치가 포함된 프로젝트의 이름을 선택합니다.
- Workbenches 탭을 클릭합니다.
- 업데이트할 워크벤치 옆에 있는 작업 메뉴( Cryostat)를 클릭하고 Edit workbench 를 클릭합니다.
- 환경 변수 섹션에서 변수 추가 를 클릭합니다.
- 환경 변수 유형 선택 목록에서 구성 맵을 선택합니다.
- Select one 목록에서 Key / value 를 선택합니다.
-
키 필드에
SSL_CERT_FILE
을 입력합니다. -
값 필드에 인증서 파일의 경로를 입력합니다. 예:
/etc/pki/tls/certs/custom-ca-bundle.crt
. - 워크벤치 업데이트를 클릭합니다.
자세한 내용은 연결이 끊긴 환경의 sendpyter 노트북에서 파이프라인을 실행하는 방법을 참조하십시오.
RHOAIENG-4252 - 데이터 사이언스 파이프라인 서버 삭제 프로세스가 ScheduledWorkFlow
리소스를 제거하지 못했습니다.
파이프라인 서버 삭제 프로세스는 ScheduledWorkFlow
리소스를 제거하지 않습니다. 결과적으로 새로운 DataSciencePipelines Applications(DSPA)에서 중복 ScheduledWorkFlow
리소스를 인식하지 않습니다.
- 해결방법
- 파이프라인 서버를 삭제합니다. 자세한 내용은 파이프라인 서버 삭제를 참조하십시오.
OpenShift CLI(명령줄 인터페이스)에서 클러스터에 클러스터 관리자로 로그인하고 다음 명령을 실행하여 중복
ScheduledWorkFlow
리소스를 삭제합니다.oc -n <data science project name> delete scheduledworkflows --all
$ oc -n <data science project name> delete scheduledworkflows --all
Copy to Clipboard Copied! Toggle word wrap Toggle overflow
RHOAIENG-4240 - 안전하지 않은 환경에서 Cryostat 클러스터에 작업을 제출하지 못했습니다.
보안되지 않은 OpenShift 클러스터에서 distributed data Science workloads를 실행할 때 ConnectionError: Failed to connect to
Cryostat 오류 메시지가 표시될 수 있습니다.
- 해결방법
-
노트북의
ClusterConfiguration
섹션에서openshift_oauth
옵션을True
로 설정합니다.
RHOAIENG-3981 - 보안되지 않은 환경에서 Cryostat 클러스터가 준비될 때까지 기다리는 기능
보안되지 않은 OpenShift 클러스터에서 분산 데이터 과학 워크로드를 실행할 때 Cryostat 클러스터가 준비될 때까지 기다리는 기능(cluster.wait_ready()
)이 Cryostat 클러스터가 준비된 경우에도 중단됩니다.
- 해결방법
다음 작업 중 하나를 수행합니다.
-
노트북의
ClusterConfiguration
섹션에서openshift_oauth
옵션을True
로 설정합니다. -
cluster.wait_ready()
기능을 사용하는 대신 Cryostat 클러스터 경로 URL을 열어 Cryostat 클러스터 가용성을 수동으로 확인할 수 있습니다. URL에서 Cryostat 대시보드를 사용할 수 있으면 클러스터가 준비됩니다.
-
노트북의
RHOAIENG-3963 - 필요하지 않은 관리 리소스 경고
redhat-ods-applications
프로젝트에 대한 OdhDashboardConfig
사용자 정의 리소스를 편집하고 저장하면 시스템에서 다음 Managed 리소스
경고 메시지를 잘못 표시합니다.
This resource is managed by DSC default-doc and any modifications may be overwritten. Edit the managing resource to preserve changes.
This resource is managed by DSC default-doc and any modifications may be overwritten. Edit the managing resource to preserve changes.
이 메시지는 무시해도 됩니다.
- 해결방법
- 저장을 클릭하여 경고 메시지를 닫고 편집을 적용합니다.
RHOAIENG-3372 - 이미지 URL로 인해 연결이 끊긴 환경에서 Pipeline이 실행되지 않음
데이터 사이언스 파이프라인은 registry.redhat. io/ubi8/ubi8/ubi-micro 이미지 URL 대신
이미지 URL을 참조합니다. 연결이 끊긴 환경에서 이러한 불일치로 인해 파이프라인 실행 오류가 발생합니다.
registry.access.redhat.com/ubi8/ubi-micro
- 해결방법
다음 코드가 포함된 새 CR(사용자 정의 리소스)을 생성합니다. 여기서
my-disconnected-registry.com:8443
은 이미지 레지스트리 URL입니다.Copy to Clipboard Copied! Toggle word wrap Toggle overflow - 파이프라인을 다시 실행합니다.
RHOAIENG-1825 - 자체 서명된 인증서를 설정한 후 파이프라인을 실행하면 Elyra가 포함된 워크벤치와 함께 실패할 수 있습니다.
자체 서명된 인증서를 중앙에서 구성하면 Elyra가 포함된 워크벤치로 파이프라인을 실행하는 데 실패할 수 있습니다.
- 해결방법
해결 방법은 다음 지식 베이스 솔루션을 참조하십시오.
RHOAIENG-3355 - KServe의 OVMS가 가속기를 올바르게 사용하지 않음
단일 모델 제공 플랫폼을 사용하여 모델을 배포하고 OpenVINO 모델 서버 제공 런타임을 선택하면 액셀러레이터가 모델 서버에 연결되도록 요청하면 가속기 하드웨어가 감지되지만 쿼리에 응답할 때 모델에 사용되지 않습니다. 쿼리는 CPU만 사용하여 계산됩니다.
- 해결방법
-
CPU에 대한 기본 설정으로 가속기를 사용하도록 OVMS를 구성하려면 OVMS 런타임 템플릿을 업데이트하여 CLI 옵션에
--target_device AUTO
를 추가합니다.
RHOAIENG-3134 - OVMS는 단일 및 다중 모델 서비스 플랫폼에서 다양한 모델 프레임워크를 지원합니다.
단일 모델 제공 플랫폼을 사용하여 모델을 배포하고 OpenVINO 모델 서버 런타임을 선택하면 모델 프레임워크 (이름 - 버전) 목록에 추가 프레임워크 가 표시됩니다.
- 해결방법
- 없음.
OVMS(OpenVINO Model Server) 런타임을 사용하여 단일 모델 제공 플랫폼(KServe 사용)에 모델을 배포할 때 OVMS에서 예상되는 디렉터리 레이아웃과 KServe에서 사용하는 모델 가져오기 논리의 디렉터리 레이아웃이 일치하지 않습니다. 특히 OVMS에서는 모델 파일이 /< mnt>/models/1/
디렉터리에 있어야 하지만 KServe는 이를 /<mnt>/models/
디렉터리에 배치합니다.
- 해결방법
다음 작업을 수행합니다.
-
S3 호환 스토리지 버킷에서 모델 파일을
1/
이라는 디렉터리에 배치합니다(예: /<s3_storage_bucket>/models/1/<model_files
> ). OVMS 런타임을 사용하여 단일 모델 제공 플랫폼에 모델을 배포하려면 다음 옵션 중 하나를 선택하여 모델 파일의 경로를 지정합니다.
-
OpenShift AI 대시보드를 사용하여 모델을 배포하는 경우 데이터 연결의 경로 필드에서
/<s3_storage_bucket>/models/
형식을 사용하여 모델 파일의 경로를 지정합니다.1/
디렉터리를 경로의 일부로 지정하지 마십시오. -
모델을 배포하기 위해 자체
InferenceService
사용자 지정 리소스를 생성하는 경우storageURI
필드의 값을/<s3_storage_bucket>/models/
로 구성합니다.1/
디렉터리를 경로의 일부로 지정하지 마십시오.
-
OpenShift AI 대시보드를 사용하여 모델을 배포하는 경우 데이터 연결의 경로 필드에서
-
S3 호환 스토리지 버킷에서 모델 파일을
KServe는 지정한 경로의 하위 디렉터리에서 모델 파일을 가져옵니다. 이 경우 KServe는 S3 호환 스토리지의 /<s3_storage_bucket>/models/1/
디렉토리에서 모델 파일을 올바르게 가져옵니다.
RHOAIENG-3018 - KServe의 OVMS는 대시보드에 올바른 끝점을 노출하지 않습니다.
OVMS(OpenVINO Model Server) 런타임을 사용하여 단일 모델 제공 플랫폼에 모델을 배포할 때 배포된 모델의 유추 끝점 필드에 표시된 URL이 완료되지 않습니다.
- 해결방법
-
모델에 쿼리를 보내려면
/v2/models/_<model-name>_/infer
문자열을 URL 끝에 추가해야 합니다._<model-name>_
을 배포된 모델의 이름으로 바꿉니다.
단일 모델 제공 플랫폼(KServe 사용)을 사용하여 모델을 배포할 때 유추 서비스에 sidecar.istio.io/inject=true
주석이 있어도 결과 Pod에서 istio-proxy
컨테이너가 누락될 수 있습니다.
OpenShift AI 2.7에서 누락된 istio-proxy
컨테이너에 문제가 없을 수 있습니다. 그러나 Pod에 연결 문제가 발생하면 컨테이너가 누락되어 발생할 수 있습니다.
- 해결방법
- 결함이 있는 Pod를 삭제합니다. OpenShift AI는 누락된 컨테이너가 있어야 하는 새 포드를 자동으로 생성합니다.
RHOAIENG-3378 - 내부 이미지 레지스트리는 sendpyter 노트북 생성 프로세스를 위해 선언되지 않은 하드 종속성입니다.
OpenShift AI 노트북과 워크벤치를 시작하려면 먼저 OpenShift에서 통합된 내부 컨테이너 이미지 레지스트리를 활성화해야 합니다. 먼저 이미지 레지스트리를 활성화하지 않고 노트북 또는 워크벤치를 시작하려고 하면 "InvalidImageName" 오류와 함께 실패합니다.
다음 명령을 사용하여 이미지 레지스트리가 클러스터에 활성화되어 있는지 확인할 수 있습니다.
oc get pods -n openshift-image-registry
$ oc get pods -n openshift-image-registry
- 해결방법
- OpenShift에서 통합된 내부 컨테이너 이미지 레지스트리를 활성화합니다. 이미지 레지스트리를 설정하고 구성하는 방법에 대한 자세한 내용은 OpenShift의 Image Registry Operator 를 참조하십시오.
RHOAIENG-2869 - 다중 모델 프로젝트에서 기존 모델 프레임워크 및 모델 경로를 편집할 수 없습니다
모델 배포 대화 상자를 사용하여 다중 모델 프로젝트에서 모델을 편집하려고 하면 모델 프레임워크 및 경로 값이 업데이트되지 않습니다.
- 해결방법
- 없음.
RHOAIENG-2759 - 프로젝트에 보안 및 일반 모델 서버가 있는 경우 모델 배포가 실패합니다.
한 서버가 토큰 인증을 사용하고 다른 서버에서 인증을 사용하지 않는 프로젝트에서 두 번째 모델 서버를 만들 때 두 번째 모델의 배포가 시작되지 않을 수 있습니다.
- 해결방법
- 없음.
RHOAIG-2724 - 대화 상자에서 필드가 자동으로 재설정되므로 모델 배포가 실패합니다.
모델을 배포하거나 배포된 모델을 편집할 때 "Deploy 모델" 대화 상자의 모델 서버 및 모델 프레임워크 필드가 기본 상태로 재설정될 수 있습니다. 이러한 필수 필드에 더 이상 유효한 값이 포함되어 있지 않아도 Deploy 버튼을 계속 활성화할 수 있습니다.
모델 서버 및 모델 프레임워크 필드가 설정되지 않은 경우 배포를 클릭하면 모델 배포 Pod가 생성되지 않습니다.
- 해결방법
- 없음.
RHOAIENG-2620 - 기존 편향 메트릭에서 중복 비분성 메트릭을 생성할 수 없음
기존의 무분별 메트릭을 복제할 수 없습니다.
- 해결방법
- OpenShift AI 대시보드의 왼쪽 메뉴에서 Model Serving 을 클릭합니다.
- 배포 모델 페이지에서 복제하려는 조정 메트릭이 있는 모델의 이름을 클릭합니다.
- 모델의 메트릭 페이지에서 모델 편향 탭을 클릭합니다.
- 복사할 메트릭 옆에 있는 작업 메뉴( Cryostat)를 클릭한 다음 중복 을 클릭합니다.
Configure density metrics 대화 상자가 열리며 모호성 구성에 대해 미리 채워진 값이 표시됩니다. 각 Privileged 값,Unprivileged value 및 Output 값 필드에 대해 값을 잘라내고 다시 붙여 넣습니다.
참고: 이 값을 복사하여 붙여넣지 마십시오.
- 구성 을 클릭합니다.
평균 응답 시간 서버 지표 그래프는 ModelMesh Pod가 다시 시작되면 여러 행을 보여줍니다.
- 해결방법
- 없음.
RHOAIENG-2585 - 클러스터에서 UWM이 활성화되지 않은 경우 UI에 오류/경고가 표시되지 않음
Red Hat OpenShift AI는 클러스터에서 UWM(User Workload Monitoring)이 비활성화된 경우 사용자에게 올바르게 경고하지 않습니다. UWM은 모델 메트릭의 올바른 기능에 필요합니다.
- 해결방법
- 사용자 정의 프로젝트에 대한 모니터링 활성화에 설명된 대로 클러스터에서 UWM이 활성화되어 있는지 수동으로 확인합니다.
RHOAIENG-2555 - Serving Runtime을 변경할 때 모델 프레임워크 선택기가 재설정되지 않음
모델 배포 대화 상자를 사용하여 단일 모델 제공 플랫폼에 모델을 배포하는 경우 런타임 및 지원되는 프레임워크를 선택한 다음 다른 런타임으로 전환하면 기존 프레임워크 선택 사항이 재설정되지 않습니다. 즉, 선택한 런타임에 지원되지 않는 프레임워크를 사용하여 모델을 배포할 수 있습니다.
- 해결방법
- 모델을 배포하는 동안 선택한 런타임을 변경하는 경우 프레임워크 선택 목록을 다시 클릭하고 지원되는 프레임워크를 선택합니다.
끝점의 포트와 일치하지 않기 때문에 TrustyAI 컨트롤러 관리자의 Prometheus 대상이 다운됩니다. 컨트롤러 배포 Pod가 다운된 경우 TrustyAI에 대한 경고가 실행됩니다.
- 해결방법
- 없음.
RHOAIENG-2479 - ModelMesh 모니터링 스택은 2.4 또는 2.5로 업그레이드하는 동안 삭제되지 않습니다.
Red Hat OpenShift AI Operator를 버전 2.4에서 2.5로 업그레이드한 다음 operator를 버전 2.6, 2.7 또는 2.8로 업데이트하면 하드웨어 리소스가 많이 소모되는 모델 모니터링과 관련된 모든 구성 요소가 클러스터에서 제거됩니다. 하드웨어 리소스를 사용하지 않는 일부 Residual model-monitoring 리소스는 여전히 존재합니다.
- 해결방법
-
이러한 리소스를 삭제하려면 cluster-admin 권한으로 다음
oc delete
명령을 실행합니다.
단일 모델 제공 플랫폼(KServe 사용)에 배포된 모델이 포함된 데이터 과학 프로젝트에 OpenShift AI가 아닌 서비스를 배포하는 경우 서비스의 접근성이 OpenShift 클러스터의 네트워크 구성의 영향을 받을 수 있습니다. 호스트 네트워크 네임스페이스와 함께 OVN-Kubernetes 네트워크 플러그인 을 사용하는 경우 특히 그러합니다.
- 해결방법
다음 작업 중 하나를 수행합니다.
- 단일 모델 제공 플랫폼에 배포된 모델이 포함되지 않은 다른 데이터 사이언스 프로젝트에 서비스를 배포합니다. 또는 다른 OpenShift 프로젝트에서 서비스를 배포합니다.
서비스가 되는 데이터 사이언스 프로젝트에서 다음 예와 같이 애플리케이션 pod에 수신 트래픽을 허용하는 네트워크 정책을 추가합니다.
Copy to Clipboard Copied! Toggle word wrap Toggle overflow
코드-서버
워크벤치에서 numpy
를 가져올 수 없습니다.
- 해결방법
코드-서버
워크벤치의 활동 표시줄에서 메뉴 아이콘 () > 보기 > 명령 팔레트 를 선택하여 명령줄을 엽니다.
Firefox에서는 F1 키보드 바로 가기를 사용하여 명령 팔레트를 열 수 있습니다.
-
python: s
를 입력합니다. - 드롭다운 목록에서 Python: 인터프리터 선택 작업을 선택합니다.
- Interpreter 선택 대화 상자에서 인터프리터 경로 입력...를 선택합니다.
-
인터프리터 경로로
/opt/app-root/bin/python3
을 입력하고 Enter 를 누릅니다. - 드롭다운 목록에서 새 Python 인터프리터를 선택합니다.
-
새 인터프리터(
app-root
)가 상태 표시줄에 표시되는지 확인합니다. 선택한 인터프리터는 워크벤치가 중지되고 다시 시작되면 유지되므로 각 워크벤치마다 한 번만 해결 방법을 수행해야 합니다.
RHOAIENG-2270 - (Single-model) 사용자는 모델 배포 설정을 업데이트할 수 없습니다.
단일 모델 플랫폼으로 배포한 모델의 배포 설정(예: 복제본 수)을 편집할 수 없습니다.
- 해결방법
- 없음.
RHOAIENG-2269 - (Single-model) 대시보드가 올바른 모델 복제본 수를 표시하지 못했습니다.
단일 모델 플랫폼에서 데이터 사이언스 프로젝트의 모델 및 모델 서버 섹션에는 올바른 모델 복제본 수가 표시되지 않습니다.
- 해결방법
- 다음 CLI 명령을 사용하여 복제본 수를 확인합니다.
oc -n <project_resource_name> get pods --selector serving.kserve.io/inferenceservice=<model_resource_name>
$ oc -n <project_resource_name> get pods --selector serving.kserve.io/inferenceservice=<model_resource_name>
OpenShift AI 대시보드에서 < project_resource_name
> 및 < model_resource_name
> 값을 찾을 수 있습니다.
워크로드 > Pod 의 OpenShift 웹 콘솔에서 모델 복제본 수를 확인할 수도 있습니다.
모델 지표 화면의 끝점 성능 탭에서 새로 고침 간격을 15초로 설정하고 시간 범위를 1시간으로 설정하면 그래프 결과가 지속적으로 변경됩니다.
- 해결방법
- 없음.
RHOAIENG-2183 - 끝점 성능 그래프에 잘못된 레이블이 표시될 수 있습니다.
모델 지표 화면의 끝점 성능 탭에서 그래프 툴팁에 잘못된 레이블이 표시될 수 있습니다.
- 해결방법
- 없음.
RHOAIENG-1919 - Model Serving 페이지가 배포 직후 모델 경로 URL을 가져오지 못하거나 보고되지 않음
OpenShift AI 대시보드에서 모델을 배포할 때 시스템은 다음 경고 메시지를 표시하고 모델의 Status 열은 OK/green 확인 표시로 성공했음을 나타냅니다.
Failed to get endpoint for this deployed model. routes.rout.openshift.io"<model_name>" not found
Failed to get endpoint for this deployed model. routes.rout.openshift.io"<model_name>" not found
- 해결방법
- 브라우저 페이지를 새로 고칩니다.
메모리 부족(OOM) 오류로 인해 Knative net-istio-controller
Pod(KServe의 종속성)가 지속적으로 충돌할 수 있습니다.
- 해결방법
-
KnativeServing 인스턴스의 CR(사용자 정의 리소스)에서
ENABLE_SECRET_INFORMER_BY_CERT_UID=true
주석을 추가하여 environment 변수를net-istio-controller
Pod에 삽입합니다. 이 환경 변수를 삽입하면net-istio-controller
가 메모리를 감시하고 로드하는 시크릿 수가 줄어듭니다.
이 구성에 대한 자세한 내용은 Knative Serving 인스턴스 생성을 참조하십시오.
RHOAIENG-1452 - Red Hat OpenShift AI 애드온 사용 중단
Red Hat OpenShift AI 애드온 설치 제거는 OCM API를 통해 트리거된 후 OpenShift AI 구성 요소를 삭제하지 않습니다.
- 해결방법
다음과 같이 나머지 OpenShift AI 리소스를 수동으로 삭제합니다.
-
DataScienceCluster
CR을 삭제합니다. -
redhat-ods-applications
네임스페이스에서 모든 포드가 삭제될 때까지 기다립니다. -
DataScienceCluster
CR에서 Serverless가Managed
로 설정된 경우knative-serving
네임스페이스에서 모든 Pod가 삭제될 때까지 기다립니다. -
DSCInitialization
CR을 삭제합니다. -
DSCInitialization
CR에서 Service Mesh가Managed
로 설정된 경우istio-system
네임스페이스에서 모든 Pod가 삭제될 때까지 기다립니다. - Red Hat OpenShift AI Operator를 설치 제거합니다.
-
모든 Pod가
redhat-ods-operator
네임스페이스 및redhat-ods-monitoring
네임스페이스에서 삭제될 때까지 기다립니다.
-
RHOAIENG-880 - 기본 파이프라인 서비스 계정을 생성할 수 없습니다.
기본 파이프라인 서비스 계정을 사용하여 클러스터를 생성할 수 없습니다.
- 해결방법
파이프라인 코드에 다음 행을 추가하여 CodeFlare SDK를 사용하여 인증합니다.
from codeflare_sdk.cluster.auth import TokenAuthentication auth = TokenAuthentication( token=openshift_token, server=openshift_server ) auth_return = auth.login()
from codeflare_sdk.cluster.auth import TokenAuthentication auth = TokenAuthentication( token=openshift_token, server=openshift_server ) auth_return = auth.login()
Copy to Clipboard Copied! Toggle word wrap Toggle overflow 참고클러스터에서 자체 서명된 인증서를 사용하는 경우
TokenAuthentication
매개변수 목록에ca-cert-path=<path
>를 포함합니다.
RHOAIENG-535 - HTTP 요청이 없는 경우 배포된 모델에 대한 HTTP 요청을 표시하는 메트릭 그래프
배포된 모델이 두 가지 데이터 유형(성공 및 실패) 각각에 대해 하나 이상의 HTTP 요청을 수신하지 못하면 HTTP 요청 성능 지표(모델 서버의 모든 모델 또는 특정 모델의 모든 모델에 대해)를 보여주는 그래프가 잘못 렌더링되고 실패 요청 수가 안정화되지 않음을 나타냅니다.
- 해결방법
- 배포된 데이터 모델이 성공하고 실패한 HTTP 요청을 한 개 이상 수신하면 그래프에 HTTP 요청 성능 지표가 올바르게 표시됩니다. 그래프에 지정하는 시간 범위에 관계없이 각 데이터 유형(성공 및 실패)의 하나의 HTTP 요청(성공 및 실패)이 배포된 모델의 기록에 있는 한 그래프가 올바르게 작동합니다.
Red Hat OpenShift AI 대시보드에 액세스하면 No Components Found 페이지가 표시될 수 있습니다.
- 해결방법
- 브라우저 페이지를 새로 고칩니다.
RHOAIENG-234 - Insecure 클러스터의 VSCode에서 .ipynb 파일을 볼 수 없음
비보안 클러스터의 Google Chrome에서 code-server 워크벤치 이미지를 사용하는 경우 .ipynb 파일을 볼 수 없습니다.
- 해결방법
- 다른 브라우저를 사용하십시오.
기본 (1)과 다른 모델 서버 복제본을 설정하면 모델(서버)이 여전히 1개의 복제본과 함께 배포됩니다.
RHOAIENG-2541 - KServe 컨트롤러 Pod가 클러스터에 너무 많은 시크릿으로 인해 OOM을 경험함
OpenShift 클러스터에 많은 시크릿이 있는 경우 OOM(메모리 부족) 오류로 인해 KServe 컨트롤러 Pod가 지속적으로 충돌할 수 있습니다.
- 해결방법
- KServe 컨트롤러 포드가 안정적으로 될 때까지 OpenShift 클러스터의 시크릿 수를 줄입니다.
RHOAIENG-2184 - Cryostat 클러스터 또는 분산 워크로드를 생성할 수 없습니다
사용자는 관리자
또는 편집
권한이 있는 네임스페이스에서 Cryostat 클러스터 또는 분산 워크로드를 생성할 수 없습니다.
- 해결방법
-
적절한 권한을 부여하려면 Kube Cryostat Operator 및 CodeFlare Operator에서 생성한 리소스에 대한 ClusterRole을 생성하고 Red Hat 지식베이스 솔루션에 설명된 대로
admin
및edit
집계 라벨을 지정합니다. RHOAI 에서는 Cryostat 클러스터 및 분산 워크로드를 생성하는 방법을 설명합니다.
RHOAIENG-2099 - 데이터 사이언스 파이프라인 서버가 새로운 클러스터에 배포되지 않음
새로운 클러스터에서 데이터 사이언스 파이프라인 서버를 생성할 때 사용자 인터페이스는 로드 상태로 유지되고 파이프라인 서버가 시작되지 않습니다. "Pipeline server failed" 오류 메시지가 표시될 수 있습니다.
- 해결방법
- 파이프라인 서버를 삭제하고 새 서버를 생성합니다.
문제가 지속되면 DSPA 사용자 정의 리소스에서 데이터베이스 상태 점검을 비활성화합니다.
다음 명령을 사용하여 사용자 정의 리소스를 편집합니다.
oc edit dspa pipelines-definition -n my-project
$ oc edit dspa pipelines-definition -n my-project
Copy to Clipboard Copied! Toggle word wrap Toggle overflow -
spec.database.disableHealthCheck
값을true
로 설정합니다. - 변경 사항을 저장합니다.
RHOAIENG-908 - KServe가 이전에 활성화되고 제거된 경우 ModelMesh를 사용할 수 없습니다.
DataScienceCluster
개체에서 ModelMesh 및 KServe를 모두 활성화하고 나중에 KServe를 제거하면 더 이상 ModelMesh를 사용하여 새 모델을 배포할 수 없습니다. 이전에 ModelMesh로 배포된 모델을 계속 사용할 수 있습니다.
오류 메시지의 예:
Error creating model serverInternal error occurred: failed calling webhook "inferenceservice.kserve-webhook-server.defaulter": failed to call webhook: Post "https://kserve-webhook-server-service.redhat-ods-applications.svc:443/mutate-serving-kserve-io-v1beta1-inferenceservice?timeout=10s": service "kserve-webhook-server-service" not found
Error creating model serverInternal error occurred: failed calling webhook "inferenceservice.kserve-webhook-server.defaulter": failed to call webhook: Post "https://kserve-webhook-server-service.redhat-ods-applications.svc:443/mutate-serving-kserve-io-v1beta1-inferenceservice?timeout=10s": service "kserve-webhook-server-service" not found
- 해결방법
다음 방법 중 하나로 이 문제를 해결할 수 있습니다.
- KServe를 다시 활성화합니다.
cluster-admin
권한이 있는 사용자로 다음 단계를 완료하여 KServe MutatingWebHook 구성을 삭제합니다.-
oc
클라이언트를 사용하여 클러스터에 로그인합니다. 다음 명령을 실행합니다.
oc delete mutatingwebhookconfigurations inferenceservice.serving.kserve.io
oc delete mutatingwebhookconfigurations inferenceservice.serving.kserve.io
Copy to Clipboard Copied! Toggle word wrap Toggle overflow
-
RHOAIENG-807 - 액셀러레이터 프로파일 허용 오차 제거
허용 오차가 포함된 액셀러레이터 프로필을 사용하는 워크벤치를 생성하면 톨러레이션 정보를 다시 시작하면 허용 오차 정보가 제거되므로 재시작을 완료할 수 없습니다. 새로 생성된 GPU 사용 워크벤치는 처음 시작할 수 있지만 생성된 Pod가 영구적으로 보류 중 상태로 유지되므로 나중에 다시 시작되지 않습니다.
RHOAIENG-804 - FIPS 지원 클러스터에 KServe와 함께 대규모 언어 모델을 배포할 수 없습니다
Red Hat OpenShift AI는 아직 FIPS용으로 완전하게 설계되지 않았습니다. FIPS 지원 클러스터에 KServe를 사용하여LLM(Large Language Models)을 배포할 수 없습니다.
RHOAIENG-545 - CryostatpyterLab 파이프라인 편집기에서 일반 기본 노드 런타임 이미지를 지정할 수 없습니다
sendpyterLab IDE 파이프라인 편집기에서 Elyra 파이프라인을 편집하고 PIPELINE PROPERTIES 탭을 클릭하고 일반 노드 기본값 섹션으로 스크롤하여 런타임 이미지 필드를 편집하면 변경 사항이 저장되지 않습니다.
- 해결방법
- 각 노드에 대해 명시적으로 필요한 런타임 이미지를 정의합니다. NODE PROPERTIES 탭을 클릭하고 Runtime Image 필드에 필요한 이미지를 지정합니다.
RHOAIENG-517 - 편집 권한이 있는 사용자는 생성된 모델을 볼 수 없습니다.
편집 권한이 있는 사용자는 프로젝트 소유자이거나 프로젝트에 대한 관리자 권한이 없는 한 생성된 모델을 볼 수 없습니다.
- 해결방법
- 프로젝트 소유자 또는 관리자 권한이 있는 사용자가 이후에 모델을 생성하는 경우 편집 권한이 있는 사용자는 모든 모델을 볼 수 있습니다.
RHOAIENG-499 - CLI를 사용하여 Red Hat OpenShift AI 자체 관리형 설치 제거
명령줄 인터페이스를 사용하여 Red Hat OpenShift AI를 설치 제거하는 경우 DataScienceCluster
CR, DSCInitialization
CR 및 Red Hat OpenShift AI Operator는 제거되지 않습니다.
- 해결방법
다음과 같이 나머지 OpenShift AI 리소스를 수동으로 삭제합니다.
-
DataScienceCluster
CR을 삭제합니다. -
redhat-ods-applications
네임스페이스에서 모든 포드가 삭제될 때까지 기다립니다. -
DataScienceCluster
CR에서 Serverless가Managed
로 설정된 경우knative-serving
네임스페이스에서 모든 Pod가 삭제될 때까지 기다립니다. -
DSCInitialization
CR을 삭제합니다. -
DSCInitialization
CR에서 Service Mesh가Managed
로 설정된 경우istio-system
네임스페이스에서 모든 Pod가 삭제될 때까지 기다립니다. - Red Hat OpenShift AI Operator를 설치 제거합니다.
-
모든 Pod가
redhat-ods-operator
네임스페이스 및redhat-ods-monitoring
네임스페이스에서 삭제될 때까지 기다립니다.
-
RHOAIENG-343 - OpenShift Service Mesh 및 OpenShift Serverless의 수동 구성이 KServe에서 작동하지 않음
OpenShift Serverless 및 OpenShift Service Mesh를 설치한 다음 KServe가 활성화된 Red Hat OpenShift AI를 설치하는 경우 KServe가 배포되지 않습니다.
- 해결방법
-
DSCInitialization
리소스 편집:serviceMesh
구성 요소의managementState
필드를Unmanaged
로 설정합니다. -
DataScienceCluster
리소스 편집:kserve
구성 요소에서제공
구성 요소의managementState
필드를Unmanaged
로 설정합니다. 자세한 내용은 KServe 설치를 참조하십시오.
-
RHOAIENG-339 - 2.5로 업그레이드 후 KServe 구성 요소 이미지가 업데이트되지 않음
이전에는 KServe 구성 요소가 제한된 가용성 기능이었습니다. kserve
구성 요소를 활성화하고 이전 버전에서 모델을 생성한 경우 Red Hat OpenShift AI 2.5로 업그레이드한 후 다음과 같이 일부 OpenShift AI 리소스를 업데이트해야 합니다.
OpenShift AI 2.5가 설치된 OpenShift 클러스터에 관리자로 로그인합니다.
oc login
$ oc login
Copy to Clipboard Copied! Toggle word wrap Toggle overflow 다음과 같이
DSCInitialization
리소스를 업데이트합니다.oc patch $(oc get dsci -A -oname) --type='json' -p='[{"op": "replace", "path": "/spec/serviceMesh/managementState", "value":"Unmanaged"}]'
$ oc patch $(oc get dsci -A -oname) --type='json' -p='[{"op": "replace", "path": "/spec/serviceMesh/managementState", "value":"Unmanaged"}]'
Copy to Clipboard Copied! Toggle word wrap Toggle overflow 다음과 같이
DataScienceCluster
리소스를 업데이트합니다.oc patch $(oc get dsc -A -oname) --type='json' -p='[{"op": "replace", "path": "/spec/components/kserve/serving/managementState", "value":"Unmanaged"}]'
$ oc patch $(oc get dsc -A -oname) --type='json' -p='[{"op": "replace", "path": "/spec/components/kserve/serving/managementState", "value":"Unmanaged"}]'
Copy to Clipboard Copied! Toggle word wrap Toggle overflow 다음과 같이
InferenceServices
CRD를 업데이트합니다.oc patch crd inferenceservices.serving.kserve.io --type=json -p='[{"op": "remove", "path": "/spec/conversion"}]'
$ oc patch crd inferenceservices.serving.kserve.io --type=json -p='[{"op": "remove", "path": "/spec/conversion"}]'
Copy to Clipboard Copied! Toggle word wrap Toggle overflow - 필요한 경우 Operator Pod를 다시 시작합니다.
RHOAIENG-307 - DataScienceCluster 제거 모든 OpenShift Serverless CR 삭제
DataScienceCluster
CR(사용자 정의 리소스)을 삭제하면 모든 OpenShift Serverless CR( knative-serving, 배포, 게이트웨이 및 Pod 포함)도 삭제됩니다. 경고 메시지가 표시되지 않습니다.
- 해결방법
- 없음.
RHOAIENG-293 - 2.4에서 2.5로 업그레이드한 후 더 이상 사용되지 않는 ModelMesh 모니터링 스택
Red Hat OpenShift AI 2.5에서는 이전 ModelMesh 모니터링 스택이 사용자 워크로드 모니터링으로 교체되기 때문에 더 이상 배포되지 않습니다. 그러나 OpenShift AI 2.5로 업그레이드하는 동안 이전 모니터링 스택은 삭제되지 않습니다. 일부 구성 요소는 계속 남아 있으며 클러스터 리소스를 사용합니다.
RHOAIENG-288 - 두 가지 버전의 작업벤치용 권장 이미지 버전 레이블이 표시됩니다.
OpenShift AI에서 사용할 수 있는 대부분의 워크벤치 이미지는 여러 버전으로 제공됩니다. 권장되는 유일한 버전은 최신 버전입니다. 현재 릴리스에서 Recommended 태그는 여러 버전의 이미지에 대해 잘못 표시됩니다.
RHOAIENG-162 - 다른 페이지로 이동한 후 프로젝트가 선택됨
데이터 사이언스 프로젝트 페이지에서 프로젝트를 선택하면 다른 페이지로 이동한 후에도 프로젝트가 선택된 상태로 유지됩니다. 예를 들어, 나중에 모델 Serving 페이지를 열면 모든 프로젝트의 모델이 아니라 이전에 선택한 프로젝트의 모델만 페이지에 나열됩니다.
- 해결방법
- 프로젝트 목록에서 모든 프로젝트를 선택합니다.
RHOAIENG-88 - Red Hat OpenShift AI 대시보드에 로그인할 수 없음
Red Hat OpenShift AI에 로그인하려고 하면 500 내부 오류
메시지가 표시됩니다.
- 해결방법
-
DataScienceCluster
개체에서대시보드
구성 요소를 비활성화하고 다시 활성화합니다.
RHOAIENG-84 - KServe에서 자체 서명된 인증서를 사용할 수 없습니다
단일 모델 제공 플랫폼은 자체 서명된 인증서를 지원하지 않습니다.
- 해결방법
- S3 스토리지에서 모델을 배포하려면 Red Hat 지식베이스 솔루션에 설명된 대로 SSL 인증을 비활성화합니다. KServe의 SSL 검증을 건너뛰는 방법
RHOAIENG-66 - CodeFlare SDK에서 배포한 dashboard route가 클러스터 인증서 대신 자체 서명된 인증서를 노출합니다.
openshift_oauth=True
옵션과 함께 CodeFlare SDK를 사용하여 Cryostat 클러스터를 배포할 때 Cryostat 클러스터의 결과 경로는 passthrough
방법을 사용하여 보호됩니다. 결과적으로 OAuth 프록시에서 사용하는 자체 서명된 인증서가 노출됩니다.
- 해결방법
다음 해결 방법 중 하나를 사용합니다.
-
openshift_oauth
옵션을False
로 설정합니다. - OAuth 프록시에서 사용하는 자체 서명 인증서를 클라이언트의 신뢰 저장소에 추가합니다.
- 클라이언트의 요구 사항에 따라 경로 구성 및 인증서를 사용하여 경로를 수동으로 생성합니다.
-
RHOAIENG-1204 (이전에는 ODH-DASHBOARD-1771) - Pipeline 초기화 중 JavaScript 오류
실행이 시작될 때 파이프라인 실행 세부 정보 페이지가 작동하지 않는 경우가 있습니다.
- 해결방법
- 페이지를 새로 고칩니다.
RHOAIENG-1203 (이전에는 ODH-DASHBOARD-1781) - 시작 실행 상태에 대한 Missing 툴팁
데이터 사이언스 파이프라인 실행에는 표시된 상태 아이콘의 툴팁 텍스트가 표시되지 않는 경우가 있습니다.
- 해결방법
- 자세한 내용은 파이프라인 실행 세부 정보 페이지를 보고 실행 출력을 참조하십시오.
RHOAIENG-1196 (이전에는 ODH-DASHBOARD-2140) - 대시보드에 표시된 패키지 버전이 설치된 버전과 일치하지 않습니다.
대시보드는 metapyterLab 및 Notebook과 같은 패키지에 대해 부정확한 버전 번호를 표시할 수 있습니다. 패키지가 수동으로 업데이트되는 경우 패키지 버전 번호는 이미지에서 다를 수 있습니다.
- 해결방법
패키지에 대한 true 버전 번호를 찾으려면 다음 예제와 같이
pip list
명령을 실행하고 패키지 이름을 검색합니다.pip list | grep jupyterlab pip list | grep notebook
$ pip list | grep jupyterlab jupyterlab 3.5.3 $ pip list | grep notebook notebook 6.5.3
Copy to Clipboard Copied! Toggle word wrap Toggle overflow
RHOAIENG-582 (이전에는 ODH-DASHBOARD-1335) - 기여자에 대한 편집 권한 이름 변경
편집 이라는 용어는 정확하지 않습니다.
- 대부분의 리소스의 경우 Edit 권한이 있는 사용자는 리소스를 편집하고 리소스를 생성할 수도 있습니다.
- 편집 권한이 있는 사용자는 프로젝트를 편집할 수 없습니다.
Contributor 라는 용어는 이 권한이 부여한 작업을 보다 정확하게 설명합니다.
- 해결방법
- 없음.
RHOAIENG-52 - 자체 서명된 인증서가 있는 클러스터에서 토큰 인증이 실패합니다.
자체 서명된 인증서를 사용하며 Python codeflare-sdk
를 파이프라인의 일부로 노트북 또는 Python 스크립트에서 사용하는 경우 토큰 인증이 실패합니다.
- 해결방법
- 없음.
RHODS-12986 - Red Hat OpenShift AI 2.22로 업그레이드한 후 잠재적인 조정 오류
Red Hat OpenShift AI 2.22로 업그레이드한 후 Red Hat OpenShift AI Operator Pod 로그 및 DataScienceCluster
CR(사용자 정의 리소스) 상태에 조정 오류가 표시될 수 있습니다.
예제 오류:
2023-11-23T09:45:37Z ERROR Reconciler error {"controller": "datasciencecluster", "controllerGroup": "datasciencecluster.opendatahub.io", "controllerKind": "DataScienceCluster", "DataScienceCluster": {"name":"default-dsc"}, "namespace": "", "name": "default-dsc", "reconcileID": "0c1a32ca-7ffd-4310-8259-f6baabf3c868", "error": "1 error occurred:\n\t* Deployment.apps \"rhods-prometheus-operator\" is invalid: spec.selector: Invalid value: v1.LabelSelector{MatchLabels:map[string]string{\"app.kubernetes.io/part-of\":\"model-mesh\", \"app.opendatahub.io/model-mesh\":\"true\", \"k8s-app\":\"rhods-prometheus-operator\"}, MatchExpressions:[]v1.LabelSelectorRequirement(nil)}: field is immutable\n\n"}
2023-11-23T09:45:37Z ERROR Reconciler error {"controller": "datasciencecluster", "controllerGroup": "datasciencecluster.opendatahub.io", "controllerKind": "DataScienceCluster", "DataScienceCluster": {"name":"default-dsc"}, "namespace": "", "name": "default-dsc", "reconcileID": "0c1a32ca-7ffd-4310-8259-f6baabf3c868", "error": "1 error occurred:\n\t* Deployment.apps \"rhods-prometheus-operator\" is invalid: spec.selector: Invalid value: v1.LabelSelector{MatchLabels:map[string]string{\"app.kubernetes.io/part-of\":\"model-mesh\", \"app.opendatahub.io/model-mesh\":\"true\", \"k8s-app\":\"rhods-prometheus-operator\"}, MatchExpressions:[]v1.LabelSelectorRequirement(nil)}: field is immutable\n\n"}
- 해결방법
- Red Hat OpenShift AI Operator Pod를 다시 시작합니다.
RHOAIENG-1199 (이전에는 ODH-DASHBOARD-1928 로 문서화되어 있음) - 사용자 정의 제공 런타임 생성 오류 메시지가 도움이 되지 않습니다.
사용자 지정 모델 제공 런타임을 생성하거나 편집하려고 하면 오류 메시지가 오류의 원인을 표시하지 않습니다.
오류 메시지 예: 상태 코드 422와 함께 요청 실패
- 해결방법
- 제공 런타임의 YAML 코드를 확인하여 오류 이유를 확인합니다.
ODH-DASHBOARD-1991 - ovms-gpu-ootb에 권장되는 액셀러레이터 주석이 없습니다.
프로젝트에 모델 서버를 추가하면 Serving 런타임 목록에 NVIDIA GPU의 권장 제공 런타임 레이블이 표시되지 않습니다.
- 해결방법
- model-server 템플릿의 사본을 만들고 레이블을 수동으로 추가합니다.
RHODS-12717 - OpenStack에서 Open Virtual Network를 사용하여 OpenShift에서 Pipeline 서버 생성이 실패할 수 있습니다.
OpenStack에서 Open Virtual Network를 사용하여 OpenShift에서 파이프라인 서버를 생성하려고 하면 파이프라인 서버가 실패하여
생성에 실패할 수 있습니다. OCPBUGS-22251 을 참조하십시오.
RHODS-12899 - NVIDIA GPU의 OpenVINO 런타임 누락 주석
Red Hat OpenShift AI에는 현재 NVIDIA GPU를 지원하는 기본 제공 런타임인 OpenVINO 모델 서버(지원 GPU) 가 포함되어 있습니다. OpenShift AI 2.4에 도입된 액셀러레이터 프로파일 기능을 사용하여 구성된 액셀러레이터 프로필을 기반으로 모델 제공에서 특정 액셀러레이터를 선택할 수 있습니다. 이전 OpenShift AI 릴리스에서 NVIDIA GPU가 활성화된 경우 이 시스템은 OpenShift AI 2.4로 업그레이드하는 동안 기본 NVIDIA 액셀러레이터 프로파일을 자동으로 생성합니다. 그러나 OpenVINO 모델 서버(지원 GPU) 런타임에는 NVIDIA GPU가 지원됨을 나타내기 위해 주석이 지정되지 않았습니다. 따라서 사용자가 OpenVINO 모델 서버(지원 GPU) 런타임을 선택하고 모델 서버 사용자 인터페이스에서 NVIDIA GPU 액셀러레이터를 선택하면 시스템은 선택한 액셀러레이터가 선택한 런타임과 호환되지 않는다는 경고를 표시합니다. 이 경우 경고를 무시할 수 있습니다.
RHOAIENG-642 (이전에는 RHODS-12903)로 문서화되어 있음 - Elyra 파이프라인을 성공적으로 제출하지 못했습니다.
개인 TLS 인증서를 사용하고 데이터 사이언스 파이프라인 서버에 대해 Elyra-generated 파이프라인 서버를 통해 Elyra 생성 파이프라인을 성공적으로 제출하면 파이프라인 단계가 실행되지 않으며 다음 오류 메시지가 표시됩니다.
- 해결방법
- 이 문제를 해결하려면 Red Hat 지원에 문의하십시오.
RHOAIENG-637 (이전에는 RHODS-12904)로 문서화되어 있음 - Elyra에서 제출한 Pipeline이 개인 인증서를 사용할 때 실패할 수 있습니다.
개인 TLS 인증서를 사용하고 Elyra에서 파이프라인을 제출하면 인증서 확인 실패
오류 메시지와 함께 파이프라인이 실패할 수 있습니다. 이 문제는 다음 상황 중 하나 또는 둘 다로 인해 발생할 수 있습니다.
- 파이프라인 서버에 사용되는 오브젝트 스토리지는 개인 TLS 인증서를 사용합니다.
- 데이터 사이언스 파이프라인 서버 API 끝점은 개인 TLS 인증서를 사용하고 있습니다.
- 해결방법
- 워크벤치에 올바른 CA(인증 기관) 번들을 제공하고 올바른 CA 번들이 인식되도록 다양한 환경 변수를 설정합니다. 이 문제를 해결하려면 Red Hat 지원에 문의하십시오.
RHODS-12906 - 개인 인증서를 사용하는 오브젝트 스토리지와 ModelMesh를 사용할 수 없습니다
개인 TLS 인증서를 사용하는 오브젝트 스토리지 공급자에 모델을 저장하면 pod가 오브젝트 스토리지에서 파일을 가져오지 못하고 알 수 없는 권한
오류 메시지가 표시되는 경우가 있습니다.
- 해결방법
- 보안에 올바른 CA 번들이 포함되도록 데이터 연결로 생성된 시크릿을 수동으로 업데이트합니다. 이 문제를 해결하려면 Red Hat 지원에 문의하십시오.
RHODS-12937 - 연결이 끊긴 환경에서 업그레이드한 후 이전에 배포된 모델 서버가 더 이상 작동하지 않을 수 있습니다.
연결이 끊긴 환경에서는 Red Hat OpenShift AI 2.22로 업그레이드한 후 이전에 배포된 모델 서버가 더 이상 작동하지 않을 수 있습니다. 모델 상태가 대시보드에서 OK
로 잘못 보고될 수 있습니다.
- 해결방법
inferenceservices
리소스를 업데이트하여storage
섹션을storageUri
섹션으로 바꿉니다. 다음 지침에서 < placeholders>를 사용자 환경의 값으로 바꿉니다.기존
유추 서비스
리소스에서storage
매개변수 섹션을 제거합니다."storage": "key": "<your_key>", "path": "<your_path>"
"storage": "key": "<your_key>", "path": "<your_path>"
Copy to Clipboard Copied! Toggle word wrap Toggle overflow 예제:
"storage": "key": "aws-connection-minio-connection", "path": "mnist-8.onnx"
"storage": "key": "aws-connection-minio-connection", "path": "mnist-8.onnx"
Copy to Clipboard Copied! Toggle word wrap Toggle overflow 다음 예와 같이 지정된 형식
s3://bucket-name/path/to/object
를 사용하여storageUri
섹션을inferenceservices
리소스에 추가합니다.예제:
storageUri: 's3://bucket/mnist-8.onnx'
storageUri: 's3://bucket/mnist-8.onnx'
Copy to Clipboard Copied! Toggle word wrap Toggle overflow 다음과 같이 시크릿 키 이름을 캡처합니다.
secret_key=$(oc get secret -n <project_name> | grep -i aws-connection | awk '{print $1}')
secret_key=$(oc get secret -n <project_name> | grep -i aws-connection | awk '{print $1}')
Copy to Clipboard Copied! Toggle word wrap Toggle overflow 다음과 같이 주석을 업데이트합니다.
oc annotate $(oc get inferenceservices -n <project_name> -o name) -n <project_name> serving.kserve.io/secretKey="$secret_key"
oc annotate $(oc get inferenceservices -n <project_name> -o name) -n <project_name> serving.kserve.io/secretKey="$secret_key"
Copy to Clipboard Copied! Toggle word wrap Toggle overflow
RHOAIENG-673 (이전에는 RHODS-12946로 문서화됨) - 연결이 끊긴 환경에서 PyPI 미러에서 설치하거나 개인 인증서를 사용할 때 설치할 수 없습니다.
연결이 끊긴 환경에서 Red Hat OpenShift AI는 공용 PyPI 리포지토리에 연결할 수 없으므로 네트워크 내부에 리포지토리를 지정해야 합니다. 개인 TLS 인증서를 사용하고 데이터 사이언스 파이프라인이 Python 패키지를 설치하도록 구성된 경우 파이프라인 실행이 실패합니다.
- 해결방법
- Red Hat Knowledgebase 솔루션 Install packages from PyPI Mirror에 설명된 대로 필요한 환경 변수와 인증서를 파이프라인에 추가합니다. 연결이 끊긴 설치의 데이터 사이언스 파이프라인에서 패키지 설치가 실패합니다.
RHOAIENG-12 - 일부 브라우저에서 Cryostat 대시보드에 액세스할 수 없습니다
일부 브라우저에서는 브라우저에서 대시보드 URL의 접두사를 http
에서 https
로 자동 변경하기 때문에 분산 워크로드 기능의 사용자가 ECDSA 대시보드에 액세스하지 못할 수 있습니다. 분산 워크로드 기능은 현재 Red Hat OpenShift AI에서 기술 프리뷰 기능으로 제공됩니다. 기술 프리뷰 기능을 참조하십시오.
- 해결방법
-
URL 접두사를
https
에서http
로 변경합니다.
RHOAIENG-1666 (이전에는 DATA-SCIENCE-PIPELINES-OPERATOR-349) - 가져오기 Pipeline 버튼에 조기에 액세스할 수 있습니다.
데이터 사이언스 프로젝트에 속하는 워크벤치로 파이프라인을 가져올 때 파이프라인 서버를 완전히 사용할 수 있기 전에 Pipeline 가져오기 버튼이 조기에 액세스할 수 있습니다.
- 해결방법
- 브라우저 페이지를 새로 고치고 파이프라인을 다시 가져옵니다.
RHOAIENG-5646 (이전에는 NOTEBOOKS-218로 문서화됨) - Elyra 파이프라인 편집기에서 저장된 데이터 사이언스 파이프라인은 호환되지 않는 런타임을 참조합니다.
OpenShift AI 버전 1.31 이상에서 .pipeline
형식으로 Elyra 파이프라인 편집기에 파이프라인을 저장하면 파이프라인은 OpenShift AI 버전 1.32 이상과 호환되지 않는 런타임을 참조합니다.
결과적으로 OpenShift AI를 버전 1.32 이상으로 업그레이드한 후 파이프라인을 실행하지 못합니다.
- 해결방법
- OpenShift AI를 버전 1.32 이상으로 업그레이드한 후 관련 런타임 이미지를 다시 선택합니다.
DATA-SCIENCE-PIPELINES-OPERATOR-362 - 알 수 없는 기관에서 서명한 오브젝트 스토리지를 사용하는 파이프라인 서버가 실패합니다.
알 수 없는 기관에서 서명한 오브젝트 스토리지를 사용하는 경우 데이터 사이언스 파이프라인 서버가 실패합니다. 따라서 현재 자체 서명된 인증서가 있는 오브젝트 스토리지를 사용할 수 없습니다. 이 문제는 연결이 끊긴 환경에서 관찰되었습니다.
- 해결방법
- Red Hat 지식베이스 솔루션 Data Science Pipelines에 설명된 대로 자체 서명된 인증서와 함께 오브젝트 스토리지를 사용하도록 시스템을 구성하십시오. 자체 서명된 인증서와의 연결 방법입니다.
RHOAIENG-548 (이전에는 ODH-DASHBOARD-1776로 문서화됨) - 사용자에게 프로젝트 관리자 권한이 없는 경우 오류 메시지
프로젝트에 대한 관리자 권한이 없는 경우 일부 기능에 액세스할 수 없으며 오류 메시지는 이유를 설명하지 않습니다. 예를 들어 단일 네임스페이스에만 액세스할 수 있는 환경에서 모델 서버를 생성하면 오류 생성 모델 서버 오류
메시지가 표시됩니다. 그러나 모델 서버는 여전히 성공적으로 생성됩니다.
RHOAIENG-1205 (이전에는 RHODS-11791)로 문서화되어 있음 - 업그레이드 후 사용 데이터 수집이 활성화됨
이전에 Allow collection of usage data
옵션 선택 취소(즉, 비활성화됨)가 있는 경우 OpenShift AI를 업그레이드할 때 이 옵션이 선택(즉, 활성화됨)됩니다.
- 해결방법
사용 데이터 수집 허용
옵션을 수동으로 재설정합니다. 이렇게 하려면 다음 작업을 수행합니다.OpenShift AI 대시보드의 왼쪽 메뉴에서 설정
클러스터 설정을 클릭합니다. 클러스터 설정 페이지가 열립니다.
-
사용 데이터 수집 섹션에서
사용 데이터 수집 허용 을
선택 해제합니다. - 변경 사항 저장을 클릭합니다.
DATA-SCIENCE-PIPELINES-OPERATOR-294 - 데이터 전달을 사용하는 스케줄링된 파이프라인 실행은 단계 간에 데이터를 전달하지 못하거나 단계가 완전히 실패할 수 있습니다.
S3 오브젝트 저장소를 사용하여 파이프라인 아티팩트를 저장하는 예약된 파이프라인 실행이 다음과 같은 오류와 함께 실패할 수 있습니다.
Bad value for --endpoint-url "cp": scheme is missing. Must be of the form http://<hostname>/ or https://<hostname>/
Bad value for --endpoint-url "cp": scheme is missing. Must be of the form http://<hostname>/ or https://<hostname>/
이 문제는 예약된 파이프라인 실행을 위해 S3 오브젝트 저장소 끝점이 Pod에 성공적으로 전달되지 않기 때문에 발생합니다.
- 해결방법
전달되는 파이프라인 아티팩트의 크기에 따라 사용자 지정 아티팩트 전달 스크립트를 적용한 다음 파이프라인 서버를 다시 시작하여 이 문제를 부분적으로 또는 완전히 해결할 수 있습니다. 특히 이 해결 방법으로 다음과 같은 동작이 발생합니다.
- 3KB보다 작은 파이프라인 아티팩트의 경우 이제 파이프라인 실행에서 아티팩트를 S3 오브젝트 저장소로 성공적으로 전달합니다.
- 3KB보다 큰 파이프라인 아티팩트의 경우 파이프라인 실행 은 여전히 아티팩트를 S3 오브젝트 저장소에 전달하지 않습니다. 그러나 해결 방법은 실행이 계속 완료되도록 합니다. 나머지 파이프라인 실행에서 작은 아티팩트가 성공적으로 저장됩니다.
이 해결 방법을 적용하려면 다음 작업을 수행합니다.
텍스트 편집기에서 다음 YAML 기반 아티팩트 전달 스크립트를 붙여넣습니다. 스크립트는
ConfigMap
오브젝트를 정의합니다.Copy to Clipboard Copied! Toggle word wrap Toggle overflow - 스크립트에서 < Endpoint >의 모든 항목을 S3 끝점(예: https://s3.amazonaws.com)으로 바꾸고 < Bucket > 발생을 S3 버킷 이름으로 바꿉니다. https://s3.amazonaws.com
-
ConfigMap
오브젝트에 대한 YAML 파일을 저장합니다. YAML 파일을 적용합니다.
oc apply -f <configmap_file_name>.yaml
$ oc apply -f <configmap_file_name>.yaml
Copy to Clipboard Copied! Toggle word wrap Toggle overflow 파이프라인 서버를 다시 시작합니다.
oc project <data_science_project_name> oc delete pod $(oc get pods -l app=ds-pipeline-pipelines-definition --no-headers | awk {print $1})
$ oc project <data_science_project_name> $ oc delete pod $(oc get pods -l app=ds-pipeline-pipelines-definition --no-headers | awk {print $1})
Copy to Clipboard Copied! Toggle word wrap Toggle overflow
RHODS-9764 - 워크벤치 편집 시 데이터 연결 세부 정보 재설정
기존 데이터 연결이 있는 워크벤치를 편집하고 새 데이터 연결 만들기 옵션을 선택하면 새 연결 세부 정보 지정을 완료하기 전에 편집 페이지가 기존 데이터 연결 사용 옵션으로 되돌아갈 수 있습니다.
- 해결방법
이 문제를 해결하려면 다음 작업을 수행합니다.
- 새 데이터 연결 만들기 옵션을 다시 선택합니다.
- 새 연결 세부 정보를 지정하고 페이지가 기존 데이터 연결 사용 옵션으로 돌아가기 전에 작업벤치 업데이트를 클릭합니다.
RHODS-9030 - kfdefs
리소스를 제거할 때 OpenShift AI의 설치 제거 프로세스가 중단될 수 있습니다.
OpenShift AI를 설치 제거하는 단계는 OpenShift AI 자체 관리 설치 제거에 설명되어 있습니다.
그러나 이 가이드를 따르는 경우에도 제거 프로세스가 성공적으로 완료되지 않을 수 있습니다. 대신 프로세스는 Kubeflow Operator에서 사용하는 kfdefs
리소스를 삭제하는 단계에 남아 있습니다. 다음 예에 표시된 대로 kfdefs
리소스는 redhat-ods-applications
,redhat-ods-monitoring
및 rhods-notebooks
네임스페이스에 존재할 수 있습니다.
kfdefs
리소스를 제거하지 못하면 나중에 OpenShift AI의 최신 버전을 설치하지 못할 수 있습니다.
- 해결방법
-
제거 프로세스를 완료할 수 있도록
kfdefs
리소스를 수동으로 삭제하려면 OCP에서 프로젝트 또는 네임스페이스를 삭제할 수 없습니다.
RHODS-8939 - 이전 릴리스에서 생성된 metapyter 노트북의 경우 기본 공유 메모리로 인해 런타임 오류가 발생할 수 있습니다.
1.31 이전 릴리스에서 생성된 sendpyter 노트북의 경우, sendpyter 노트북의 기본 공유 메모리는 64MB로 설정되어 있으며, 이 기본값을 64MB로 변경할 수 없습니다.
예를 들어 PyTorch는 공유 메모리에 사용하고 64MB의 기본 크기는 모델 학습 또는 데이터 조작 수행과 같은 대규모 사용 사례에는 충분하지 않습니다. sendpyter는 "장치에 남아 있는 공간이 없음" 메시지를 보고하고 /dev/smh
는 가득 차 있습니다.
릴리스 1.31부터 이 문제가 해결되어 새 노트북의 공유 메모리가 노드 크기로 설정됩니다.
- 해결방법
1.31 이전 릴리스에서 생성된 sendpyter 노트북의 경우, 해당 항목을 다시 생성하거나 다음 단계를 따르십시오.
- 데이터 과학 프로젝트에서 프로젝트 워크벤치 생성에 설명된 대로 워크벤치를 만듭니다.
- 데이터 사이언스 프로젝트 페이지의 Workbenches 섹션에서 워크벤치의 상태 토글을 클릭하여 실행 중에서 Stopped 로 변경합니다.
- OpenShift 콘솔을 열고 관리자 를 선택합니다.
-
홈
API Explorer 를 선택합니다. - Filter by kind 필드에 laptop를 입력합니다.
- kubeflow v1 노트북을 선택합니다.
- Instances 탭을 선택한 다음 1단계에서 만든 워크벤치의 인스턴스를 선택합니다.
-
YAML 탭을 클릭한 다음 작업
노트북 편집을 선택합니다. YAML 파일을 편집하여 구성에 다음 정보를 추가합니다.
Workbench 노트북 이름이 있는 컨테이너의 경우
volumeMounts
섹션에 다음 행을 추가합니다.- mountPath: /dev/shm name: shm
- mountPath: /dev/shm name: shm
Copy to Clipboard Copied! Toggle word wrap Toggle overflow 예를 들어 워크벤치 이름이
myworkbench
인 경우 다음과 같이 YAML 파일을 업데이트합니다.Copy to Clipboard Copied! Toggle word wrap Toggle overflow volumes 섹션에서 다음 예에 표시된 행을 추가합니다.
volumes: name: shm emptyDir: medium: Memory
volumes: name: shm emptyDir: medium: Memory
Copy to Clipboard Copied! Toggle word wrap Toggle overflow 참고: 필요한 경우
emptyDir
에 사용할 메모리 크기에 대한 제한을 지정할 수 있습니다.
- 저장을 클릭합니다.
- 데이터 사이언스 대시보드의 데이터 사이언스 프로젝트의 Workbenches 섹션에서 워크벤치의 상태 토글을 클릭합니다. 상태가 Stopped 에서 Starting 으로 이동한 다음 Running 으로 변경됩니다.
- 노트북을 다시 시작합니다.
나중에 Data Science 대시보드 UI를 통해 노트북 구성을 편집하면 노트북 구성에 대한 해결 방법 편집이 지워집니다.
RHOAIENG-583 (이전에는 RHODS-8921 및 RHODS-6373으로 문서화됨) - 누적 문자 제한을 초과하면 파이프라인 서버를 생성하거나 워크벤치를 시작할 수 없습니다.
데이터 사이언스 프로젝트 이름에 대한 누적 문자 제한과 파이프라인 서버 이름이 62자를 초과하면 파이프라인 서버를 성공적으로 생성할 수 없습니다. 마찬가지로 데이터 사이언스 프로젝트 이름과 워크벤치 이름의 누적 문자 제한이 62자를 초과하면 워크벤치를 시작할 수 없습니다.
- 해결방법
- 30자를 초과하지 않도록 데이터 과학 프로젝트의 이름을 바꿉니다.
RHODS-8865 - AWS(Amazon Web Services) Simple Storage Service(S3) 버킷 리소스를 지정하지 않으면 파이프라인 서버가 시작되지 않습니다.
데이터 사이언스 프로젝트에 대한 데이터 연결을 생성할 때 AWS_S3_BUCKET 필드는 필수 필드로 지정되지 않습니다. 그러나 이 필드에 값을 지정하지 않고 파이프라인 서버를 구성하려고 하면 파이프라인 서버가 성공적으로 시작되지 않습니다.
RHODS-6907 - PV(영구 볼륨) 크기를 늘리려고 하면 워크벤치에 연결되지 않은 경우 실패합니다.
워크벤치에 연결되지 않은 PV(영구 볼륨)의 크기를 늘리면 실패합니다. 데이터 사이언스 프로젝트의 스토리지를 변경할 때 사용자는 사용자 인터페이스에서 PV 크기를 계속 편집할 수 있지만 이 작업은 영향을 미치지 않습니다.
RHODS-6950 - 클러스터의 모든 GPU를 사용할 때 워크벤치의 GPU를 축소할 수 없음
클러스터의 모든 GPU를 사용하는 경우 워크벤치의 GPU를 축소할 수 없습니다. 이 문제는 한 워크벤치에서 사용하는 GPU와 여러 워크벤치에서 사용되는 GPU에 적용됩니다.
- 해결방법
이 문제를 해결하려면 다음 단계를 수행하십시오.
- GPU를 사용하는 모든 활성 워크벤치를 중지합니다.
- 관련 GPU를 다시 사용할 수 있을 때까지 기다립니다.
- 워크벤치를 편집하고 GPU 인스턴스를 축소합니다.
RHODS-6539 - Anaconda Professional Edition은 OpenShift AI에서 검증할 수 없으며 활성화할 수 없습니다.
Anaconda Professional Edition은 Anaconda Professional Edition에 대한 대시보드의 키 유효성 검사를 수행할 수 없으므로 활성화할 수 없습니다.
RHODS-6346 - 잘못된 문자를 사용하여 데이터 과학 프로젝트를 생성할 때 오류 메시지가 표시됩니다.
잘못된 특수 문자를 사용하여 데이터 사이언스 프로젝트의 데이터 연결, 워크벤치 또는 저장 연결을 생성할 때 다음 오류 메시지가 표시됩니다.
the object provided is unrecognized (must be of type Secret): couldn't get version/kind; json parse error: unexpected end of JSON input ({"apiVersion":"v1","kind":"Sec ...)
the object provided is unrecognized (must be of type Secret): couldn't get version/kind; json parse error: unexpected end of JSON input ({"apiVersion":"v1","kind":"Sec ...)
오류 메시지는 문제를 명확하게 표시하지 못합니다.
RHODS-6913 - 워크벤치의 구성 설정을 편집할 때 잘못된 오류 메시지가 표시됩니다.
워크벤치의 구성 설정을 편집하면 구성 설정을 변경하면 워크벤치가 다시 시작됩니다. 이 경고는 환경 변수의 값을 변경하는 경우와 같이 잘못된 경고입니다. 워크벤치가 자동으로 다시 시작되지 않습니다.
RHODS-6373 - cumulative 문자 제한을 초과하면 Workbench가 시작되지 않음
데이터 사이언스 프로젝트의 제목과 워크벤치 제목의 누적 문자 제한이 62자를 초과하면 워크벤치 시작이 실패합니다.
RHODS-6216 - ModelMesh oauth-proxy 컨테이너가 간헐적으로 불안정합니다.
ModelMesh oauth-proxy
컨테이너가 실패하는 경우 ModelMesh Pod가 올바르게 배포되지 않습니다. 이 문제는 간헐적으로 발생하며 ModelMesh 런타임 환경에서 인증이 활성화된 경우에만 발생합니다. 추가 ModelMesh 인스턴스가 다른 네임스페이스에 배포될 때 발생할 가능성이 더 높습니다.
RHODS-5906 - NVIDIA GPU Operator가 OpenShift 4.11.12와 호환되지 않음
OpenShift 4.11.12 클러스터에서 GPU 노드를 프로비저닝하면 nvidia-driver-daemonset
Pod가 CrashLoopBackOff 상태가 됩니다. NVIDIA GPU Operator는 OpenShift 4.11.9 및 4.11.13과 호환됩니다. 또한 OpenShift AI 설치에 필요한 최소 OpenShift 버전은 4.14입니다.
RHODS-5763 - 노트북 선택 시 표시되는 잘못된 패키지 버전
Start a laptop server (네임스트로 시작 서버 시작) 페이지에는 Anaconda 노트북 이미지에 대한 잘못된 버전 번호가 표시됩니다.
- 해결방법
- 없음.
RHODS-4769 - 지원되지 않는 테인트가 있는 노드의 GPU는 노트북 서버에 할당할 수 없습니다.
노트북 서버를 생성할 때 지원되는 nvidia.com/gpu 테인트 이외의 테인트가 아닌 테인트로 표시된 노드의 GPU는 선택할 수 없습니다. 이 문제를 방지하려면 OpenShift AI에 사용되는 GPU 노드에서 nvidia.com/gpu taint만 사용하십시오.
RHODS-4627 - Anaconda Professional Edition의 라이센스 유효성 검사를 담당하는 CronJob이 일시 중단되어 매일 실행되지 않습니다.
Anaconda Professional Edition의 라이센스 검증을 담당하는 CronJob은 OpenShift AI Operator에 의해 자동으로 일시 중단됩니다. 결과적으로 CronJob은 예약된 대로 매일 실행되지 않습니다. 또한 Anaconda Professional Edition의 라이센스가 만료되면 Anaconda Professional Edition이 OpenShift AI 대시보드에서 비활성화된 것으로 표시되지 않습니다.
- 해결방법
- 없음.
RHOAIENG-1135 (이전에는 RHODS-3985)로 문서화되어 있음 - ISV Operator를 제거한 후 대시보드는 활성화된 페이지 콘텐츠를 표시하지 않습니다.
ISV Operator를 제거한 후 대시보드의 활성화 페이지에 콘텐츠가 표시되지 않습니다. 대신 다음 오류가 표시됩니다.
Error loading components HTTP request failed
Error loading components
HTTP request failed
- 해결방법
- 30-40초 동안 기다린 다음 브라우저에서 페이지를 새로 고칩니다.