머리말
데이터 사이언스로서 Docker 컨테이너를 사용하여 데이터 사이언스 파이프라인으로 이식 가능한 머신러닝(ML) 워크플로를 빌드하여 OpenShift AI에서 데이터 사이언스 프로젝트를 개선할 수 있습니다. 이를 통해 머신러닝 워크플로를 표준화 및 자동화하여 데이터 사이언스 모델을 개발하고 배포할 수 있습니다.
예를 들어 머신러닝 워크플로의 단계에는 데이터 추출, 데이터 처리, 기능 추출, 모델 유효성 검사 및 모델 제공과 같은 항목이 포함될 수 있습니다. 이러한 활동을 자동화하면 조직이 새로 수신된 데이터를 기반으로 모델을 다시 작성하고 지속적으로 업데이트하는 프로세스를 개발할 수 있습니다. 이를 통해 통합된 머신러닝 배포 구축과 관련된 문제를 해결하고 프로덕션 환경에서 지속적으로 작동할 수 있습니다.
Elyra tellpyterLab 확장을 사용하여 sendpyterLab 내에서 데이터 사이언스 파이프라인을 생성하고 실행할 수도 있습니다. 자세한 내용은 ovn pyterLab의 파이프라인 작업을 참조하십시오.
OpenShift AI 버전 2.9에서 데이터 사이언스 파이프라인은 KubeFlow Pipelines(KFP) 버전 2.0 을 기반으로 합니다. 자세한 내용은 데이터 사이언스 파이프라인 2.0으로 마이그레이션 을 참조하십시오.
OpenShift AI에서 데이터 사이언스 파이프라인을 사용하려면 다음 구성 요소가 필요합니다.
- 파이프라인 서버: 데이터 사이언스 프로젝트에 연결되고 데이터 사이언스 파이프라인을 호스팅하는 서버입니다.
파이프라인: 파이프라인은 머신러닝 워크플로우의 구성과 워크플로우의 각 구성 요소 간 관계를 정의합니다.
- 파이프라인 코드: YAML 파일의 파이프라인 정의.
- 파이프라인 그래프: 파이프라인 실행에서 실행되는 단계와 이들 간의 관계에 대한 그래픽 그림입니다.
Pipeline experiment: 파이프라인의 다른 구성을 시도할 수 있는 작업 공간입니다. 실험을 사용하여 실행 실행을 논리 그룹으로 구성할 수 있습니다.
- 아카이브된 파이프라인 실험: 아카이브된 파이프라인 실험입니다.
- 파이프라인 아티팩트: 파이프라인 구성 요소에서 생성한 출력 아티팩트입니다.
- 파이프라인 실행: 파이프라인 실행에서 작업 실행.
Pipeline Run: 파이프라인 실행
- 활성 실행: 실행 중이거나 중지된 파이프라인 실행입니다.
- 예약된 실행: 한 번 이상 실행되도록 예약된 파이프라인 실행입니다.
- 아카이브된 실행: 아카이브된 파이프라인 실행.
이 기능은 Kubeflow Pipelines 2.0을 기반으로 합니다. 최신 Kubeflow Pipelines 2.0 SDK를 사용하여 Python 코드에서 데이터 사이언스 파이프라인을 빌드합니다. 파이프라인을 빌드한 후 SDK를 사용하여 IIR( Intermediate Representation) YAML 파일로 컴파일합니다. OpenShift AI 사용자 인터페이스를 사용하면 파이프라인, 실험 및 파이프라인 실행을 추적하고 관리할 수 있습니다. 이전에 실행, 예약 및 보관된 실행 기록을 보려면 데이터 사이언스 파이프라인
로컬 스토리지를 사용하지 않도록 파이프라인 아티팩트를 S3 호환 오브젝트 스토리지 버킷에 저장할 수 있습니다. 이렇게 하려면 먼저 스토리지 계정의 S3 버킷에 대한 쓰기 액세스 권한을 구성해야 합니다.