1.13. 데이터 사이언스 파이프라인 캐싱 개요
데이터 사이언스 파이프라인 내에서 캐싱을 사용하여 실행 시간을 최적화하고 리소스 효율성을 개선할 수 있습니다. 캐싱은 동일한 입력을 사용하여 이전 실행의 결과를 재사용하여 중복 작업 실행을 줄입니다.
캐싱은 중간 단계를 반복할 필요가 없을 수 있는 반복 작업에 특히 유용합니다. 캐싱을 이해하면 보다 효율적인 파이프라인을 설계하고 모델 개발 시간을 절약할 수 있습니다.
캐싱은 성공적으로 완료된 작업의 출력을 저장하고 이전에 캐시된 작업과 새 작업의 입력을 비교하여 작동합니다. 일치 항목이 발견되면 OpenShift AI가 작업을 다시 실행하는 대신 캐시된 결과를 재사용하여 계산 시간과 리소스 사용량을 줄입니다.
1.13.1. 캐싱 기준 링크 복사링크가 클립보드에 복사되었습니다!
캐싱을 적용하려면 다음 기준에 따라 작업에서 이전에 캐시된 결과를 사용할 수 있는지 여부를 결정합니다.
- 입력 데이터 및 매개변수: 작업의 입력 데이터와 매개변수가 이전 실행에서 변경되지 않으면 캐시된 결과를 재사용할 수 있습니다.
- 작업 코드 및 구성: 작업 코드 또는 구성에 대한 변경 사항을 캐시 무효화하여 수정이 항상 반영되도록 합니다.
- 파이프라인 환경: 종속성 버전과 같은 파이프라인 환경의 변경 사항은 일관성을 유지하기 위한 캐싱 자격에도 영향을 미칩니다.
1.13.2. OpenShift AI 사용자 인터페이스에서 캐시된 단계 보기 링크 복사링크가 클립보드에 복사되었습니다!
파이프라인의 캐시된 단계는 UI(사용자 인터페이스)에 시각적으로 표시됩니다.
-
캐시된 결과를 사용하는 작업에는 녹색 아이콘이 표시되어 캐시된 단계를 신속하게 확인할 수 있습니다. 측면 패널의 상태 필드에 캐시된 작업에
대한
캐시가 표시됩니다. - UI에는 작업이 이전에 실행된 시기에 대한 정보도 포함되어 있어 캐시 사용량을 쉽게 확인할 수 있습니다.
특정 작업의 캐싱 상태를 확인하려면 모든 캐시된 작업과 캐시되지 않은 작업이 표시되는 UI의 파이프라인 세부 정보 보기로 이동합니다. 파이프라인 작업이 캐시되면 해당 실행 로그를 사용할 수 없습니다. 이는 작업이 이전에 생성된 출력을 사용하므로 다시 실행할 필요가 없기 때문입니다.
1.13.3. 특정 작업 또는 파이프라인에 대한 캐싱 비활성화 링크 복사링크가 클립보드에 복사되었습니다!
OpenShift AI에서는 기본적으로 캐싱이 활성화되지만 특정 작업에 대해 캐싱을 비활성화하거나 전체 파이프라인이 필요한 경우가 있습니다. 예를 들어 자주 업데이트되는 데이터 또는 고유한 컴퓨팅 요구 사항에 의존하는 작업은 캐싱의 이점을 얻지 못할 수 있습니다.
1.13.3.1. 개별 작업에 대한 캐싱 비활성화 링크 복사링크가 클립보드에 복사되었습니다!
특정 작업에 대한 캐싱을 비활성화하려면 파이프라인 코드의 작업에 set_caching_options
메서드를 직접 적용합니다.
task_name.set_caching_options(False)
이 설정을 적용한 후 OpenShift AI는 캐시된 결과를 무시하고 향후 모든 파이프라인 실행에서 작업을 실행합니다.
set_caching_options(True)
를 설정하여 개별 작업에 캐싱을 다시 활성화할 수 있습니다.
1.13.3.2. 파이프라인 캐싱 비활성화 링크 복사링크가 클립보드에 복사되었습니다!
필요한 경우 파이프라인 코드에서 enable_caching
매개변수를 False
로 설정하여 파이프라인 전송 중에 전체 파이프라인에 대한 캐싱을 비활성화할 수 있습니다. 이 설정을 사용하면 파이프라인 실행 중에 단계가 캐시되지 않습니다. enable_caching
매개변수는 kfp.client
를 사용하여 파이프라인을 제출하거나 run_pipeline
방법과 같은 파이프라인 실행을 시작하는 경우에만 사용할 수 있습니다.
예제:
pipeline_func(enable_caching=False)
파이프라인 수준에서 캐싱을 비활성화할 때 모든 작업이 다시 실행되어 컴퓨팅 시간과 리소스 사용량이 증가할 수 있습니다.
1.13.4. 확인 및 문제 해결 링크 복사링크가 클립보드에 복사되었습니다!
캐싱 설정을 구성한 후 다음 방법 중 하나를 사용하여 캐싱이 예상대로 작동하는지 확인할 수 있습니다.
- 확인 UI: 작업 목록의 녹색 아이콘으로 단계를 찾아 캐시된 단계를 확인합니다.
- 테스트 작업 다시 실행: 개별 작업 또는 파이프라인에서 캐싱을 비활성화하고 재실행을 확인하여 캐시 바이패스를 확인합니다.
- 검증 입력: 캐싱이 적용되는 경우 작업 입력, 매개변수 및 환경이 변경되지 않은 상태로 유지되도록 합니다.