1.13. 데이터 사이언스 파이프라인 캐싱 개요


데이터 사이언스 파이프라인 내에서 캐싱을 사용하여 실행 시간을 최적화하고 리소스 효율성을 개선할 수 있습니다. 캐싱은 동일한 입력을 사용하여 이전 실행의 결과를 재사용하여 중복 작업 실행을 줄입니다.

캐싱은 중간 단계를 반복할 필요가 없을 수 있는 반복 작업에 특히 유용합니다. 캐싱을 이해하면 보다 효율적인 파이프라인을 설계하고 모델 개발 시간을 절약할 수 있습니다.

캐싱은 성공적으로 완료된 작업의 출력을 저장하고 이전에 캐시된 작업과 새 작업의 입력을 비교하여 작동합니다. 일치 항목이 발견되면 OpenShift AI가 작업을 다시 실행하는 대신 캐시된 결과를 재사용하여 계산 시간과 리소스 사용량을 줄입니다.

1.13.1. 캐싱 기준

캐싱을 적용하려면 다음 기준에 따라 작업에서 이전에 캐시된 결과를 사용할 수 있는지 결정합니다.

  • 입력 데이터 및 매개변수: 작업의 입력 데이터와 매개변수가 이전 실행에서 변경되지 않으면 캐시된 결과를 재사용할 수 있습니다.
  • 작업 코드 및 구성: 작업 코드 또는 구성에 대한 변경 사항을 캐시 무효화하여 수정이 항상 반영되도록 합니다.
  • 파이프라인 환경: 종속성 버전과 같은 파이프라인 환경의 변경 사항은 일관성을 유지하기 위한 캐싱 자격에도 영향을 미칩니다.

1.13.2. OpenShift AI 사용자 인터페이스에서 캐시된 단계 보기

파이프라인의 캐시된 단계는 UI(사용자 인터페이스)에 시각적으로 표시됩니다.

  • 캐시된 결과를 사용하는 작업에는 녹색 아이콘이 표시되어 캐시된 단계를 신속하게 확인할 수 있습니다. 측면 패널의 상태 필드에 캐시된 작업에 대한 캐시가 표시됩니다.
  • UI에는 작업이 이전에 실행된 시기에 대한 정보도 포함되어 있어 캐시 사용량을 쉽게 확인할 수 있습니다.

특정 작업의 캐싱 상태를 확인하려면 UI에서 파이프라인 세부 정보 보기로 이동합니다. 캐시 및 캐시되지 않은 작업이 명확하게 표시됩니다. 캐시된 작업은 이전에 생성된 출력을 재사용하고 다시 실행되지 않기 때문에 실행 로그를 표시하지 않습니다.

1.13.3. 데이터 사이언스 파이프라인에서 캐싱 제어

캐싱은 성능을 개선하기 위해 OpenShift AI에서 기본적으로 활성화됩니다. 그러나 특정 작업, 전체 파이프라인 또는 모든 파이프라인에 캐싱을 비활성화하는 인스턴스가 필요할 수 있습니다. 예를 들어 캐싱은 자주 업데이트되는 데이터 또는 고유한 컴퓨팅 요구 사항에 의존하는 작업에 적합하지 않을 수 있습니다. 디버깅, 개발 또는 결정적 재실행과 같은 다른 경우에는 모든 파이프라인에 대한 캐싱을 비활성화할 수 있습니다.

Important

파이프라인 또는 파이프라인 서버 수준에서 캐싱을 비활성화하면 모든 작업이 다시 실행되어 컴퓨팅 시간 및 리소스 사용량이 증가할 수 있습니다.

다음과 같은 방법으로 데이터 사이언스 파이프라인의 캐싱을 제어할 수 있습니다.

  • 개별 작업: 데이터 과학자는 파이프라인의 특정 단계에 대한 캐싱을 비활성화할 수 있습니다.
  • 파이프라인(제출 time): 데이터 과학자는 파이프라인 실행을 제출할 때 캐싱을 비활성화할 수 있습니다.
  • 파이프라인(compile time): 데이터 과학자는 파이프라인을 컴파일할 때 캐싱을 비활성화할 수 있습니다.
  • 모든 파이프라인(pipeline 서버): 파이프라인 서버의 모든 파이프라인에 대한 캐싱을 비활성화하여 모든 파이프라인 및 작업 수준 캐싱 설정을 덮어쓸 수 있습니다.

1.13.3.1. 개별 작업에 대한 캐싱 비활성화

특정 작업에 대한 캐싱을 비활성화하려면 파이프라인 코드의 작업에 set_caching_options 메서드를 직접 적용합니다.

task_name.set_caching_options(False)
Copy to Clipboard Toggle word wrap

이 설정을 적용한 후 OpenShift AI는 캐시된 결과를 무시하고 향후 파이프라인 실행에서 작업을 실행합니다.

set_caching_options 매개변수를 True 로 설정하거나 set_caching_options 를 생략하여 개별 작업에 대한 캐싱을 다시 활성화할 수 있습니다.

파이프라인 서버에서 캐싱이 비활성화된 경우 이 설정은 무시됩니다.

1.13.3.2. 제출 시 파이프라인의 캐싱 비활성화

파이프라인 제출 중에 전체 파이프라인의 캐싱을 비활성화하려면 파이프라인 코드에서 enable_caching 매개변수를 False 로 설정합니다. 이 설정을 사용하면 파이프라인 실행 중에 단계가 캐시되지 않습니다. enable_caching 매개변수는 kfp.client 를 사용하여 파이프라인을 제출하거나 run_pipeline 방법과 같은 파이프라인 실행을 시작하는 경우에만 사용할 수 있습니다.

예제:

import kfp
client = kfp.Client()
client.run_pipeline(
    experiment_id=experiment.id,
    pipeline_id=pipeline.id,
    job_name="no-cache-run",
    params={},                # optional
    enable_caching=False,
)
Copy to Clipboard Toggle word wrap

파이프라인 컴파일 중 또는 파이프라인 서버에서 캐싱이 비활성화된 경우 이 설정은 무시됩니다.

1.13.3.3. 컴파일 시 파이프라인의 캐싱 비활성화

컴파일 중에 전체 파이프라인에 대한 캐싱을 비활성화하려면 로컬 환경 또는 워크벤치에서 다음 옵션 중 하나를 설정합니다.

  • 환경 변수:

    export KFP_DISABLE_EXECUTION_CACHING_BY_DEFAULT=true
    Copy to Clipboard Toggle word wrap
  • CLI 플래그(K fp dsl compile 사용 시):

    kfp dsl compile --disable-execution-caching-by-default
    Copy to Clipboard Toggle word wrap

파이프라인 서버에서 캐싱이 비활성화된 경우 이러한 설정은 무시됩니다.

1.13.3.4. 모든 파이프라인(pipeline 서버)에 대한 캐싱 비활성화

파이프라인 서버의 모든 파이프라인에 대한 캐싱을 비활성화하고 모든 파이프라인 및 작업 수준 캐싱 설정을 재정의하려면 다음 방법 중 하나를 사용합니다.

파이프라인 서버 구성
  1. OpenShift AI 대시보드에서 데이터 사이언스 파이프라인 파이프라인을 클릭합니다.
  2. 파이프라인 페이지의 프로젝트 드롭다운 목록에서 구성하려는 파이프라인 서버가 포함된 프로젝트를 선택합니다.
  3. 파이프라인 서버 작업 목록에서 파이프라인 서버 구성 관리를 선택합니다.
  4. Pipeline 캐싱 섹션에서 파이프라인 및 작업별로 설정할 캐싱 허용 확인란을 지웁니다.
  5. 저장을 클릭합니다.
Data Science Pipelines Application (클러스터 관리자)

OpenShift 콘솔 또는 CLI에서 프로젝트의 MDSPA( DataSciencePipelinesApplication ) 사용자 정의 리소스에서 cacheEnabled 필드를 false 로 설정합니다.

예제:

apiVersion: datasciencepipelinesapplications.opendatahub.io/v1
kind: DataSciencePipelinesApplication
metadata:
  name: my-dspa
  namespace: my-namespace
spec:
  apiServer:
    cacheEnabled: false
Copy to Clipboard Toggle word wrap

파이프라인 및 작업 수준에서 캐싱을 구성할 수 있도록 하려면 DSPA 사용자 정의 리소스에서 cacheEnabled 필드를 true 로 설정합니다.

이 설정을 적용하면 모든 파이프라인 및 작업 수준 캐싱 설정이 무시됩니다.

참고

이 설정을 변경하면 파이프라인 서버 배포의 CACHEENABLED 환경 변수가 업데이트됩니다.

검증

캐싱 설정을 구성한 후 다음 방법 중 하나를 사용하여 해당 동작을 확인할 수 있습니다.

  • Check the UI: 작업 목록에서 녹색 아이콘을 찾아 캐시 된 단계를 식별합니다.
  • test task re-runs: 특정 작업 또는 파이프라인에서 캐싱을 비활성화하여 단계가 예상대로 다시 실행되는지 확인합니다.
  • 유효성 검사 입력: 캐싱을 적용할 때 작업 입력, 매개변수 및 런타임 설정이 변경되지 않았는지 확인합니다.
참고

Elyra를 사용하여 단일 노드의 캐싱 또는 sendpyterLab에서 전체 파이프라인에 대한 캐싱을 비활성화할 수도 있습니다. 자세한 내용은 Elyra에서 노드 캐싱 비활성화를 참조하십시오.

Red Hat logoGithubredditYoutubeTwitter

자세한 정보

평가판, 구매 및 판매

커뮤니티

Red Hat 문서 정보

Red Hat을 사용하는 고객은 신뢰할 수 있는 콘텐츠가 포함된 제품과 서비스를 통해 혁신하고 목표를 달성할 수 있습니다. 최신 업데이트를 확인하세요.

보다 포괄적 수용을 위한 오픈 소스 용어 교체

Red Hat은 코드, 문서, 웹 속성에서 문제가 있는 언어를 교체하기 위해 최선을 다하고 있습니다. 자세한 내용은 다음을 참조하세요.Red Hat 블로그.

Red Hat 소개

Red Hat은 기업이 핵심 데이터 센터에서 네트워크 에지에 이르기까지 플랫폼과 환경 전반에서 더 쉽게 작업할 수 있도록 강화된 솔루션을 제공합니다.

Theme

© 2026 Red Hat
맨 위로 이동