14장. 짧은 대기 시간 튜닝
14.1. 클러스터 노드에 대한 짧은 대기 시간 튜닝 이해
엣지 컴퓨팅은 대기 시간 및 혼잡 문제를 줄이고 통신 및 5G 네트워크 애플리케이션의 애플리케이션 성능을 개선하는 데 중요한 역할을 합니다. 5G의 네트워크 성능 요구 사항을 충족하기 위해서는 대기 시간이 가장 낮은 네트워크 아키텍처를 유지하는 것이 중요합니다. 4G 기술에 비해 평균 대기 시간은 50ms이고 5G는 1ms 이하의 대기 시간에 도달할 수 있습니다. 이렇게 대기 시간이 감소하면 무선 처리량이 10배 증가합니다.
14.1.1. 짧은 대기 시간 정보
Telco 공간에 배포된 많은 애플리케이션에서는 제로 패킷 손실이 가능한 짧은 대기 시간을 요구하고 있습니다. 제로 패킷 손실 튜닝은 네트워크 성능을 저하시키는 고유한 문제를 완화하는 데 도움이 됩니다. 자세한 내용은 RHOSP(Red Hat OpenStack Platform)에서 제로 패킷 손실 튜닝을 참조하십시오.
Edge 컴퓨팅 이니셔티브는 대기 시간을 줄이는 데에도 큰 역할을 합니다. 클라우드 엣지에 있고 사용자에게 더 가깝다고 생각하십시오. 이렇게 되면 멀리 있는 데이터 센터와 사용자 간 거리를 크게 줄여 애플리케이션 응답 시간과 성능 대기 시간이 단축됩니다.
관리자는 많은 엣지 사이트와 로컬 서비스를 중앙 집중식으로 관리하여 가능한 한 가장 낮은 관리 비용으로 모든 배포를 실행할 수 있어야 합니다. 또한, 실시간 짧은 대기 시간과 높은 성능을 실현할 수 있도록 클러스터의 특정 노드를 쉽게 배포하고 구성할 수 있어야 합니다. 대기 시간이 짧은 노드는 CNF(클라우드 네이티브 네트워크 기능) 및 DPDK(데이터 플레인 개발 키트)와 같은 애플리케이션에 유용합니다.
OpenShift Container Platform에서는 현재 실시간 실행과 짧은 대기 시간(약 20마이크로초 미만의 반응 시간)을 지원하기 위해 OpenShift Container Platform 클러스터의 소프트웨어를 튜닝하는 메커니즘을 제공합니다. 이 메커니즘에는 커널 및 OpenShift Container Platform 설정 값 튜닝, 커널 설치, 머신 재구성이 포함되어 있습니다. 하지만 이 방법을 사용하려면 4가지 Operator를 설정해야 하며 수동으로 수행할 경우 복잡하고 실수하기 쉬운 많은 구성을 수행해야 합니다.
OpenShift Container Platform은 Node Tuning Operator를 사용하여 OpenShift Container Platform 애플리케이션에 대해 짧은 대기 시간 성능을 실현할 수 있도록 자동 튜닝을 구현합니다. 클러스터 관리자는 이 성능 프로필 구성을 사용하여 보다 안정적인 방식으로 이러한 변경을 더욱 쉽게 수행할 수 있습니다. 관리자는 커널을 kernel-rt로 업데이트할지 여부를 지정하고, Pod 인프라 컨테이너를 포함하여 클러스터 및 운영 체제 하우스키핑 작업을 위해 CPU를 예약하고, 애플리케이션 컨테이너의 CPU를 분리하여 워크로드를 실행할 수 있습니다.
OpenShift Container Platform 4.14에서는 클러스터에 성능 프로필을 적용하면 클러스터의 모든 노드가 재부팅됩니다. 이 재부팅에는 성능 프로필의 대상이 아닌 컨트롤 플레인 노드 및 작업자 노드가 포함됩니다. 이 릴리스에서는 RHEL 9과 일치하는 Linux 제어 그룹 버전 2(cgroup v2)를 사용하므로 OpenShift Container Platform 4.14에서 알려진 문제입니다. 성능 프로파일과 관련된 짧은 대기 시간 튜닝 기능은 cgroup v2를 지원하지 않으므로 노드가 재부팅되어 cgroup v1 구성으로 다시 전환합니다.
클러스터의 모든 노드를 cgroups v2 구성으로 되돌리려면 Node
리소스를 편집해야 합니다. (OCPBUGS-16976)
Telco에서 PerformanceProfile
을 사용하여 짧은 대기 시간, 실시간 및 DPDK(Data Plane Development Kit) 워크로드를 사용하는 클러스터는 cgroup v2 지원 부족으로 인해 cgroups v1로 자동으로 되돌립니다. PerformanceProfile
을 사용하는 경우 cgroup v2를 활성화하는 것은 지원되지 않습니다.
OpenShift Container Platform은 다양한 산업 환경의 요구 사항을 충족하기 위해 PerformanceProfile
을 조정할 수 있는 Node Tuning Operator에 대한 워크로드 힌트도 지원합니다. 워크로드 힌트는 highPowerConsumption
(확장된 전력 소비 비용에서 낮은 대기 시간) 및 realTime
(하이선 대기 시간에 제공되는 우선 순위)에 사용할 수 있습니다. 이러한 힌트에 대한 true/false
설정의 조합을 사용하여 애플리케이션별 워크로드 프로필 및 요구 사항을 처리할 수 있습니다.
워크로드 힌트는 산업 부문 설정에 대한 성능의 미세 조정을 단순화합니다. "one size fits all" 접근 방식 대신 워크로드 힌트는 우선 순위 배치와 같은 사용 패턴을 제공할 수 있습니다.
- 짧은 대기 시간
- 실시간 기능
- 효율적인 전원 사용
이상적으로 이전에 나열된 모든 항목의 우선 순위가 지정됩니다. 그러나 이러한 항목 중 일부는 다른 항목의 비용이 부과됩니다. Node Tuning Operator는 이제 워크로드 기대치를 인식하고 워크로드의 요구 사항을 보다 효과적으로 충족할 수 있습니다. 이제 클러스터 관리자가 워크로드가 중단되는 사용 사례를 지정할 수 있습니다. Node Tuning Operator는 PerformanceProfile
을 사용하여 워크로드에 대한 성능 설정을 미세 조정합니다.
애플리케이션이 작동하는 환경에는 해당 동작에 영향을 미칩니다. 엄격한 대기 시간 요구 사항이 없는 일반적인 데이터 센터의 경우 일부 고성능 워크로드 Pod에 대해 CPU 파티셔닝을 활성화하는 최소 기본 튜닝만 필요합니다. 대기 시간이 더 높은 데이터 센터와 워크로드의 경우 전력 소비를 최적화하기 위해 여전히 조치를 취할 수 있습니다. 가장 복잡한 경우는 제조 장치 및 소프트웨어 정의 라디오와 같은 대기 시간에 민감한 장비에 가까운 클러스터입니다. 이러한 마지막 배포 클래스를 종종 Far edge라고 합니다. Far edge 배포의 경우 매우 낮은 대기 시간은 최고의 우선 순위이며 전원 관리를 통해 달성됩니다.
14.1.2. 짧은 대기 시간과 실시간 애플리케이션의 하이퍼 스레딩 정보
하이퍼 스레딩은 물리적 CPU 프로세서 코어가 두 개의 논리 코어로 작동하여 두 개의 독립 스레드를 동시에 실행할 수 있는 Intel 프로세서 기술입니다. 하이퍼 스레딩을 사용하면 병렬 처리가 도움이 되는 특정 워크로드 유형에 대해 시스템 처리량을 개선할 수 있습니다. 기본 OpenShift Container Platform 구성에서는 Hyper-Threading이 활성화되어야 합니다.
통신 애플리케이션의 경우 가능한 한 대기 시간을 최소화하도록 애플리케이션 인프라를 설계하는 것이 중요합니다. 하이퍼 스레딩은 성능 속도를 저하시킬 수 있으며 짧은 대기 시간이 필요한 컴퓨팅 집약적인 워크로드의 처리량에 부정적인 영향을 미칠 수 있습니다. 하이퍼 스레딩을 비활성화하면 예측 가능한 성능이 보장되고 이러한 워크로드의 처리 시간이 줄어들 수 있습니다.
OpenShift Container Platform을 실행하는 하드웨어에 따라 하이퍼 스레딩 구현 및 구성이 다릅니다. 해당 하드웨어와 관련된 Hyper-Threading 구현에 대한 자세한 내용은 관련 호스트 하드웨어 튜닝 정보를 참조하십시오. 하이퍼 스레딩을 비활성화하면 클러스터 코어당 비용이 증가할 수 있습니다.
추가 리소스