4.9. Descheduler
4.9.1. Descheduler 概述
调度程序(scheduler)被用来决定最适合托管新 pod 的节点,而 descheduler 可以用来驱除正在运行的 pod,从而使 pod 能够重新调度到更合适的节点上。
4.9.1.1. 关于 descheduler
您可以使用 descheduler 根据特定策略驱除 pod,以便可将 pod 重新调度到更合适的节点上。
descheduler 适合于在以下情况下 处理运行的 pod:
- 节点使用不足或过度使用。
- Pod 和节点关联性要求(如污点或标签)已更改,并且原始的调度不再适合于某些节点。
- 节点失败需要移动 pod。
- 集群中添加了新节点。
- Pod 重启的次数太多。
descheduler 不调度被驱除的 pod。调度被驱除 pod 的任务由调度程序(scheduler)执行。
当 descheduler 决定从节点驱除 pod 时,它会使用以下机制:
-
openshift-*
和kube-system
命名空间中的 Pod 不会被驱除。 -
priorityClassName
被设置为system-cluster-critical
或system-node-critical
的关键 pod 不会被驱除。 - 不属于复制控制器、副本集、部署或作业一部分的静态、镜像或独立 pod 不会被驱除,因为这些 pod 不会被重新创建。
- 与守护进程集关联的 pod 不会被驱除。
- 具有本地存储的 Pod 不会被驱除。
- BestEffort pod 会在 Burstable 和 Guaranteed pod 之前被驱除。
-
具有
descheduler.alpha.kubernetes.io/evict
注解的所有 pod 类型都可以被驱除。此注解用于覆盖防止驱除的检查,用户可以选择驱除哪些 pod。用户应该知道如何创建 pod 以及是否重新创建 pod。 - 对于受 Pod Disruption Budget (PDB) 限制的 pod,如果进行 deschedule 会违反 Pod disruption budget (PDB),则 pod 不会被驱除。通过使用驱除子资源来处理 PDB 来驱除 pod 。
4.9.1.2. Descheduler 配置集
以下 descheduler 配置集可用:
AffinityAndTaints
此配置集驱除违反了 pod 间的反关联性、节点关联性和节点污点的 pod。
它启用了以下策略:
-
RemovePodsViolatingInterPodAntiAffinity
:删除违反了 pod 间的反关联性的 pod。 -
RemovePodsViolatingNodeAffinity
:移除违反了节点关联性的 pod。 RemovePodsViolatingNodeTaints
:移除违反了节点上的NoSchedule
污点的 pod。移除具有节点关联性类型
requiredDuringSchedulingIgnoredDuringExecution
的 pod。
-
TopologyAndDuplicates
此配置集会驱除 pod 以努力在节点间平均分配类似的 pod 或相同拓扑域的 pod。
它启用了以下策略:
-
RemovePodsViolatingTopologySpreadConstraint
:找到未平衡的拓扑域,并在DoNotSchedule
约束被违反时尝试从较大的 pod 驱除 pod。 -
RemoveDuplicates
:确保只有一个 pod 与同一节点上运行的副本集、复制控制器、部署或作业相关联。如果存在多个重复的 pod,则这些重复的 pod 会被驱除以更好地在集群中的 pod 分布。
警告不要使用以下配置集启用
TopologyAndDuplicates
:SoftTopologyAndDuplicates
或CompactAndScale
。将这些配置集启用在一起会导致冲突。-
LifecycleAndUtilization
此配置集驱除长时间运行的 pod,并平衡节点之间的资源使用情况。
它启用了以下策略:
RemovePodsHavingTooManyRestarts
:删除容器重启了多次的 pod。在所有容器(包括初始容器)中被重启的总数超过 100 次的 Pod 。
LowNodeUtilization
:查找使用率不足的节点,并在可能的情况下从其他过度使用的节点中驱除 pod,以希望这些被驱除的 pod 可以在使用率低的节点上被重新创建。- 如果节点的用量低于 20%(CPU、内存和 pod 的数量),则该节点将被视为使用率不足。
- 如果节点的用量超过 50%(CPU、内存和 pod 的数量),则该节点将被视为过量使用。
另外,您可以通过将技术预览字段
devLowNodeUtilizationThresholds
设置为以下值来调整这些使用率使用率/过量使用阈值百分比:Low
为 10%/30%,Medium
为 20%/50%,或High
为 40%/70%。默认值为Medium
。PodLifeTime
:驱除太老的 pod。默认情况下,会删除超过 24 小时的 pod。您可以自定义 pod 生命周期值。
警告不要启用带有以下任意配置集的
LifecycleAndUtilization
:LongLifecycle
或CompactAndScale
。将这些配置集启用在一起会导致冲突。SoftTopologyAndDuplicates
这个配置集与
TopologyAndDuplicates
相同,不同之处在于具有软拓扑约束的 pod(如whenUnsatisfiable: ScheduleAnyway
)也被视为驱除。警告不要同时启用
SoftTopologyAndDuplicates
和TopologyAndDuplicates
。启用两者会导致冲突。EvictPodsWithLocalStorage
- 此配置集允许具有本地存储的 pod 有资格被驱除。
EvictPodsWithPVC
-
此配置集允许带有持久性卷声明的 pod 有资格驱除。如果使用
Kubernetes NFS Subdir External Provisioner
,您必须为安装置备程序的命名空间添加排除的命名空间。 CompactAndScale
此配置集启用了
HighNodeUtilization
策略,它尝试从使用率低的节点驱除 pod,以允许工作负载在较小的一组节点上运行。如果节点的用量低于 20%(CPU、内存和 pod 的数量),则该节点将被视为使用率不足。另外,您可以通过将技术预览字段
devHighNodeUtilizationThresholds
设置为以下值来调整使用率不足的百分比:Minimal
为 10%,Modest
为 20%,或Moderate
代表 30%。默认值为Modest
。警告不要启用
CompactAndScale
,包含以下配置集:LifecycleAndUtilization
,LongLifecycle
, 或TopologyAndDuplicates
。将这些配置集启用在一起会导致冲突。
LongLifecycle
此配置集在节点间平衡资源使用量并启用以下策略:
-
RemovePodsHavingTooManyRestarts
:删除其容器重启次数太多的 pod,以及其中所有容器(包括 Init 容器)重启的总数超过 100 的 pod。重启虚拟机客户端操作系统不会增加这个计数。 LowNodeUtilization
:在存在没有被充分利用的节点时,将 pod 从过度使用的节点上驱除。被驱除的 pod 的目标节点将由调度程序决定。- 如果节点的用量低于 20%(CPU、内存和 pod 的数量),则该节点将被视为使用率不足。
- 如果节点的用量超过 50%(CPU、内存和 pod 的数量),则该节点将被视为过量使用。
警告不要启用带有以下任意配置集的
LongLifecycle
:LifecycleAndUtilization
或CompactAndScale
。将这些配置集启用在一起会导致冲突。-
4.9.2. Kube Descheduler Operator 发行注记
Kube Descheduler Operator 允许您驱除 pod,以便可以在更合适的节点上重新调度 pod。
本发行注记介绍了 Kube Descheduler Operator 的开发。
如需更多信息,请参阅关于 descheduler。
4.9.2.1. Kube Descheduler Operator 5.1.1 发行注记
发布日期: 2024 年 12 月 2 日
以下公告可用于 Kube Descheduler Operator 5.1.1 :
4.9.2.1.1. 新功能及功能增强
- 此 Kube Descheduler Operator 发行版本将 Kubernetes 版本更新至 1.31。
4.9.2.1.2. 程序错误修复
- 此 Kube Descheduler Operator 发行版本解决了几个 CVE。
4.9.2.2. Kube Descheduler Operator 5.1.0 发行注记
发布日期:2024 年 10 月 23 日
以下公告可用于 Kube Descheduler Operator 5.1.0 :
4.9.2.2.1. 新功能及功能增强
现在提供了两个新的 descheduler 配置集:
-
CompactAndScale
:此配置集尝试从使用率低的节点驱除 pod,以允许工作负载在较小的一组节点上运行。 -
LongLifecycle
:此配置集在节点间平衡资源使用量,并启用RemovePodsHavingTooManyRestarts
和LowNodeUtilization
策略。
-
-
对于
CompactAndScale
配置集,您可以使用技术预览字段devHighNodeUtilizationThresholds
来调整使用率不足的阈值。
4.9.2.2.2. 程序错误修复
- 此 Kube Descheduler Operator 发行版本解决了几个 CVE。
4.9.3. 使用 descheduler 驱除 pod
您可以通过安装 Kube Descheduler Operator 并设置所需的配置集和其他自定义在 OpenShift Container Platform 中运行 descheduler。
4.9.3.1. 安装 descheduler
在默认情况下,不提供 descheduler。要启用 descheduler,您必须从 OperatorHub 安装 Kube Descheduler Operator,并启用一个或多个 descheduler 配置集。
默认情况下,descheduler 以预测模式运行,这意味着它只模拟 pod 驱除。您必须将 descheduler 的模式更改为自动进行 pod 驱除。
如果您在集群中启用了托管的 control plane,设置自定义优先级阈值,以降低托管 control plane 命名空间中的 pod 被驱除。将优先级阈值类名称设置为 hypershift-control-plane
,因为它有托管的 control plane 优先级类的最低优先级值(100000000
)。
先决条件
-
以具有
cluster-admin
角色的用户身份登录到 OpenShift Container Platform。 - 访问 OpenShift Container Platform Web 控制台。
流程
- 登陆到 OpenShift Container Platform Web 控制台。
为 Kube Descheduler Operator 创建所需的命名空间。
-
进行 Administration
Namespaces,点 Create Namespace。 -
在 Name 字段中输入
openshift-kube-descheduler-operator
,在 Labels 字段中输入openshift.io/cluster-monitoring=true
来启用 descheduler 指标,然后点击 Create。
-
进行 Administration
安装 Kube Descheduler Operator。
-
进入 Operators
OperatorHub。 - 在过滤框中输入 Kube Descheduler Operator。
- 选择 Kube Descheduler Operator 并点 Install。
- 在 Install Operator 页面中,选择 A specific namespace on the cluster。从下拉菜单中选择 openshift-kube-descheduler-operator 。
- 将 Update Channel 和 Approval Strategy 的值调整为所需的值。
- 点击 Install。
-
进入 Operators
创建 descheduler 实例。
-
在 Operators
Installed Operators 页面中,点 Kube Descheduler Operator。 - 选择 Kube Descheduler 标签页并点 Create KubeDescheduler。
根据需要编辑设置。
- 要驱除 pod 而不是模拟驱除,请将 Mode 字段更改为 Automatic。
-
在 Operators
4.9.3.2. 配置 descheduler 配置集
您可以配置 descheduler 使用哪些配置集来驱除 pod。
先决条件
-
以具有
cluster-admin
角色的用户身份登录到 OpenShift Container Platform。
流程
编辑
KubeDescheduler
对象:$ oc edit kubedeschedulers.operator.openshift.io cluster -n openshift-kube-descheduler-operator
在
spec.profiles
部分指定一个或多个配置集。apiVersion: operator.openshift.io/v1 kind: KubeDescheduler metadata: name: cluster namespace: openshift-kube-descheduler-operator spec: deschedulingIntervalSeconds: 3600 logLevel: Normal managementState: Managed operatorLogLevel: Normal mode: Predictive 1 profileCustomizations: namespaces: 2 excluded: - my-namespace podLifetime: 48h 3 thresholdPriorityClassName: my-priority-class-name 4 evictionLimits: total: 20 5 profiles: 6 - AffinityAndTaints - TopologyAndDuplicates - LifecycleAndUtilization - EvictPodsWithLocalStorage - EvictPodsWithPVC
- 1
- 可选:默认情况下,descheduler 不会驱除 pod。要驱除 pod,请将
mode
设置为Automatic
。 - 2
- 可选:设置用户创建命名空间列表,以便从 descheduler 操作中包含或排除。使用
exclude
设置要排除的命名空间列表,或者使用included
来设置要包含的命名空间列表。请注意,默认排除受保护的命名空间(openshift-*
、kube-system
、hypershift
)。 - 3
- 可选:为
LifecycleAndUtilization
配置集启用自定义 pod 生命周期值。有效单位是s
、m
或h
。默认 pod 生命周期为 24 小时。 - 4
- 可选:指定优先级阈值,仅在优先级低于指定级别时才会考虑 pod 进行驱除。使用
thresholdPriority
字段设置数字优先级阈值(如10000
)或者使用thresholdPriorityClassName
字段指定特定的优先级类名称(如my-priority-class-name
)。如果指定优先级类名称,则必须已存在它,否则 descheduler 会抛出错误。不要同时设置thresholdPriority
和thresholdPriorityClassName
。 - 5
- 可选:设置每次 descheduler 运行期间要驱除的最大 pod 数量。
- 6
- 添加一个或多个配置文件以启用。可用配置集:
AffinityAndTaints
,TopologyAndDuplicates
,LifecycleAndUtilization
,SoftTopologyAndDuplicates
,EvictPodsWithLocalStorage
,EvictPodsWithPVC
,CompactAndScale
, 和LongLifecycle
。确保您不启用相互冲突的配置集。
您可以启用多个配置集 ; 指定配置集的顺序并不重要。
- 保存文件以使改变生效。
4.9.3.3. 配置 descheduler 间隔
您可以配置 descheduler 运行之间的时间长度。默认为 3600 秒(一小时)。
先决条件
-
以具有
cluster-admin
角色的用户身份登录到 OpenShift Container Platform。
流程
编辑
KubeDescheduler
对象:$ oc edit kubedeschedulers.operator.openshift.io cluster -n openshift-kube-descheduler-operator
将
deschedulingIntervalSeconds
字段更新为所需的值:apiVersion: operator.openshift.io/v1 kind: KubeDescheduler metadata: name: cluster namespace: openshift-kube-descheduler-operator spec: deschedulingIntervalSeconds: 3600 1 ...
- 1
- 设置 descheduler 运行间隔的秒数。如果设为
0
,则 descheduler 会运行一次并退出。
- 保存文件以使改变生效。
4.9.4. 卸载 Kube Descheduler Operator
您可以通过卸载 Operator 并删除其相关资源,从 OpenShift Container Platform 中删除 Kube Descheduler Operator。
4.9.4.1. 卸载 descheduler
您可以通过删除 descheduler 实例并卸载 Kube Descheduler Operator 从集群中移除 descheduler。此流程还会清理 KubeDescheduler
CRD 和 openshift-kube-descheduler-operator
命名空间。
先决条件
-
以具有
cluster-admin
角色的用户身份登录到 OpenShift Container Platform。 - 访问 OpenShift Container Platform Web 控制台。
流程
- 登陆到 OpenShift Container Platform Web 控制台。
删除 descheduler 实例。
-
在 Operators
Installed Operators 页面中,点 Kube Descheduler Operator。 - 选择 Kube Descheduler 选项卡。
- 点 集群 条目旁的 Options 菜单 并选择 Delete KubeDescheduler。
- 在确认对话框中,点 Delete。
-
在 Operators
卸载 Kube Descheduler Operator。
-
导航到 Operators
Installed Operators。 - 点 Kube Descheduler Operator 条目 旁边的 Options 菜单,然后选择 Uninstall Operator。
- 在确认对话框中,点 Uninstall。
-
导航到 Operators
删除
openshift-kube-descheduler-operator
命名空间。-
导航至 Administration
Namespaces。 -
在过滤器框中输入
openshift-kube-descheduler-operator
。 - 点 openshift-kube-descheduler-operator 条目旁的 Options 菜单 ,然后选择 Delete Namespace。
-
在确认对话框中,输入
openshift-kube-descheduler-operator
并点 Delete。
-
导航至 Administration
删除
KubeDescheduler
CRD。-
进入 Administration
Custom Resource Definitions。 -
在过滤器框中输入
KubeDescheduler
。 - 点 KubeDescheduler 条目旁的 Options 菜单 ,然后选择 Delete CustomResourceDefinition。
- 在确认对话框中,点 Delete。
-
进入 Administration