6.4.2. Monitoring AllocationClaims
流程
运行以下命令检查活跃的
AllocationClaim资源:$ oc get allocationclaims -n das-operator输出示例
NAME AGE 13950288-57df-4ab5-82bc-6138f646633e-harpatil000034jma-qh5fm-worker-f-57md9-cuda-vectoradd-0 5m ce997b60-a0b8-4ea4-9107-cf59b425d049-harpatil000034jma-qh5fm-worker-f-fl4wg-cuda-vectoradd-0 5m运行以下命令,查看有关特定
AllocationClaim的详细信息:$ oc get allocationclaims -n das-operator -o yaml输出示例(截断)
apiVersion: inference.redhat.com/v1alpha1 kind: AllocationClaim metadata: name: 13950288-57df-4ab5-82bc-6138f646633e-harpatil000034jma-qh5fm-worker-f-57md9-cuda-vectoradd-0 namespace: das-operator spec: gpuUUID: GPU-9003fd9c-1ad1-c935-d8cd-d1ae69ef17c0 migPlacement: size: 1 start: 0 nodename: harpatil000034jma-qh5fm-worker-f-57md9 podRef: kind: Pod name: cuda-vectoradd-f4b84b678-l2m69 namespace: default uid: 13950288-57df-4ab5-82bc-6138f646633e profile: 1g.5gb status: conditions: - lastTransitionTime: "2025-08-06T19:28:48Z" message: Allocation is inUse reason: inUse status: "True" type: State state: inUse运行以下命令,检查不同状态中的声明:
$ oc get allocationclaims -n das-operator -o jsonpath='{range .items[*]}{.metadata.name}{"\t"}{.status.state}{"\n"}{end}'输出示例
13950288-57df-4ab5-82bc-6138f646633e-harpatil000034jma-qh5fm-worker-f-57md9-cuda-vectoradd-0 inUse ce997b60-a0b8-4ea4-9107-cf59b425d049-harpatil000034jma-qh5fm-worker-f-fl4wg-cuda-vectoradd-0 inUse运行以下命令,查看与
AllocationClaim资源相关的事件:$ oc get events -n das-operator --field-selector involvedObject.kind=AllocationClaim运行以下命令,检查
NodeAccelerator资源以验证 GPU 硬件检测:$ oc get nodeaccelerator -n das-operator输出示例
NAME AGE harpatil000034jma-qh5fm-worker-f-57md9 96m harpatil000034jma-qh5fm-worker-f-fl4wg 96mNodeAccelerator资源代表 DAS Operator 检测到的 GPU 功能的节点。
其他信息
AllocationClaim 自定义资源跟踪以下信息:
- GPU UUID
- GPU 设备的唯一标识符。
- 分片位置
- GPU 上的 MIG 片段的位置。
- Pod 参考
- 请求 GPU 片段的 pod。
- 状态
-
当前的声明状态 (
staged,created, 或released)。
声明以 staged 状态开始,然后当所有请求都满足后会转变为 created。删除 pod 时,会自动清理关联的声明。