6.4.2. Monitoring AllocationClaims


流程

  1. 运行以下命令检查活跃的 AllocationClaim 资源:

    $ oc get allocationclaims -n das-operator

    输出示例

    NAME                                                                                           AGE
    13950288-57df-4ab5-82bc-6138f646633e-harpatil000034jma-qh5fm-worker-f-57md9-cuda-vectoradd-0   5m
    ce997b60-a0b8-4ea4-9107-cf59b425d049-harpatil000034jma-qh5fm-worker-f-fl4wg-cuda-vectoradd-0   5m

  2. 运行以下命令,查看有关特定 AllocationClaim 的详细信息:

    $ oc get allocationclaims -n das-operator -o yaml

    输出示例(截断)

    apiVersion: inference.redhat.com/v1alpha1
    kind: AllocationClaim
    metadata:
      name: 13950288-57df-4ab5-82bc-6138f646633e-harpatil000034jma-qh5fm-worker-f-57md9-cuda-vectoradd-0
      namespace: das-operator
    spec:
      gpuUUID: GPU-9003fd9c-1ad1-c935-d8cd-d1ae69ef17c0
      migPlacement:
        size: 1
        start: 0
      nodename: harpatil000034jma-qh5fm-worker-f-57md9
      podRef:
        kind: Pod
        name: cuda-vectoradd-f4b84b678-l2m69
        namespace: default
        uid: 13950288-57df-4ab5-82bc-6138f646633e
      profile: 1g.5gb
    status:
      conditions:
      - lastTransitionTime: "2025-08-06T19:28:48Z"
        message: Allocation is inUse
        reason: inUse
        status: "True"
        type: State
      state: inUse

  3. 运行以下命令,检查不同状态中的声明:

    $ oc get allocationclaims -n das-operator -o jsonpath='{range .items[*]}{.metadata.name}{"\t"}{.status.state}{"\n"}{end}'

    输出示例

    13950288-57df-4ab5-82bc-6138f646633e-harpatil000034jma-qh5fm-worker-f-57md9-cuda-vectoradd-0	inUse
    ce997b60-a0b8-4ea4-9107-cf59b425d049-harpatil000034jma-qh5fm-worker-f-fl4wg-cuda-vectoradd-0	inUse

  4. 运行以下命令,查看与 AllocationClaim 资源相关的事件:

    $ oc get events -n das-operator --field-selector involvedObject.kind=AllocationClaim
  5. 运行以下命令,检查 NodeAccelerator 资源以验证 GPU 硬件检测:

    $ oc get nodeaccelerator -n das-operator

    输出示例

    NAME                                     AGE
    harpatil000034jma-qh5fm-worker-f-57md9   96m
    harpatil000034jma-qh5fm-worker-f-fl4wg   96m

    NodeAccelerator 资源代表 DAS Operator 检测到的 GPU 功能的节点。

其他信息

AllocationClaim 自定义资源跟踪以下信息:

GPU UUID
GPU 设备的唯一标识符。
分片位置
GPU 上的 MIG 片段的位置。
Pod 参考
请求 GPU 片段的 pod。
状态
当前的声明状态 (staged, created, 或 released)。

声明以 staged 状态开始,然后当所有请求都满足后会转变为 created。删除 pod 时,会自动清理关联的声明。

Red Hat logoGithubredditYoutubeTwitter

学习

尝试、购买和销售

社区

關於紅帽

我们提供强化的解决方案,使企业能够更轻松地跨平台和环境(从核心数据中心到网络边缘)工作。

让开源更具包容性

红帽致力于替换我们的代码、文档和 Web 属性中存在问题的语言。欲了解更多详情,请参阅红帽博客.

关于红帽文档

Legal Notice

Theme

© 2026 Red Hat
返回顶部