版本 :v2.6.0
调度策略
摘要
当前在一个拥有许多 GPU 节点的集群中,节点在做调度决策时没有进行 binpack 或 spread,使用 vGPU 时 GPU 卡也没有进行 binpack 、spread 或 topology-aware。
提案
我们在配置中添加 node-scheduler-policy 和 gpu-scheduler-policy,然后调度器可以使用此策略实现节点 binpack 或 spread 或 GPU binpack、spread 或 topology-aware。topology-aware 策略只在Nvidia GPU卡下生效。
用户可以设置 Pod 注释来更改此默认策略,使用 hami.io/node-scheduler-policy 和 hami.io/gpu-scheduler-policy 来覆盖调度器配置。
用户故事
这是一个 GPU 集群,拥有两个节点,以下故事以此集群为前提。
