2.3. 新的操作特性降低总拥有成本(TCO) FP8/INT8 内核和 skinny GEMMs 允许同一 GPU 每秒提供更多令牌。 AMD GPU 上的更大模型 ROCm 现在匹配 FP8 和 fused MoE 模型性能的 CUDA,使 AMD MI300X 成为第一类部署目标。 操作灵活性 LoRA hot swap 和 /server_info 端点允许持续集成和部署,以便在不重启 pod 的情况下对微调建模。 前一个下一个