5.2. 内存优化 如果模型太大以使用单个 GPU 运行,则会出现内存不足(OOM)错误。使用内存优化选项,如 quantization, tensor parallelism, 或减少精度来减少内存消耗。如需更多信息,请参阅保留内存。 前一个下一个