第 6 章 运行分布式工作负载
6.1. 使用 Ray 分发培训作业
在本教程的之前部分,您直接在笔记本中培训了 fraud 模型,然后在管道中直接进行了培训。在本节中,您将了解如何使用 Ray 来培训模型。Ray 是一个分布式计算框架,可用于在多个 CPU 或 GPU 之间并行化 Python 代码。
本节演示了如何使用 Ray 在多个 CPU 之间分发机器学习模型培训。虽然在简单模型中不需要分发培训,但将其应用到示例欺诈模式是了解如何将 Ray 用于更复杂的模型,这需要在多台机器间需要更多计算能力,如多个 GPU。
在笔记本环境中,打开 8_distributed_ training.ipynb
文件,并直接在笔记本中遵循说明。具体说明指导您设置身份验证,创建 Ray 集群以及使用作业。
另外,如果您想要查看本节的 Python 代码,您可以在 ray-scripts/train_tf_cpu.py
文件中找到它。

有关 Ray 的 TensorFlow 培训的更多信息,请参阅 Ray TensorFlow 指南。