多机多卡分布式训练如何实现？ #62

447428054 · 2022-11-07T12:22:12Z

@Tongjilibo 您好，我看model里面有BaseModelDDP，想知道是如何使用来进行分布式训练呢，里面只有一个master_rank参数，多机多卡的进程数、地址那些在哪设置呢

Tongjilibo · 2022-11-07T14:37:38Z

您好，我之前写过一个单机多卡的DDP的示例，多机多卡我这边还没测试过，欢迎指教和补充~

zhouyiyuan-mt · 2023-08-30T07:03:45Z

您好，我之前写过一个单机多卡的DDP的示例，多机多卡我这边还没测试过，欢迎指教和补充~

在训练时，每个epoch需要设置sampler的随机种子，model.fit()里好像并没有考虑到。官方的torch.utils.data.DistributedSampler使用代码如下：

sampler = DistributedSampler(dataset) if is_distributed else None
loader = DataLoader(dataset, shuffle=(sampler is None), sampler=sampler)
for epoch in range(start_epoch, n_epochs):
....if is_distributed:
........sampler.set_epoch(epoch)
....train(loader)

Tongjilibo · 2023-08-30T07:14:40Z

好的，谢谢指导~，目前要实现的话，方式的确有点别扭，是需要在一个callback中on_epoch_begin中手动实现，我看看怎么自动实现比较好

Tongjilibo · 2023-08-30T15:37:41Z

@zhouyiyuan-mt 我在torch4keras中这里，也是就dataloader消耗完的时候重新设置（即steps_per_epoch=None时，一个epoch结束时候即为dataloader消耗完）

Tongjilibo added the todo list New feature or request label May 12, 2023

yFhope mentioned this issue May 23, 2023

其他example的单机多卡适配问题 #134

Closed

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

多机多卡分布式训练如何实现？ #62

多机多卡分布式训练如何实现？ #62

447428054 commented Nov 7, 2022

Tongjilibo commented Nov 7, 2022 •

edited

Loading

zhouyiyuan-mt commented Aug 30, 2023 •

edited

Loading

Tongjilibo commented Aug 30, 2023

Tongjilibo commented Aug 30, 2023 •

edited

Loading

多机多卡分布式训练如何实现？ #62

多机多卡分布式训练如何实现？ #62

Comments

447428054 commented Nov 7, 2022

Tongjilibo commented Nov 7, 2022 • edited Loading

zhouyiyuan-mt commented Aug 30, 2023 • edited Loading

Tongjilibo commented Aug 30, 2023

Tongjilibo commented Aug 30, 2023 • edited Loading

Tongjilibo commented Nov 7, 2022 •

edited

Loading

zhouyiyuan-mt commented Aug 30, 2023 •

edited

Loading

Tongjilibo commented Aug 30, 2023 •

edited

Loading