多GPU数据并行训练的加速原理到底是什么?

每个batch其实后面都要求平均梯度再反向传播,所以感觉多GPU优势就是得到一个更小的学习率?

没错,本质是learning rate,且每个batch其实后面都要求平均梯度再反向传播,

多gpu时每个batch的data多了,这时,

每个batch的learning rate不变则每个data的learning rate变小,

每个data的learning rate不变则每个batch的learning rate变大,

最终就是允许更大的总learning rate。

不知道你这个问题是否已经解决, 如果还没有解决的话:

如果你已经解决了该问题, 非常希望你能够分享一下解决方案, 以帮助更多的人 ^-^