多GPU数据并行训练的加速原理到底是什么？

每个batch其实后面都要求平均梯度再反向传播，所以感觉多GPU优势就是得到一个更小的学习率？

没错，本质是learning rate，且每个batch其实后面都要求平均梯度再反向传播，

多gpu时每个batch的data多了，这时，

每个batch的learning rate不变则每个data的learning rate变小，

每个data的learning rate不变则每个batch的learning rate变大，

最终就是允许更大的总learning rate。

不知道你这个问题是否已经解决, 如果还没有解决的话:

如果你已经解决了该问题, 非常希望你能够分享一下解决方案, 以帮助更多的人 ^-^