每个batch其实后面都要求平均梯度再反向传播,所以感觉多GPU优势就是得到一个更小的学习率?
没错,本质是learning rate,且每个batch其实后面都要求平均梯度再反向传播,
多gpu时每个batch的data多了,这时,
每个batch的learning rate不变则每个data的learning rate变小,
每个data的learning rate不变则每个batch的learning rate变大,
最终就是允许更大的总learning rate。
不知道你这个问题是否已经解决, 如果还没有解决的话: