我感觉神经网络很好并行训练啊,计算梯度的时候。

比如最后的损失函数是整个批量的单个单个样本的代价函数之和,那么就是:
Loss = Loss1 + Loss2 + …… + Lossn
那么每个样本计算下自身参数的梯度,然后相加不就得到了参数的梯度?
然后再梯度下降不就行了。