我感觉神经网络很好并行训练啊，计算梯度的时候。

比如最后的损失函数是整个批量的单个单个样本的代价函数之和，那么就是：
Loss = Loss1 + Loss2 + …… + Lossn
那么每个样本计算下自身参数的梯度，然后相加不就得到了参数的梯度？
然后再梯度下降不就行了。