在线性回归中的小批量梯度下降求梯度时

对一个数据可以求得其梯度，
对一个批量的数据如何求梯度？
即pyTorch的示例代码中对y-hat累加用backward()函数求梯度的过程具体是怎么样的？
求解答

我只记得我那时自己编线性回归 y=ax+b 梯度下降的时候用的是

 def d_f(a, b, x, y):
    y_hat = a * x + b
    da = 1 / n * sum((y_hat - y) * x)
    db = 1 / n * sum(y_hat - y)
    return np.array([da, db])
# 类似这样，具体记不太清了
w_new = w - lr * d_f