损失函数是把每组数据求和即可，还是说要求平均

李沐的《动手学深度学习》中有一个问题困扰我好久。就是在求损失函数的值时，有时候用sum求和，有时候用
mean求平均，这两个是否可以等价？但我看这两个得到的优化结果不同，求解答～

def train_epoch_ch3(net, train_iter, loss, updater):  #@save
    """训练模型一个迭代周期（定义见第3章）"""
    # 将模型设置为训练模式
    if isinstance(net, torch.nn.Module):
        net.train()
    # 训练损失总和、训练准确度总和、样本数
    metric = Accumulator(3)
    for X, y in train_iter:
        # 计算梯度并更新参数
        y_hat = net(X)
        l = loss(y_hat, y)
        if isinstance(updater, torch.optim.Optimizer):
            # 使用PyTorch内置的优化器和损失函数
            updater.zero_grad()
            l.mean().backward()##这里的mean，和下面的sum
            updater.step()
        else:
            # 使用定制的优化器和损失函数
            l.sum().backward()
            updater(X.shape[0])
        metric.add(float(l.sum()), accuracy(y_hat, y), y.numel())
    # 返回训练损失和训练精度
    return metric[0] / metric[2], metric[1] / metric[2]

麻烦大家看看这段代码的加粗的地方，来源：

3.6. softmax回归的从零开始实现 — 动手学深度学习 2.0.0-beta1 documentation

https://zh-v2.d2l.ai/chapter_linear-networks/softmax-regression-scratch.html

感谢大家！

您好，损失函数是对所有样本求和后的平均。
关于你对l.sum().backward()这行代码的疑问，书上2.5.2节是有解释的，我在这里复制给你：

当y不是标量时，向量y关于向量x的导数的最自然解释是一个矩阵。对于高阶和高维的y和x，求导的结果可以是一> 个高阶张量。
然而，虽然这些更奇特的对象确实出现在高级机器学习中(包括深度学习中)，但当我们调用向量的反向计算时，> > 我们通常会试图计算一批训练样本中每个组成部分的损失函数的导数。这里，我们的目的不是计算微分矩阵，而> 是单独计算批量中每个样本的偏导数之和。----来源《动手学深度学习》

然后注意后面的代码：

updater(X.shape[0])

这里相当于传入了batch_size，才是求平均