1.问题描述:假如我现在构建一个网络模型,输入得shape=(batch_size,28,28,1),输出也是(batch_size_28,28,1),然后我让输入与输出作交叉熵损失。这个损失是batch_size种所有样本上得损失和还是所有样本得平均损失?
是batch上的平均损失而不是所有数据
https://www.jianshu.com/p/005d05e18c7d