训练的数据集十万个(很大)数据间有一定的相关性,如何设置和配置参数使得loss更小呢? 我最小只有4.几1e-5 如何调节参数使得loss 下降到2-3.几1e-5 或者更小
就是你的梯度下降问题呗,不看模型怎么知道如何调整你的learning rate等等。说下你现在用的什么方法梯度下降,Adam吗,error surface几维的,能不能用matlab画出来,算H矩阵了没,这都是问题。描述清楚一点吧