梯度下降方法用到训练回归模型的时候也可以看作是一种回归系数的估计方法嘛,那有没有文章给出过对这种估计方法性质的一些证明呢,比如相合性(一致性)等等
不知道你这个问题是否已经解决, 如果还没有解决的话:此粗略避免了重新训练模型的高成本,但表现并没那么好。例如,验证集的目标不一定能达到之前的目标值,所以甚至不能保证终止。
是的,梯度下降可以看作是一种回归系数的估计方法。在训练回归模型时,梯度下降算法被广泛应用于优化模型的参数,以使模型的预测结果最优。
对于梯度下降算法的性质,许多文献已经对其进行了严格的证明。例如,对于线性回归模型,可以证明梯度下降算法可以得到与最小二乘法一致的结果。在深度学习中,也有很多文献对梯度下降算法的性质进行了深入研究,例如对梯度下降算法的收敛性、相合性(一致性)等进行了证明。
下面是一些相关的文献推荐:
Bottou, L. (2010). Large-scale machine learning with stochastic gradient descent. Proceedings of COMPSTAT'2010, 177-186.
Bottou, L., & Bousquet, O. (2008). The tradeoffs of large scale learning. Advances in neural information processing systems, 20, 161-168.
Shalev-Shwartz, S., & Ben-David, S. (2014). Understanding machine learning: From theory to algorithms. Cambridge University Press.
Zhang, T. (2004). Solving large scale linear prediction problems using stochastic gradient descent algorithms. ICML'04, 116, 928-936.
Reddi, S. J., Kale, S., & Kumar, S. (2016). On the convergence of adam and beyond. arXiv preprint arXiv:1904.09237.