有关梯度下降法的一个小疑问

为什么在算法中更新参数的时候学习率后面是乘以该参数在当前位置的偏导数值,而不是乘以梯度的方向余弦值,各参数延梯度的实际变化应该是乘以梯度的方向余弦,是为了方便计算吗?如下图

img

在算法中更新参数时,使用学习率乘以该参数在当前位置的偏导数值是因为这个偏导数值反映了当前位置的梯度大小和方向。梯度的方向余弦值只是梯度方向的一个标准化表示,因此在更新参数时,使用偏导数值更能反映当前位置的梯度信息。

此外,使用偏导数值也更方便计算,因为偏导数值可以通过求导得到,而计算梯度的方向余弦值需要进行一些额外的计算。因此,在实际应用中,使用偏导数值更为常见和方便。

不知道你这个问题是否已经解决, 如果还没有解决的话:

如果你已经解决了该问题, 非常希望你能够分享一下解决方案, 写成博客, 将相关链接放在评论区, 以帮助更多的人 ^-^