首页
编程
java
php
前端
首页
编程
java
php
前端
为什么小批量梯度算法是更大批量要用更小的步长呢?
在小批量梯度下降算法里,我认为更大的批量得出的梯度是更可信的,我们可以用更大的步长去更新参数,可是在《动手学深度学习》这本书里为什么反而是更大的批量对应着更小的步长呢?
点击展开全文