机器学习梯度下降的公式理解,求正解。

学习ML的梯度下降部分时,对随机梯度下降的梯度推导不太清楚,见下图,为什么sigma符号能把后面的yi也包进去?h(x)不是只等于w和x的相乘再相加么,要是将yi也加进去,那不就是i自增一下,式子就得减一个yi了?实在是没看明白,请求指正。

img

对,这里的求和号不应该把 y^(i) 也包含进去,不过由于外面是对 w_j 进行微分,与 y^(i) 无关,所以实际上最终结果不受到影响