双向GRU的反向传播如何实现?他的输出是将而部分的隐层拼接,那么反向传播的时候是分开计算两个gru的反向传播还是什么?
GRU反向传播公式推导_考彭斯的博客-CSDN博客 1、正向传播计算图(红色部分不属于时间步t):公式:2、反向传播GRU反向传播的计算图(红色部分不属于时间步t):根据计算图,从上往下推导反向传播的公式。对于输出激活函数是softmax,损失函数是交叉熵的情况,常用的公式是: (1)我在RN... https://blog.csdn.net/weixin_52100611/article/details/119333215