就是说除了自注意力机制本身的WQ,WK,WV需要训练,全连接层中的w应该也是要训练的吧,还是说全部默认为1?
你说的全连接层的W指的是权重矩阵吧,肯定是要训练的。神经网络训练的主要目的就是更新权重矩阵的参数