transformer中，全连接层中的w需要训练么？

就是说除了自注意力机制本身的WQ,WK,WV需要训练，全连接层中的w应该也是要训练的吧，还是说全部默认为1？

你说的全连接层的W指的是权重矩阵吧，肯定是要训练的。
神经网络训练的主要目的就是更新权重矩阵的参数