1.现有transformer模型的编码器仅将6层编码器的最顶层结果输出给解码器;
2.问:可否将编码器6层的每一层结果都输出给解码器?
3.问:有没有人这样做呢?可不可以这样做?或者这种多对多的对应关系在别的什么算法或者模型中有类似的么?
https://blog.csdn.net/qq_41128383/article/details/105732111