TRANSFORMER编码器和解码器的对应关系

1.现有transformer模型的编码器仅将6层编码器的最顶层结果输出给解码器;

2.问:可否将编码器6层的每一层结果都输出给解码器?

3.问:有没有人这样做呢?可不可以这样做?或者这种多对多的对应关系在别的什么算法或者模型中有类似的么?

https://blog.csdn.net/qq_41128383/article/details/105732111