我是否可以认为Transformer就是两个自注意力模型和一个注意力模型的结合
比如中文翻译英文,编码器阶段计算中文的自注意力
解码器阶段计算遮罩后的英文自注意力
最后用注意力模型接收二者的自注意力输出进行计算。
所以可不可以直接把中文数据和遮罩的英文数据输入注意力模型计算?
可以看一下我关于Transformer的讲解分析,还是很清晰的:【Transformer 练习】图分类任务(单步+整合code) https://blog.csdn.net/qq_44731019/article/details/128433689