Transformer中的相对/绝对位置信息编码究竟怎么理解?

Transformer中的相对/绝对位置信息编码究竟怎么理解?
不清楚相对位置信息和绝对位置信息是如何表示的、在实际的任务中有什么利弊?

img

在deep learning model处理位置信息时有如下2种想法:

  • ① 想办法将位置信息融入到输入中,这构成了绝对位置编码的一般做法;
  • ② 想办法微调一下 Attention 结构,使得它有能力分辨不同位置的 Token,这构成了相对位置编码的一般做法。

可以参考如下资料中的形象解释: