Transformer中的相对/绝对位置信息编码究竟怎么理解？

Transformer中的相对/绝对位置信息编码究竟怎么理解？

不清楚相对位置信息和绝对位置信息是如何表示的、在实际的任务中有什么利弊？

在deep learning model处理位置信息时有如下2种想法：

① 想办法将位置信息融入到输入中，这构成了绝对位置编码的一般做法；
② 想办法微调一下 Attention 结构，使得它有能力分辨不同位置的 Token，这构成了相对位置编码的一般做法。

可以参考如下资料中的形象解释：

Transformer 的绝对位置编码和相对位置编码 Transformer 恰好属于对位置不敏感的结构，所以我们需要额外给 Transformer 带上每一个字所在的位置。本文介绍了绝对位置编码和相对位置编码两种方式。

https://www.qin.news/jue-dui-wei-zhi-bian-ma-he-xiang-dui-wei-zhi-bian-ma/