首页
编程
java
php
前端
首页
编程
java
php
前端
Transformer中的相对/绝对位置信息编码究竟怎么理解?
Transformer中的相对/绝对位置信息编码究竟怎么理解?
不清楚相对位置信息和绝对位置信息是如何表示的、在实际的任务中有什么利弊?
在deep learning model处理位置信息时有如下2种想法:
① 想办法将位置信息融入到输入中,这构成了绝对位置编码的一般做法;
② 想办法微调一下 Attention 结构,使得它有能力分辨不同位置的 Token,这构成了相对位置编码的一般做法。
可以参考如下资料中的形象解释:
Transformer 的绝对位置编码和相对位置编码
Transformer 恰好属于对位置不敏感的结构,所以我们需要额外给 Transformer 带上每一个字所在的位置。本文介绍了绝对位置编码和相对位置编码两种方式。
https://www.qin.news/jue-dui-wei-zhi-bian-ma-he-xiang-dui-wei-zhi-bian-ma/
点击展开全文