3d结构信息位置编码

想问问各位，有没有看到过将3D结构信息融入到transformer位置编码层的工作？

目前没有，如果说有人发现了，就是gpt在编造

不知道你这个问题是否已经解决, 如果还没有解决的话:

关于该问题，我找了一篇非常好的博客，你可以看看是否有帮助，链接：基于 Transformer 模型的电影评论情感分类
除此之外, 这篇博客: 神经网络到底在关注哪里？注意力机制与Transformer中的 3.加入注意力机制 部分也许能够解决你的问题, 你可以仔细阅读以下内容或者直接跳转源博客中阅读:
可以看到加入注意力机制后，还可以提升模型的解释性，也就是说生成文本的时候能够关注到其对应的图像区域是否正确。

如果你已经解决了该问题, 非常希望你能够分享一下解决方案, 写成博客, 将相关链接放在评论区, 以帮助更多的人 ^-^