想问问各位,有没有看到过将3D结构信息融入到transformer位置编码层的工作?
目前没有,如果说有人发现了,就是gpt在编造
可以看到加入注意力机制后,还可以提升模型的解释性,也就是说生成文本的时候能够关注到其对应的图像区域是否正确。