Transformer-XL论文中绝对注意力计算公式

为什么在Transformer中是score计算是Q*KT,而在Transformer-XL中的score计算是QT*K。个人猜测是不是应为计算得到的只是一个权重参数,因此两种方式都可以?还是其他理由

不知道你这个问题是否已经解决, 如果还没有解决的话:

如果你已经解决了该问题, 非常希望你能够分享一下解决方案, 写成博客, 将相关链接放在评论区, 以帮助更多的人 ^-^