我想问个问题,最近看了很多关于注意力机制方面的文章,有一个困扰了比较久的问题,就是自注意力机制到底属不属于软注意力机制。按照软硬注意力机制的分类标准,只要是能计算出权重并且根据反向传播完成权重更新的就叫软注意力机制,那这样来看自注意力机制应该属于软注意力机制。但是很多文章又把自注意力机制说成是独立于软硬注意力机制这个分类体系之外的一种注意力机制,就挺疑惑的,有没有人能解答一下。
不知道你这个问题是否已经解决, 如果还没有解决的话:多头的实际执行就是执行多次注意力机制(每次的参数是不同),每一次注意力机制都会生成一个对应的,这些
也是独立的互不干扰的,最后对每个头生成的注意力值
取平均则可得到这个三元组对应的注意力值。也就是权重。