如果我输入的batchsize为1,tensor为一维,那么他计算注意力时是利用tensor里面的每一个数吗?但是假如我输入的是二维tensor,他计算注意力是利用二维tensor中每一行的tensor吗
如果你使用的是一个一维的tensor,那么在计算注意力时,注意力机制会对每个位置进行计算。如果你使用的是二维的tensor,那么注意力机制会对每行的数据进行计算。