我不明白为什么QANet中为什么要使用这个方法呢
def mask_logits(inputs, mask, mask_value = -1e30):
mask = tf.cast(mask, tf.float32)
return inputs * mask + mask_value * (1 - mask)
https://blog.csdn.net/qq_40406929/article/details/87636701
他这个mask在程序里没有执行,我觉得mask是selfattention屏蔽自身单词的目的