请问有什么比较好的方法可以进一步筛选相关文本(标签-transformer|关键词-embedding)

是这样的,我在使用transformer获取embedding后,使用该embedding计算给定的query与一些已有文本之间的相似度,使用的函数为cosine

但是实际上获取结果是在0.75~0.8这个socre下, 会出现相关的文本,但也会出现不相关的文本

请问有什么比较好的方法可以进一步筛选相关文本

我能想到的目前有两种办法,第一可以设置一个相似度阈值,只保留相似度高于该阈值的文本,第二transformer模型调整模型的参数,例如调整模型的层数、隐藏单元数来改善相似度计算的准确性。