在文本相似性检测中,如何确定相似的阈值?

在文本相似性检测中,如何确定相似的阈值?
在对文档进行simhash之后, 对汉明距离小于4的文档进行相似度计算,这里的阈值怎么确定呢?

根据经验设定,设置大了,容忍度提高,造成误判,设置小了,造成漏判,所以你应该反复尝试,看结果是否是最优的。