Java实现关于文章相似度算法

新闻数据量大,数据实时在网上抓取,有时候一天几万条数据入库!这种大数据量的情况下如何实现计算每篇文章跟剩余文章的相似度?就是怎么去做的一篇文章跟他相似度很的文章?求大神指教下!

https://blog.csdn.net/caiandyong/article/details/44245647

simhash对短文本效率还可以,长文本的话就不行了

simhash算法了解一下