客户需求中要求实现自身网站文章查重,超过50%相似度,审核不通过,请问查重这块该如何实现呢?

因为这涉及到效率问题,我总不能从数据库取得所有文章一个一个去比对吧

当然是去数据库里取文章一个一个比对。你要想有效率,那就不能用关系型数据库,得用非关系型数据库,结合大数据技术去比对。
否则你就算不考虑数据数量,给你两个文章字符串,你拿什么去比呢?

去买个大数据脚本,专门检测相似度的。这个东西不好搞哦。
模糊查询是比较方便的查询方式了,但是你这个需求刚刚相反。

存文章的时候把每篇文章的特征(根据你的需求)抽出来,单独存。
审核文章的时候先比对特征,特征匹配到一定的范围内再匹配相似度。