怎样防止非正常手段的数据爬取

对于网络爬虫,我们是既爱又恨。一方面爬虫可以带来客观的流量,另一方面又会占用服务器资源。因此在面对爬虫时,进行爬虫管理很有必要。那么我们该如何防止网站被爬虫呢

你可以了解下宝塔是怎么做的

1,)在运维层面,可以在nginx或其他web组件中限制ip访问频率。
2,)在nginx配置中,配置ip段访问限制,设置允许哪些ip段访问。
3,)通过编写shell脚本或者是部署监控组件,采集web组件日志或者是业务日志中的访问ip,根据访问频率判断ip是否为爬虫ip,如果判断ip为非正常访问ip,可以将ip拉黑,使其不能再访问此网站。
4,)在研发层面,对接口数据传输做加密。不使用明文传输。