我需要从网页上爬取相关理财产品收益率信息,但浦发网页应该进行过反爬虫处理,爬取时会提示“远程主机已切断连接”请问这类网页应该怎么爬取?最好附上详细代码进行讲解,谢谢.
你得知道对方靠什么措施反爬的,如果是靠ip地址,那么你可以用代理ip池换ip访问
如果是特征行为判断,比如频繁访问,cookie/session/user-agent,你相应模拟或者规避。
首先,这种限制爬虫的网站,如果强行爬取的话可能会牵扯到违法行为,尤其是用作商业盈利。如果只是自己练习一下应该为题不大。
其次,如果想爬取已经限制的网站,1、你就要去了解他采用的反爬虫机制,根据他采用的技术漏洞去获取你想要的数据。2还有一点就是深入了解一下,对应网站有没提供
专门让爬取的端口,若果有就方便多来,如果没有就只能1的方法了。