首先我爬取网站时,要进入多个网页爬取,用了一个循环自动进入下一页,但是每次最多进入到第三页就自动停止了。有时候一页停止了。
其次就是进入到了网页,里面的信息也没有爬完,一页最多就爬了三分之一的信息,然后切换到了第二页,不知道为什么啊
什么网站,分享出来呗!有的网站为了防止被爬,是做了一些反爬的措施的
这里面有两种情况,第一种是有些数据是js渲染的,异步加载数据,导致无法抓取,第二种是页面还没有渲染出来就开始抓取,所以导致有些加载慢的数据会抓取不到,可以配置一个浏览器内核进行模拟请求,这样就可以加载完整js数据,还有一种就是找到相应的数据请求进行分析,再模拟相应的请求直接获取返回的json数据进行读取