本人最近在尝试网页抓取,发现当当店铺的商品列表页面每次请求的结果都不相同。
举个例子:韩都衣舍 = http://shop.dangdang.com/4609/list.html。
多次请求这个地址会发现每次的商品页数可能不同,源码也不同。实际结果就是明明应该有几十页的内容,却只显示有几页。这是什么原因导致呢?因为我是通过页面内的下一页来抓取下一页内容,这样的话必然导致抓取不足,甚至有时候明明下一页是第三页,却显示了第一页的内容,望解答,谢谢。
PS:可能表达不清,如需细节再补充
自己用开发工具监视下请求头都有什么,你的webrequest对象都要加上这些请求头
查一下自己分页是否正确,如果分页没有问题看看后台查出来的数据是否和前台显示的相一致。一致的话就清缓存看看吧
是不是一堆js的代码啊,哈哈,应该是每次和后台的交互不止一次,js代码执行后台会再传数据。
经常遇到这种问题,你可以去看看goolge搜索后的代码,随便搜索一个词,然后看搜索后的源代码,就是一堆js,很不好爬虫。
没有什么好的解决方法,
1、条用js解析工具
2、弄清楚和服务器交互的实际情况,自己把所有的都模拟了