我这边想爬取大型的电商平台,遇到了几个问题
1,他们的数据是ajax的,还是动态加载的。使用scrapy我如何爬取这种动态数据?除了selenium和splash这两种还有其他的吗?
2,他们数据位置都是随机变动的,没有规律,我无法使用xpath或者css选择器来在每个网页进行定位,这个只能将网页数据保存下来然后解析吗?但是里面网页本身会有空的值,使用正则解析的数值不对。这个如何处理啊
3,如果只是针对他们的页面的信息,是否会涉及到js逆向的问题?
4,最后有个问题怎么来记录日志文件啊?比如说,我只想将报错信息存入到我的日志文件,方便来观察
1动态能不能直接用requests库的json?
2保存的话,用\s*能不能做到?或者re.S?
3我不大懂,我再查查
4用try的时候把报错信息提取出来写入文件可不可行?
电商平台的数据基本上都是ajax动态加载上去的,加密数据的话先用js解密,再用scrapy执行js文件,然后爬取json数据,在解析就可以得到数据了