众所周知,scrapy是基于twisted的爬虫框架,scrapy控制器将spiders中的所有请求都yield到调度器的请求队列,所以整个项目的所有请求并非按照我们代码写的顺序去依次请求对应URL,但实际上,有很多网页的翻页是需要带上上一页的参数才能正常返回下一页的数据的,也就是说请求必须是按照一定的规则(页码顺序等)才能获得正确的响应数据。基于这个前提,请问scrapy框架如何应对呢?
添加cookie啊,referer啊,或者其他的东西在请求头里。
第一层请求是按顺序来的,
第二层就需要按需求添加那些东西