rule1规则是提取每个列表样式的页面链接,比如https://blog.csdn.net/ ,展示了很多文章标题,是一个列表页。
rule2规则是提取每个详情页的页面链接,比如https://blog.csdn.net/BEYONDMA/article/details/104210168?depth_1-utm_source=distribute.pc_feed.none-task&request_id=&utm_source=distribute.pc_feed.none-task, 包含文章正文、作者和发布时间等。
那么,在rule1提取到的每个列表页面下,还会继续执行rule2对详情页链接的提取吗。里面的逻辑是怎么样的?
需要看你的程序设计是怎么样的;
首先,Scrapy默认设置是16线程,即在你的start___urlts里同时运行16个,然后每个url顺序执行,遇到yield提交后进行下次循环。
简单来说,如果你的初始start_urls里__,是100个rule1, 然后每个rule1逻辑会启动rule2,则顺序是这样的:
1、启动16个rule1
2、第一个rule1执行时,会启动rul2
3、第二个rule1是并发启动,和第一个顺序没有关系;
4、第16个rule1也是并发启动,和第一个rule1没有关系;
rule2的启动时间,取决于前置rule1的启动及运行至yield的时间
判断response.url的特征,如果是列表页,左转
如果是详情页右转