python scrapy框架启动需要从终端窗口启动,操作不方便
所以想创建一个main.py自启动文件
import sys
import os
from scrapy.cmdline import execute
sys.path.append(os.path.dirname(os.path.abspath(__file__)))
execute(["scrapy", "crawl", "spider1"])
如何按顺序启动多个spider?
例如,spiders有2个,如何在执行了spider1后自动执行spider2
查看quotes.py文件
更改start_urls为’http://quotes.toscrape.com/’
Spider 是用户编写用于从单个网站(或者一些网站)爬取数据的类。
为了创建一个Spider,必须继承spider.Spider类,并且定义以下三个属性:
import sys
import os
from scrapy.cmdline import execute
sys.path.append(os.path.dirname(os.path.abspath(__file__)))
spiders = ["spider1", "spider2"]
for spider in spiders:
execute(["scrapy", "crawl", spider])
创建了一个名为spiders的列表,其中包含要按顺序执行的spider的名称。然后,使用循环遍历这个列表,在每次循环中执行execute(["scrapy", "crawl", spider])来启动相应的spider