Python spider在线编程网站

Python spider在线编程网站,类似于力扣在线编程的,在线编程写spider项目得网站有吗?

没有的

不知道你这个问题是否已经解决, 如果还没有解决的话:
  • 这篇博客: python爬虫基础中的 基于Spider的全站数据爬取 部分也许能够解决你的问题, 你可以仔细阅读以下内容或者直接跳转源博客中阅读:

    因为这一次我们不是只爬取一页的数据,而是会分页爬取;所以特别重要的一点是递归思想:yield scrapy.Request(url=new_url, callback=self.parse)通过不断调用parse函数,爬取不同页的数据

    meinv.py

    import scrapy
    
    
    class MeinvSpider(scrapy.Spider):
        name = 'meinv'
        # allowed_domains = ['www.xxx.com']
        start_urls = ['https://pic.netbian.com/4kmeinv/']
    
        # 生成一个通用的url模板(不可变)
        url = 'https://pic.netbian.com/4kmeinv/index_%d.html'
        page_num = 2
        def parse(self, response):
            li_list = response.xpath('//div[2]/div/div[3]/ul/li')
            for li in li_list:
                img_name = li.xpath('./a/b/text()').extract_first()
                print(img_name)
    
            print('------------------')
            if self.page_num <= 137:
                new_url = format(self.url % self.page_num)
                self.page_num += 1
                # 手动请求发送: callback回调函数是专门用作于数据解析
                yield scrapy.Request(url=new_url, callback=self.parse)
    
    

    settings.py

    USER_AGENT = 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.110 Safari/537.36 Edg/96.0.1054.62'
    
    # Obey robots.txt rules
    ROBOTSTXT_OBEY = False
    
    LOG_LEVEL = 'ERROR'
    


如果你已经解决了该问题, 非常希望你能够分享一下解决方案, 写成博客, 将相关链接放在评论区, 以帮助更多的人 ^-^