萌新刚刚开始接触爬虫,源网页是个小说网页,应该是没加反爬的机制的https://www.luoqiuzw.com/book/4841/74745706.html
测试了下,只爬单页的话完全没问题,问题点在于构建下一页地址和翻页条件都正确的情况下,无法执行翻页,有没有大佬帮忙看看是什么原因,下面就是主文件的代码
import scrapy
from luoqiu.items import LuoqiuItem
import re
class LuoqiuSpider(scrapy.Spider):
name = 'luoqiu'
allowed_domains = ['luoqiu.com']
start_urls = ['https://www.luoqiuzw.com/book/4841/74745706.html']
def parse(self, response):
item=LuoqiuItem()
item['title']=response.xpath('//*[@id="main"]/div/div/div[2]/h1/text()').extract_first() #获取标题
print(item['title'])#打印标题
item['zhengwen']=response.xpath('//*[@id="content"]/p[2]/text()').extract()#测试,只获取正文1行
print(item['zhengwen'])
next_url='https://www.luoqiuzw.com'+response.xpath('//*[@id="main"]/div/div/div[2]/div[1]/a[4]/@href').extract_first()#构建下一页
print(next_url) #https://www.luoqiuzw.com/book/4841/74745707.html
next_page=re.search(r'\d{8}',next_url).group() #提取下一页的页码7474707 str
print(next_page,type(next_page))#提取下一页的页码7474707 str
if int(next_page) <=74745720:#判断翻页,这边测试就翻几页
yield scrapy.Request (url=next_url ,callback=self.parse)
上面这个是执行结果
代码中的allow_domains有误,应该为:['louqiuzw.com']。原链接会出现连接丢失错误,与没有传递headers或网页响应慢有关。尝试测试其他网页,在start_urls列出测试网页地址列表。
class LuoqiuSpider(scrapy.Spider):
name = 'luoqiu'
allowed_domains = ['luoqiu.cc']
start_urls = [
f'https://www.luoqiu.cc/297/297526/{page}.html' for page in range(45813215, 45813220)]
rules = (
Rule(LinkExtractor(allow=r'297526/.*'),
callback='parse', follow=True),
)
def parse(self, response):
#code
你输出下一页的响应结果看看,应该下一页的响应结果出问题
已经执行到下一条了,但是响应的结果还是初始页面
您好,我是有问必答小助手,您的问题已经有小伙伴解答了,您看下是否解决,可以追评进行沟通哦~
如果有您比较满意的答案 / 帮您提供解决思路的答案,可以点击【采纳】按钮,给回答的小伙伴一些鼓励哦~~
ps:问答VIP仅需29元,即可享受5次/月 有问必答服务,了解详情>>>https://vip.csdn.net/askvip?utm_source=1146287632
非常感谢您使用有问必答服务,为了后续更快速的帮您解决问题,现诚邀您参与有问必答体验反馈。您的建议将会运用到我们的产品优化中,希望能得到您的支持与协助!
速戳参与调研>>>https://t.csdnimg.cn/Kf0y