scrapy爬虫框架爬取数据就第一个标题链接的数据,无法找到原因
import scrapy
from fl.items import FlItem
class XsSpider(scrapy.Spider):
name = "xs"
allowed_domains = ["b.faloo.com"]
start_urls = ["https://b.faloo.com/html_1270_1270410/"]
def parse(self, response):
datas = response.xpath('/html/body/div[2]/div[3]/div[4]/div[3]')
for a in datas:
name = a.xpath('./a/span/text()').get()
link = a.xpath('./a/@href').get()
url = 'https:' + link
yield scrapy.Request(url=url, callback=self.parse_li, meta={'name': name})
def parse_li(self, response):
item = FlItem()
item['name'] = response.meta['name']
item['datas'] = response.xpath('//*[@id="center"]/div/div[5]/p//text()').getall()
yield item
从代码看,你的爬虫似乎只是爬取了起始页面上第一个标题链接的数据。这可能是因为在parse函数中只获取了第一个数据块,而没有对其他数据块进行处理。
你可以尝试使用循环迭代数据块,以便对每个数据块进行相同的处理。例如,以下是一个更新过的parse函数,它可以对每个数据块进行迭代处理:
def parse(self, response):
datas = response.xpath('/html/body/div[2]/div[3]/div[4]/div[3]')
for a in datas.xpath('.//a'):
name = a.xpath('./span/text()').get()
link = a.xpath('./@href').get()
url = 'https:' + link
yield scrapy.Request(url=url, callback=self.parse_li, meta={'name': name})
这里我将datas对象更改为数据块中的所有链接标签。然后,使用循环迭代每个链接标签,并提取name和link变量的值。最后,使用提取的link变量构造URL,以便发送到parse_li回调函数进行处理。
回答不易,望采纳!!!