用python爬取小说章节时,出现非章节链接,该如何处理?
问题相关代码:
import requests
import parsel
import re
list_url='http://huayu.zongheng.com/showchapter/1222064.html'
response=requests.get(list_url)
#print(response.text)
selectors=parsel.Selector(response.text)
href=selectors.css('div div div div ul li a::attr(href)').getall()
print(href)
运行出现的问题:结果出现了非章节链接,不知道如何处理
我的解答思路和尝试过的方法 :我刚开始打算用for循环和re正则表达式进行排除,还是没找到对应的方法
我想要达到的结果:能够排除非章节链接
应该是css选择器里面的规则不够明确,可改成href = selectors.css('div.container div div div ul li a::attr(href)').getall() 或 href = selectors.css('div.volume-list > div > ul > li > a::attr(href)').getall()
import requests
import parsel
list_url = 'http://huayu.zongheng.com/showchapter/1222064.html'
response = requests.get(list_url)
print(response.text)
selectors = parsel.Selector(response.text)
# body > div.container > div:nth-child(2) > div.volume-list > div > ul > li:nth-child(1) > a
# href = selectors.css('div.container div div div ul li a::attr(href)').getall()
href = selectors.css('div.volume-list > div > ul > li > a::attr(href)').getall()
print(href)