小子最近新学爬虫,刚进门就遇到拦路虎。求各位大神解答一下。
问题如下:小子要想爬取纵横中文网里面一部小说内容,url=‘http://book.zongheng.com/showchapter/635570.html’
从源码分析来看,各个章节的链接数据就直接在网页源代码。但是用requests.get(url),反应回来的数据里确没有相关的链接,
直接导致我就没法进行下一步了。我这操作是哪里出了问题?
有章节链接呀,是不是你解析的方法不对呢
import requests
from lxml import etree
res = requests.get('http://book.zongheng.com/showchapter/635570.html').text
tree = etree.HTML(res)
lis = tree.xpath('//li[@class=" col-4"]')
for li in lis:
print(li.xpath('./a/@href'))
# Result:
# ['http://book.zongheng.com/chapter/635570/35301678.html']
# ['http://book.zongheng.com/chapter/635570/39121298.html']
# ['http://book.zongheng.com/chapter/635570/35301909.html']
# ...
您好,我是有问必答小助手,您的问题已经有小伙伴解答了,您看下是否解决,可以追评进行沟通哦~
如果有您比较满意的答案 / 帮您提供解决思路的答案,可以点击【采纳】按钮,给回答的小伙伴一些鼓励哦~~
ps:问答VIP仅需29元,即可享受5次/月 有问必答服务,了解详情>>>https://vip.csdn.net/askvip?utm_source=1146287632
requests.get(url)是获取这图中的代码
你要分析网页的链接是来自哪个请求,如果确定是来这个url,那么输出响应内容,可能是反爬了
如果对你有帮助,可以点击我这个回答右上方的【采纳】按钮,给我个采纳吗,谢谢
-
import requests
response = requests.get('http://book.zongheng.com/showchapter/635570.html')
with open('./book.html','w',encoding='utf-8') as f:
f.write(response.text)
f.close()