想爬取一个网站的漫画 ,源代码里面链接都有,但是用request请求得到的结果 里面什么链接都没有,xhr没有东西,可能有js程序,但是没法找到程序里面的有用的信息怎么办
不知道你这个问题是否已经解决, 如果还没有解决的话:我会尝试以下几种方式来解决该问题:
Selenium可以模拟用户在浏览器中的操作,并可以获取JavaScript异步加载的内容。具体步骤:
1)安装Selenium库:
pip install selenium
2)下载相应的驱动程序,例如Chrome浏览器的驱动程序
3)编写代码,打开网页,模拟操作,获取漫画链接
PhantomJS是一个无界面的浏览器,可以执行JavaScript并获取异步加载的内容。具体步骤:
1)安装PhantomJS库:
pip install phantomjs
2)编写代码,打开网页,获取漫画链接
Chrome也提供了headless模式,可以在无界面的情况下运行JavaScript并获取异步加载的内容。具体步骤:
1)安装Chrome浏览器及对应版本的ChromeDriver
2)编写代码,打开网页,获取漫画链接
示例代码:
from selenium import webdriver
# 使用Chrome
browser = webdriver.Chrome('path/to/chromedriver')
# 打开网页
browser.get('http://example.com')
# 模拟操作,点击按钮,加载异步内容
button = browser.find_element_by_id('button')
button.click()
# 等待异步内容加载完成
browser.implicitly_wait(10)
# 获取漫画链接
links = browser.find_elements_by_xpath('//a[@class="comic-link"]')
for link in links:
print(link.get_attribute('href'))