爬取网页代码与浏览器不同,爬不到目标文本

爬取网页文本过程中,发现爬取的代码与浏览器看到的代码不同,只爬取了标题的部分,代码与图如下:

img

img

img

要怎么才能爬到完整的代码,并且里面的文本该怎么解析

爬虫少用开发人员管理器!因为这里的源代码是经过 JavaScript 处理过的,可能和爬虫得到的源代码不一样!
要想要以 js 处理过的页面为基础进行爬虫,就要用 Selenium 之类的动态爬虫了。

【以下回答由 GPT 生成】

首先,你遇到的问题可能是由于网页是动态生成的,导致爬取到的代码和浏览器中看到的代码不一致。你可以尝试使用模拟浏览器的方式来获取完整的网页代码。

以下是一种使用Python进行网页文本爬取的解决方案:

  1. 首先,你可以使用Python中的requests库发送GET请求获取网页的原始代码。示例代码如下:
import requests

url = 'http://example.com/page.html'
response = requests.get(url)
code = response.text
  1. 如果你仍然无法获取到完整的网页代码,可以尝试使用Selenium库来模拟浏览器。Selenium可以模拟用户在浏览器中的操作,并获取完整的动态生成的网页代码。首先,你需要安装Selenium库和对应的浏览器驱动,如Chrome驱动。示例代码如下:
from selenium import webdriver

url = 'http://example.com/page.html'
driver = webdriver.Chrome('/path/to/chromedriver')  # 需要替换为你的Chrome驱动路径
driver.get(url)
code = driver.page_source
driver.quit()
  1. 获取完整的网页代码后,你可以使用BeautifulSoup库来解析爬取到的代码,提取出你需要的文本内容。示例代码如下:
from bs4 import BeautifulSoup

# 使用requests库获取的代码
soup = BeautifulSoup(code, 'html.parser')

# 使用Selenium获取的代码
soup = BeautifulSoup(code, 'lxml')

# 提取文本内容
text = soup.get_text()

以上是一种解决问题的方案,希望可以帮到你。如果你有任何其他问题,请随时提问。



【相关推荐】



如果你已经解决了该问题, 非常希望你能够分享一下解决方案, 写成博客, 将相关链接放在评论区, 以帮助更多的人 ^-^