异步请求的地址404 not found但是response中又有内容,该如何获取response中的内容?

我准备抓取新闻网站中的新闻进行摘要,但是遇到了一些问题。
在我点击网站的新闻的时候并不是跳转到一个新的网页,而是在当前页面直接显示新的内容,即异步请求。请求的url地址如下。

img

但是问题在于,当我跳转到这个请求的地址时,并没有得到具体的内容,而是提示404 not found,如下,

img

然后我去观察控制台中的Response,发现点击这些新闻的时候返回的响应是一些js代码,如下

img

在这些js代码中绑定了新闻的内容。

我现在想问如果我直接去访问请求地址提示我404的话,该怎么办呢,例如我如何能获得具体的响应内容?即使是js代码

你直接读取不就行了

img

import requests
import re

url = 'https://newspaper-pc.suzhou-news.cn/e_papers/show_article_detail?article_id=11884490'

# 发送HTTP请求获取网页内容
response = requests.get(url)

# 检查响应状态码
if response.status_code == 200:
    # 获取Response的文本内容
    content = response.text

    # 使用正则表达式提取全部文本
    all_text = re.findall(r'>([^<]+)<', content)

    # 输出提取的全部文本
    for text in all_text:
        print(text)
else:
    print('无法访问网页')


用python可以获取

推荐几个爬虫网站 可以试试

  1. Scrapy:一个基于Python的强大的爬虫框架,可以帮助您快速搭建和部署爬虫,并提供了分布式爬取、数据清洗、数据导出等多种功能。官方网站:https://scrapy.org/
  2. Beautiful Soup:一个基于Python的HTML和XML解析库,可以帮助您从HTML和XML文档中提取数据。官方网站:https://www.crummy.com/software/BeautifulSoup/
  3. Selenium:一个基于Python的Web自动化测试工具,可以模拟用户在Web页面中的交互行为,支持多种浏览器和操作系统。官方网站:https://www.selenium.dev/
  4. PySpider:一个轻量级的Python爬虫框架,支持分布式爬取、多线程、多进程和异步IO等特性。官方网站:http://docs.pyspider.org/en/latest/
  5. Apify:一个基于云的爬虫平台,提供了爬虫构建、部署、管理和数据处理等多种功能,支持多种编程语言。官方网站:https://apify.com/