python网页 爬虫

找一个实际的Web页面,其中包含Ajax请求,并通过浏览器的开发者工具查看请求的URL。通过URL传递请求参数时url特征是什么?如何获得实际传递的参数和值?编写程序使用浏览器Selenium进行网页内容采集。

这个你随便找一个,比如就找csdn这个页面,你打开 f12,切换到network,就能看到请求

img

如图

  • 你可以看下这个问题的回答https://ask.csdn.net/questions/1096152
  • 你也可以参考下这篇文章:python获取淘宝客链接跳转后的url网址(使用selenium)
  • 除此之外, 这篇博客: 「Python爬虫系列讲解」九、用 Selenium 爬取在线百科知识中的 4.1.1 调用 Selenium 分析 URL 并搜索词条 部分也许能够解决你的问题, 你可以仔细阅读以下内容或跳转源博客中阅读:
  • 首先分析一下词条,输入“Python”、“Java”、“PHP”等之后发现,我们输入的字符在链接中是有体现的。

    Python 词条搜索链接:

    Java 词条搜索链接:

    PHP 词条搜索链接:

    虽然 “?” 之后的数值不一样,但可以大胆假设一下:如果删去后边所有字符,仅保留前半部分直至输入字符部分,当我们改变输入值时,是否也能像在词条框中输入那样,跳转到指定页面呢,答案是可以的,一样可以得到同样的结果。 

看我博客,手摸手教你

要找一个包含 Ajax 请求的实际网页,可以选择一些常见的动态网站,例如 Twitter、Facebook 或者 GitHub。这些网站通常会使用 Ajax 技术来实时加载数据和更新页面内容。
在浏览器的开发者工具中查看 Ajax 请求的 URL,可以按照以下步骤进行:

  1. 打开目标网页,并在浏览器中按下 F12 键,打开开发者工具。
  2. 导航到 "Network" 或 "网络" 选项卡。
  3. 在网页上进行一些交互操作,触发 Ajax 请求。例如,在 Twitter 上滚动时间线或点击加载更多按钮。
  4. 在开发者工具的网络选项卡中,你将看到所有网络请求的列表。在列表中找到与 Ajax 请求相关的请求,并点击它。
  5. 在右侧的 "Headers" 或 "请求头" 部分中,你可以找到请求的 URL。它通常是以 "https://" 或 "http://" 开头的字符串。
  6. 如果请求是通过 URL 传递参数的,你可以在 URL 中看到参数和值的特征。它们通常以 "?" 开头,参数和值使用 "&" 连接。
    例如,一个示例的 Ajax 请求 URL 可能如下所示:
    https://example.com/ajax/data?param1=value1&param2=value2
    
    要通过编写程序使用 Selenium 进行网页内容采集,可以按照以下步骤进行:
  7. 安装 Selenium 库:使用 pip 命令安装 Selenium 库,例如 pip install selenium
  8. 下载并配置浏览器驱动程序:根据你使用的浏览器选择相应的浏览器驱动程序,例如 Chrome 需要下载 ChromeDriver。将驱动程序放置在系统路径中,或者指定其路径给 Selenium。
  9. 导入 Selenium 库和其他必要的库:在 Python 中,导入 Selenium 库和其他需要使用的库。
  10. 创建浏览器对象:使用 Selenium 创建一个浏览器对象,例如 driver = webdriver.Chrome()
  11. 打开目标网页:使用浏览器对象的 get() 方法打开目标网页,例如 driver.get("https://example.com")
  12. 查找和提取网页元素:使用浏览器对象的各种方法(例如 find_element_by_xpath()find_element_by_css_selector() 等)查找和提取网页中的元素。
  13. 进行网页内容采集:根据需要使用 Selenium 提供的方法来采集网页内容,例如获取元素的文本、属性或执行点击等操作。
  14. 关闭浏览器:在完成网页内容采集后,使用 driver.quit() 关闭浏览器。
    通过按照上述步骤,你可以使用 Selenium 进行网页内容采集,并根据需要提取和处理所需的内容。