requests库返回的html文档和response.text不一致

我使用requests库请求返回的response.text保存为html文档后,可以搜到我想要的元素,但是我打断点,将response.text手工复制到html后,格式化文档后,却搜不到该元素及其它一些元素,就是说保存后的response.text和保存前的response.text不一致,请问是什么原因?

img

  • 你看下这篇博客吧, 应该有用👉 :通过requests包爬虫response.text中文乱码
  • 除此之外, 这篇博客: 爬虫(7)一文搞懂爬虫的网络请求,requests库的使用中的 response.text和response.content的区别: 部分也许能够解决你的问题, 你可以仔细阅读以下内容或跳转源博客中阅读:
  • 1.response.content:这个是直接从网络上抓取的数据,没有经过任何的编码.所以是一个bytes类型的,其实在硬盘上和在网络上传输的字符串都是bytes类型.
    2.response.text:这个数str的数据类型,是requests库将response.content进行编码的字符串,解码需要指定一个编码方式,requests会根据自己的猜测来判断解码的方式,所以有的时候会猜测错误,从而造成乱码,这时候应该用response.content.encode('utf-8').decode('utf-8')

    有的客官会讲:你这人怎么回事,讲了get请求不讲post请求,搞哪样

那只是你以为的
所谓打断点手工复制到底是怎么复制的,有截图吗