我使用requests库请求返回的response.text保存为html文档后,可以搜到我想要的元素,但是我打断点,将response.text手工复制到html后,格式化文档后,却搜不到该元素及其它一些元素,就是说保存后的response.text和保存前的response.text不一致,请问是什么原因?
1.response.content
:这个是直接从网络上抓取的数据,没有经过任何的编码.所以是一个bytes类型的,其实在硬盘上和在网络上传输的字符串都是bytes类型.
2.response.text
:这个数str的数据类型,是requests
库将response.content
进行编码的字符串,解码需要指定一个编码方式,requests
会根据自己的猜测来判断解码的方式,所以有的时候会猜测错误,从而造成乱码,这时候应该用response.content.encode('utf-8').decode('utf-8')
有的客官会讲:你这人怎么回事,讲了get
请求不讲post请求,搞哪样
那只是你以为的
所谓打断点手工复制到底是怎么复制的,有截图吗