学习爬虫时候遇到乱码问题。

在学习爬虫期间遇到的问题,爬下来的网页全是乱码,一开始还是可以的,估计次数多了被反爬了,请问这个情况该怎么办?
img

试试把encoding改成gbk,可能返回的是中文
顺便检查一下state_code看看是不是200
如果是session模拟登录的话也可能是token过期之类的问题
有帮助望采纳

  1. 编码问题
  2. 返回的数据是压缩过的
  3. 反爬返回了脏数据
    有地址可以帮你看看

用response.content.decode()输出试试
不可用 在把 headers里的accept encoding 中的gzip去掉

img
问题解决了,把headers里面只保留这三个就可以正常返回了,不知道原因是什么。

因为你 encoding 中有 gzip

所以返回来的是压缩过的数据