在学习爬虫期间遇到的问题,爬下来的网页全是乱码,一开始还是可以的,估计次数多了被反爬了,请问这个情况该怎么办?
试试把encoding改成gbk,可能返回的是中文
顺便检查一下state_code看看是不是200
如果是session模拟登录的话也可能是token过期之类的问题
有帮助望采纳
用response.content.decode()输出试试
不可用 在把 headers里的accept encoding 中的gzip去掉
问题解决了,把headers里面只保留这三个就可以正常返回了,不知道原因是什么。
因为你 encoding 中有 gzip
所以返回来的是压缩过的数据