为什么我这个代码爬出来的内容是乱的,哪里错了吗,求神指导一下。
你requests 读取页面文件的编码不对 ,用 response.encoding='utf-8'或response.encoding='gbk'设置下读取页面文件用的编码, 再获取response.text即可
(response 是requests.get()返回的对象)
,比如
response=requests.get('http://www.xxxx.com')
response.encoding='utf-8'
#或response.encoding='gbk'
print(response.text)
或者也可以设置 response.encoding=response.apparent_encoding 自动从网页的内容中分析网页编码
编码问题?
这涉及到html页面编码,你的代码默认编码还有控制台输出编码,要都确定一下,才能输出正确的内容
首先确定下被爬取的网站编码,可以f12看一下,然后解析使用编码跟源站一直才行