python 爬虫问题,在源代码中显示的是中文,但是爬下来的是乱码一样的东西?

img


这个是源代码。

xpath1=r'//title/text()'
        resp=requests.get(url)
        text=resp.text
        html=etree.HTML(text)
        名字=html.xpath(xpath1)
        print(名字)




1
['15bc3133-f15a-4f99-87fa-dcfa1961d289PPT模板-']

奇怪的是,PPT模板是正常的,但是前面这一块成了乱码一样的东西。
猜想,是不是,一种编码方式,需要我进行解码,如果是这样,请说一下这种是怎么样的编码方式,如何解码,得出正确的标题。

目测title是js动态设置的,题主查看网页源代码,源代码模式显示的就是题主这串内容,requests只能得到源代码内容,不会解析js,所以要获取标题题主要找源代码中的其他节点

如果源码显示正常标题,那么就是requests请求缺少一些参数导致被反扒了。比如user-agent,Referer此类请求头要加上

text=resp.text改为text=resp.content.decode('utf-8')看能不能正常输出内容