xpath1=r'//title/text()'
resp=requests.get(url)
text=resp.text
html=etree.HTML(text)
名字=html.xpath(xpath1)
print(名字)
1
['15bc3133-f15a-4f99-87fa-dcfa1961d289PPT模板-']
奇怪的是,PPT模板是正常的,但是前面这一块成了乱码一样的东西。
猜想,是不是,一种编码方式,需要我进行解码,如果是这样,请说一下这种是怎么样的编码方式,如何解码,得出正确的标题。
目测title是js动态设置的,题主查看网页源代码,源代码模式显示的就是题主这串内容,requests只能得到源代码内容,不会解析js,所以要获取标题题主要找源代码中的其他节点
如果源码显示正常标题,那么就是requests请求缺少一些参数导致被反扒了。比如user-agent,Referer此类请求头要加上
text=resp.text改为text=resp.content.decode('utf-8')看能不能正常输出内容