python 用etree 解析html文件 出来 是一个地址 :
代码:
response = requests.get(Url, headers=Headers)
response.encoding = 'utf-8'
html = etree.HTML(response.text)
print(html)
print(type(html))
结果
0x1e797aa8cc0>
<class 'lxml.etree._Element'>
以下方法都试过无效
res = requests.get(url)
html = etree.HTML(res.content )
res = requests.get(url)
html_text = bytes(bytearray(res.text, encoding='utf-8'))
html = etree.HTML(html_text)
print response.text 是有内容的,网页也是 utf 8编码, etree 解析之后就返回一个元素地址,哪里出了问题?
没有问题,这是一个html对象,后续直接可以调用xpath方法定位元素就行
通过标签查找元素:html.xpath()
可以用这个查看内容:print(etree.tostring(html, encoding="utf-8").decode())