xpath属性值提取

在使用xpath获取标签的属性src的值时,<./a/img/@src>为空,而<./a/img/@lz_src>能够爬取到数据,浏览器调试界面如下:

img


代码及结果调试如下:

src:

img

lz_src:

img

出现这种情况可能是因为图片的src属性是通过JavaScript动态生成的,而不是在html中静态地指定的。在这种情况下,你需要找到实际使用的图片地址,然后使用xpath提取。这种实际图片地址可能出现在lz_src这样的自定义属性中。

对于这种情况,你可以通过以下步骤来提取图片地址:

  1. 找到实际使用的图片地址
    打开浏览器调试工具,在网页上找到对应的图片元素,然后查看其属性。在你的例子中,实际使用的图片地址可能在img标签的lz_src属性中。你可以将鼠标移到该属性上,查看属性值以获得实际图片地址。

  2. 使用xpath提取图片地址
    在Python代码中,你可以使用xpath来提取该图片地址。使用@符号加上属性名来选取属性值。对于你的例子,可以使用以下的xpath表达式:

./a/img/@lz_src

这将选取a标签下的img标签的lz_src属性值。

建议在编写代码时,先用Python的requests库获取网页的html源码或使用浏览器控制库模拟浏览器访问页面,然后使用xpath对html源码进行解析和提取,以获取所需的数据。