获取xpath的时候 使用
nextUrlRegex= /html/body/div[3]/div/div[2]/div[3]/ul/li[8]/a
1. 前面加上/html 无法获取
2. div后面的数字[n] 只有在只保留最后一个[n]的时候才有用。
如 : /body/div/div/div/div/ul/li[8]/a
结合class来使用嵌套查询,不要这样用,这样用多了会吧你弄蒙的。
如
可以用xpath拆成多段。然后循环获取
直接谷歌浏览器,f12,然后截取元素就能把它选出来了。
是用的bs是吧,lxml模式吧,上次我帮人看过,这个库的问题,你可以换成html parser也可以选择其他解析方式