京东首页目录树爬取,求问指导鼠标悬停在某一类别时弹出的子目录应该怎么爬取?
我用了selenium phantomjs 访问后,返回的driver.page_response中没有子目录的网页源代码。这种情况是只能模拟点击每一个类别,然后在爬取下一个页面的目录结构么?
那个是动态加载的,不是在页面元素内容中。你可以先获取分类,再循环模拟鼠标事件,每次触发之后再获取网页内容。
首先,这些数据都是动态加载的,从后台服务器获取的,要爬的话兄弟你确定电脑不会被XXX(此处省略)。。。
https://dc.3.cn/category/get?callback=getCategoryCallback 你可以访问这个地址会返回一个json 你直接清洗数据就好了!