爬虫获取的网页源码如图
id="wrapper"的div标签无法展开,无法获取里面的内容,用selenium感觉效率太低了,能有什么办法吗?
实际div展开如下图
因为div里的内容,使用过ajax加载的,所以爬虫获取的网页源码是没有里面的内容的,这种数据相对来说方便一点,直接可以抓包拿到相应的ajax请求,然后直接reqeusts模块发送请求就可以拿到数据了,具体步骤:
什么叫无法展开呀,那是你没有获取到那部分的数据
一个页面由多个url请求返回的数据组合成的,而你只是请求了一个url。你请求的url没有返回你要的数据而已。
你可以在页面上,鼠标右键点击检查,选择网络,然后刷新页面,然后你会看见一堆url请求。你去看那个url的响应内容返回了你要的数据,你就去请求它
这个不叫无法展开,因为你的这个网页那部分数据是动态填充的,只能使用selenium模拟,或者直接去找到对应接口,然后请求接口直接拿数据。
无法展开是因为压根儿就没有;要么没请求那部分,要么请求了还没加载