用python写爬虫的时候发现爬取不到需要的数据,打印爬取的源码发现网页上的关键源码没有被爬取下来,用了requests跟selenium两个模块都是这样,有人说是ajax的原因,不知道要用什么技术解决,求指导。
网页源码:
爬取下来的源码:
这里我是通过搜索id得到的,id圈起来了
xpath试试
这种用了 ajax 的渲染效果,是为了减少提前加载对于资源的损耗的,要加载这个对象元素的数据,就需要点击它,使触发对应的元素加载,和下拉滚动条加载更多是一样的。
如果你要爬取这个元素里的内容,就需要先点击。
先定位这个 table 元素,然后点击,再获取table里的数据。
如果是下拉滚动条加载更多的情况,就需要用 js 模拟下拉滚动条操作,循环几次直到定位到所需的数据。