用python 写爬虫程序使用selenium已经正确获取到了网页所有内容,但是为啥将数据保存成文件的时候,数据就有个字段的内容就少了呢,使用BeautifulSoup也获取不到对应内容部分代码:
网页部分内容:
保存的html文件内容:
数据缺失是爬虫很常见的问题,因为对方的逻辑你看到的是有限的,总会有一些特殊情况,需要特殊处理啊,这个时候就需要反复查看html的特殊数据,兼容处理。
有些js渲染的数据可能做了特殊处理,可以看一下找到那个请求接口单独请求获取json数据解析