Python 如果想要爬取的网页从控制台看不到接口信息应该如何爬取想要的内容 或者说针对这种需求应该从哪方面入手学习
因为他是异步加载的。
解决方法:
1、一般爬取到的内容和网页上的不一样,可能是请求异常或者是异步加载导致的,需要去定位数据来源。
2、打开控制台全局搜索151.4,发现没结果,那么继续搜索1514,发现有搜索结果。
3、手动确认接口和数据是否正确。
img
4、经对比后,该数据确实为页面数据,那么可以请求异步加载的接口。比如打开地址 https://api.bilibili.com/pgc/view/web/season?ep_id=508404
5、获取响应内容,通过json转换后,提取数据即可。
这里是一篇【python爬虫(常见爬取失败问题)】的博文,博文内容讲解的很细致,结合实际的案例去分析原因和给出思路,期望对你有所帮助:https://blog.csdn.net/weixin_41951954/article/details/122861159
这个要看你抓是什么样接口信息,不是看不到,而是通讯方式不同,HTTP,TCP等协议。也可以接住其它工具进行抓包,不一定应浏览器
找不到接口的,这种一般不是动态渲染的,动态渲染的一般都有ajax请求。
其一:你可以在控制台全局搜索关键字,看能不能找到接口,或者多刷新,因为有些隐藏比较深。
其二:你可以尝试直接从页面提取内容,如果不是动态加载的话,没有接口,但它的内容是直接在页面里面返回的,你可以直接爬取整个页面,然后把页面内容里面的数据提取出来就行。
其三:如果是动态加载的数据,而且你找不到接口的话,用selenium爬取很容易,直接模拟浏览器的行为获取页面内容会有动态渲染的内容哦!
有帮助的话采纳一下哦!
你好,如果你有基本的javaEE编程知识、Django的知识(Python的web框架)
都能够掌握爬虫基本思路。
视频可以上B站查找
博主参考下下面链接
https://b23.tv/ofWhuUi