https://meetinglibrary.asco.org/browse-meetings/2021%20ASCO%20Annual%20Meeting/sintilimab?page=1
大佬们帮看下,不管搜什么,打开源码显示的都是一样的内容,不懂html,这种可以用爬虫么
爬取网页用八爪鱼软件比较方便,自己爬慢还容易被封。
下载八爪鱼软件操作都比较简单
打开客户端,选择简易模式和相应的网站模板
预览模板的采集字段、参数设置和示例数据
设置对应的参数,保存运行完成数据采集
这个网站用的js生成的内容,一般爬虫和采集器(如火车头)爬不了,一般的爬虫都是爬源代码,无法爬解析后生成的内容。
需要用居于webbrower的桌面软件来爬,有些平台也提供爬js动态生成的内容,如神箭手https://www.shenjian.io/index.php?r=sign/in
看数据是否是动态加载,在要获取数据的页面,用F12打开开发者工具,点开network->XHR,F5刷新页面,或向下翻页,查看动态加载的链接,用requests.get或requests.post获取json数据。如果没有相关链接,则可考虑使用selenium。
可以的,你可以找一个它搜索post的地址,找到后,直接爬虫那个地址就ok了。
在2处找到你要的地址,爬虫的时候带上搜索关键字
您好,我是有问必答小助手,您的问题已经有小伙伴解答了,您看下是否解决,可以追评进行沟通哦~
如果有您比较满意的答案 / 帮您提供解决思路的答案,可以点击【采纳】按钮,给回答的小伙伴一些鼓励哦~~
ps:问答VIP仅需29元,即可享受5次/月 有问必答服务,了解详情>>>https://vip.csdn.net/askvip?utm_source=1146287632