我想要爬取这个网站的这个企业性质数据
1,查找 JavaScript 代码:在网页的源代码中搜索可能包含时间戳生成逻辑的 JavaScript 代码。您可以在网页的
这个网页用的是nuxt服务端渲染,build_time就是你请求的时间,应该随便构造一个当前时间的时间戳就可以;
至于uuid,它是通过服务端获取的数据,并不是通过http请求回来的。
可以看到在页面mounted挂载前,this上就已经有了uuid,看上面的asyncData可以知道使用了ssr渲染,在页面加载前向后端请求数据
所以,放弃吧,你可以通过获取dom节点来爬取数据,使用node或者python通过无头的浏览器调取网页的内容,在通过dom path来获取指定dom节点中的数据内容。
由于实习僧网站的具体页面结构和数据获取方式不明确,无法给出具体的解决方案。建议先通过网站的API或者爬虫工具来获取企业信息,再通过对应数据的json获取相关性质信息。时间戳一般在页面源代码中可以找到,可以尝试使用Chrome的开发者工具或者FireFox的Firebug插件来查找。需要使用的工具或技术包括Python语言和对应的爬虫库,比如Scrapy和BeautifulSoup等。