实习僧json数据爬取

我想要爬取这个网站的这个企业性质数据

img


这个网站的json数据时间戳在哪儿可以获取如何获取?
https://www.shixiseng.com/intern/inn_hy5kuwyuowrc?pcm=pc_SearchList
比如
Request URL: https://www.shixiseng.com/proxy-prefix/new-intern-api-host/api/interns/v3.0/company/info/wxz?build_time=1681798168358&uuid=com_nljmryraw3ab
中的build_time=1681798168358&uuid=com_nljmryraw3ab这个时间戳
我看了都是表单数据中带有的,源代码似乎没有

img

1,查找 JavaScript 代码:在网页的源代码中搜索可能包含时间戳生成逻辑的 JavaScript 代码。您可以在网页的

这个网页用的是nuxt服务端渲染,build_time就是你请求的时间,应该随便构造一个当前时间的时间戳就可以;
至于uuid,它是通过服务端获取的数据,并不是通过http请求回来的。

img

img

可以看到在页面mounted挂载前,this上就已经有了uuid,看上面的asyncData可以知道使用了ssr渲染,在页面加载前向后端请求数据
所以,放弃吧,你可以通过获取dom节点来爬取数据,使用node或者python通过无头的浏览器调取网页的内容,在通过dom path来获取指定dom节点中的数据内容。

不知道你这个问题是否已经解决, 如果还没有解决的话:
  • 以下回答来自chatgpt:

    由于实习僧网站的具体页面结构和数据获取方式不明确,无法给出具体的解决方案。建议先通过网站的API或者爬虫工具来获取企业信息,再通过对应数据的json获取相关性质信息。时间戳一般在页面源代码中可以找到,可以尝试使用Chrome的开发者工具或者FireFox的Firebug插件来查找。需要使用的工具或技术包括Python语言和对应的爬虫库,比如Scrapy和BeautifulSoup等。


如果你已经解决了该问题, 非常希望你能够分享一下解决方案, 写成博客, 将相关链接放在评论区, 以帮助更多的人 ^-^