学习爬虫时发现了一串代码,但不知道是如何获取的 ?
对于的代号1217402电影链接如下:
https://www.maoyan.com/films/1217402
对应的以下代号1217402的JSON链接是怎么获得的
https://m.maoyan.com/mmdb/comments/movie/1217402.json?_v_=yes&offset=1
打开链接,验证后:
我想知道这样的JSON链接是如何获取的
http://m.maoyan.com/mmdb/comments/movie/1218029.json?v=yes&offset=0
这里简单的分析一下参数的含义:
1218029:猫眼电影的ID(这里就是《少年的你》的电影ID了)
offset:偏移,貌似是依次增加15
我们可以每次增加offset来进行爬取,即让offset每次增加15。我们通过这种方式来构造URL,发送请求即可。
关于数据存取,我们可以存储到数据库,也可保存到文件,这里由于我爬取的数据较少,就直接保存到文件了。
通过这个URL请求返回的是json数据,我们可以用Python的json模块进行解析,
每次爬取的请求url就可以用这个模板
raw_url = 'http://m.maoyan.com/mmdb/comments/movie/'+film_id+'.json?_v_=yes&offset=%d'
您好,我是有问必答小助手,您的问题已经有小伙伴帮您解答,感谢您对有问必答的支持与关注!