最近看腾讯漫画海贼王的时候想直接爬下来一次过看了。
然后写爬虫的时候又一次遇到了JS加载出来的图片URLs让我又一次望而却步。
一直很想解决这一个难题但是看了很多都没有找到合适的解决方法。
我有Selenium库,但是觉得腾讯的漫画页的image URL好像不需要用到。
好想只要解读好它的JS就可以了,但是我读了很久的JS也读不出它是怎么加密的。
求大神解决我一直悬而未决的难题。
html_url_ :"http://ac.qq.com/ComicView/index/id/505430/cid/1"
js_url_: "http://ac.gtimg.com/media/js/ac.page.chapter.view_v2.3.5.js?v=20160826"
感激不尽。
一般主要是分析这个URL,http://ac.gtimg.com/media/js/ac.page.chapter.view_v2.3.5.js?v=20160826
然后在它里面看能不能找到对应的图片地址等。
这个是 js 代码,你分析他干嘛,你应该在加载漫画出来的时候去看看你的网络加载状态network ,分析ajax 请求地址,自已 分析参数。看看什么参数
会返回什么数据,从而抓取到不同漫画的内容