这是那个response里面有书籍分类信息的url,也是我访问不了的url
详细数据
我一开始以为这跟B站上爬取评论一样,把其中的条件,也就是callback删除就可以了,但实际上并不能,并会出现以下情况:
它会显示我非法请求,然后我就去看callback后面的东西。
其中”_“把数字分成了两串,第一串数字应该是时间戳,但我却想不出第二串数字是怎么来的,然后就去看网页代码,结果还是不行.所以就请大家来帮我看看这个问题,我到底应该把这个地址分析完整还是说有其他的访问方法。
最后附上一张我找到的感觉比较关键的代码(分析第二串数字):
添加请求头,将params参数构建成这样即可:counter随机数,请求当时时间戳。
params = (
('source', 'bookSort'),
('callback', f'jsonp_{int(time.time()*1000)}_{random.randint(1000,9000)}'),
)
response = requests.get('https://pjapi.jd.com/book/sort',
headers=headers, params=params)
s=re.findall('jsonp.*?\((.*)\)',response.text)[0]
js=json.loads(s)
print(js)
你的代码