本人自学了python,打算爬个商品评论练手,希望实现自动翻页爬取评论的功能,并用字典筛选出id,creation time等信息,但是程序只能爬取出空内容,且同样的程序,今天早上第一次运行可以爬取出内容,但是第二次就不行了,没有任何思路,下面是主要的内容,前面用了很多ua实现随机取ua的功能,希望各位指点一下
header = {
'User_Agent':str(random.choice(user_agents)),
'Referer':'https://item.jd.com/100019125569.html'
}
for i in range(500):
print('第%s页开始爬取'%(i+1))
url_ = 'https://club.jd.com/comment/productPageComments.action?'
params = {
'callback': 'fetchJSON_comment98',
'productId': 100019125569,
'score': 0,
'sortType': 5,
'page': i,
'pageSize': 10,
'isShadowSku': 0,
'rid': 0,
'fold': 1,
}
url = url_ + urlencode(params)
resp = requests.get(url = url,headers = header)
data = json.loads(resp.content)#这里用resp.text也不能爬出内容
comment_list = data['comments']
for comment in comment_list:
content = comment['content']
creationTime = comment['creationTime']
nickname = comment['nickname']
with open("spider3.0",mode="w",encoding='utf-8') as f:
print (nickname,content,creationTime,file = f)
这里 data = json.loads(resp.content)#这里用resp.text也不能爬出内容
看一下没有内容的情况,状态码是什么?