好像没有报错。你好,李焕英 短评 (douban.com)
这是我爬取的代码,你可以参考一下
# coding=utf-8
import re
import requests
import io
from os import path
from wordcloud import WordCloud, STOPWORDS
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:64.0) Gecko/20100101 Firefox/64.0'
}
d = path.dirname(__file__)
def spider_comment(movie_id, page):
"""
爬取评论
:param movie_id: 电影ID
:param page: 爬取前N页
:return: 评论内容
"""
comment_list = []
for i in range(page):
fp = io.open('E:/python/db.txt', 'w', encoding='utf_8_sig')
url = 'https://movie.douban.com/subject/%s/comments?start=%s&limit=20&sort=new_score&status=P&percent_type=' \
% (movie_id, (i - 1) * 20)
req = requests.get(url, headers=headers)
req.encoding = 'utf-8'
comment_list = re.findall('<span class="short">(.*)</span>', req.text)
fp.writelines(u'{}\n'.join(comment_list))
print("当前页数:%s,总评论数:%s" % (i, len(comment_list)))
fp.close()
# 主函数
if __name__ == '__main__':
movie_id = '34841067'
page = 11
spider_comment(movie_id, page)
您好,我是有问必答小助手,您的问题已经有小伙伴解答了,您看下是否解决,可以追评进行沟通哦~
如果有您比较满意的答案 / 帮您提供解决思路的答案,可以点击【采纳】按钮,给回答的小伙伴一些鼓励哦~~
ps: 问答会员【8折】购 ,仅需→¥23.2,即可享受5次/月 有问必答服务,了解详情>>>https://t.csdnimg.cn/RW5m