爬虫技术下能获得最大豆瓣影评数量是多少呢

在网上搜索了一圈,有些人说是只能爬到500条短评,有些说可以达到1千多?那么是否有人知道单部电影可以最多爬到多少短评呢?

你想要多少, 我记得我写过相关博客 你可以看下

不知道你这个问题是否已经解决, 如果还没有解决的话:
  • 你可以参考下这个问题的回答, 看看是否对你有帮助, 链接: https://ask.csdn.net/questions/7529143
  • 我还给你找了一篇非常好的博客,你可以看看是否有帮助,链接:研究了500+数据科学面试问题之后,我发现了这些规律……
  • 除此之外, 这篇博客: 深度学习面试题-4中的 10. 假设你为10000个单词学习词嵌入,为了捕获全部范围的单词的变化以及意义,那么词嵌入向量应该是10000维的。 部分也许能够解决你的问题, 你可以仔细阅读以下内容或者直接跳转源博客中阅读:

    A 正确
    B 错误

    正确答案是:B, 您的选择是:A
    解析:可以不用10000,取个几百维就可以。

  • 您还可以看一下 王达老师的【深入理解计算机网络】入门计算机网络基础视频课程(上)课程中的 基于双绞线的千兆以太网规范小节, 巩固相关知识点
  • 以下回答来自chatgpt:

    根据参考资料中提到的信息,爬取豆瓣影评可以获取的最大数量是不确定的。有些人表示可以获取到1000多条,而有些人表示只能获取到500条。因此,无法确定单部电影能够获取的最大短评数量。

    获取豆瓣影评的方法一般是通过发送HTTP请求获取页面源码,然后使用Beautiful Soup等库解析页面获取所需的信息。以下是一个示例代码,用于获取某个电影的短评:

    import requests
    from bs4 import BeautifulSoup
    
    def get_short_reviews(movie_id):
        url = "https://movie.douban.com/subject/{}/comments?status=P".format(movie_id)
        headers = {
            "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36"
        }
        response = requests.get(url, headers=headers)
        if response.status_code == 200:
            soup = BeautifulSoup(response.text, "html.parser")
            reviews = soup.find_all("span", class_="short")
            return [review.text for review in reviews]
        else:
            return []
    
    reviews = get_short_reviews("1292052")
    print(reviews)
    

    在上面的示例代码中,我们通过发送GET请求获取某个电影的短评页面,并使用Beautiful Soup解析页面获取class为"short"的span标签,从中提取短评内容。

    请注意,爬取网站信息时需要尊重网站的robots.txt文件,避免对网站造成过大的压力或违反网站规定。此外,豆瓣网站有可能使用反爬虫技术,因此可能需要使用一些反反爬虫的手段,例如设置合适的请求头、模拟登录等。具体的反爬虫技术需要根据豆瓣网站的具体情况进行调整。

    综上所述,获取豆瓣影评的最大数量是不确定的,要根据具体情况进行尝试和调整。如果需要获取更多的短评,可以尝试使用不同的页面解析方法、反爬虫技术或者考虑使用其他的数据来源。


如果你已经解决了该问题, 非常希望你能够分享一下解决方案, 写成博客, 将相关链接放在评论区, 以帮助更多的人 ^-^