python正则表达式爬取评论

正则表达式爬取视频评论

import requests 
import re
from bs4 import BeautifulSoup as bs
headers={'User-Agent':"Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/108.0.5359.95 Safari/537.36"}
r=requests.get("https://www.bilibili.com/video/BV1YV4y1u75o/?spm_id_from=333.337.search-card.all.click&vd_source=9dd8cff38385df03103af6cc27c15471",headers=headers) #发起网络请求
text=r.text
pattern=re.compile(('<span class="reply-content">(.*?)</span>'),re.S)
results=re.findall(pattern,text)
results

问题
为什么爬出来是空集

我的建议是，先用菜鸟的正则测试测一下，然后测出来之后对代码做一些调整

正则表达式在线测试 | 菜鸟工具一、校验数字的表达式数字：^[0-9]*$ n位的数字：^\d{n}$ 至少n位的数字：^\d{n,}$ m-n位的数字：^\d{m,n}$ 零和非零开头的数字：^(0|[1-9][0-9]*)$ 非零开头的最多带两位小数的数字：^([1-9][0-9]*)+(\.[0-9]{1,2})?$ 带1-2位小数的正数或负数：^(\-)?\d+(\.\d{1,2})$ 正数、负数、和小数：^(\-|\+)?\d+(\.\..

https://c.runoob.com/front-end/854/

比如说，re.compile改为re.match可能对你这个需求会更好一些。

你好,根据你提供的代码,我看到有几个可能的问题:

re.S 选项的使用不正确。re.S 表示点号 . 可以匹配换行符,但是你的正则表达式中并没有使用到点号,所以不需要这个选项。去掉它可能会解决问题。
网页源代码中评论内容的标签可能变了。如果评论内容的标签变成了
而不是 ,那么你的正则表达式无法匹配到内容,会返回空列表。你需要检查网页源代码,找到正确的标签。
网络请求发送失败或返回的网页源代码不正确。你可以检查 r 的状态码是否为 200,并检查 text 的内容是否正确包含评论信息。如果不正确,那么正则表达式无法工作,会返回空列表。
B站的反爬机制起作用了。B站有一定的反爬虫技术,可能识别出你的请求来自爬虫,并返回错误或不完整的网页源代码。你可能需要通过设置代理,修改 User-Agent 等方法来绕过反爬虫机制。
Python 的 re 模块 bug。这种情况较少见,你可以尝试安装最新版本的 re 模块,或使用其他正则表达式库如 PyRegex 来验证。
总之,我认为问题最有可能出在网页源代码获取或解析上。你应该首先检查网页源代码,确保能正确获取到评论内容,然后再根据网页源代码的变化对应调整正则表达式。

你可以看下这个问题的回答https://ask.csdn.net/questions/7708682
这篇博客你也可以参考下：【python 正则表达式】正则表达式替换中括号内的内容
你还可以看下python参考手册中的 python- 用列表实现队列
除此之外, 这篇博客: 【python实现网络爬虫（17）】使用正则表达式爬取百度以任意关键词搜索返回结果的数据中的 正则表达式爬取百度搜索结果 部分也许能够解决你的问题, 你可以仔细阅读以下内容或跳转源博客中阅读:
您还可以看一下刘顺祥老师的Python数据分析与挖掘课程中的玩转正则表达式小节, 巩固相关知识点
以下回答由chatgpt基于相关博客总结生成:
针对问题：如何使用Python正则表达式爬取视频评论？
首先，需要了解问题出现的原因。如果爬虫程序运行时只得到了空集，有可能是正则表达式本身出了问题，也有可能是爬虫程序的平台版本和所处理的视频文件格式不匹配导致的。因此，我们可以通过以下方式进行优化和调整：
1. 检查正则表达式的代码。可以将代码进行单元测试，分析是否捕捉到了目标区域。如果未能捕捉到目标区域，需要检查正则表达式的代码是否正确。
2. 确认爬虫程序的平台版本和所处理的视频文件格式。不同的平台版本和视频文件格式可能会影响网页结构和评论区域的样式，需要确保程序适用于所处理的视频文件格式和版本号。
3. 选择正确的评论区域。需要针对具体的视频，选择正确的评论区域。可以在网站上查看HTML结构，确认评论区域的标签ID或Class，然后在程序中使用正则表达式匹配相应的区域。
4. 确认期望获得的评论格式并附上一个或多个实际的评论示例。可以先手动抓取几条评论，分析评论的格式和特点，并编写适当的正则表达式来匹配评论信息。
5. 检查目标网站是否允许爬虫访问评论区。有些目标网站可能会禁止爬虫访问评论区，需要先检查相关规定，以避免因此而导致的爬虫失效。
最后，推荐使用Python的Beautiful Soup等第三方库来代替正则表达式爬取网页内容。相对于正则表达式，Beautiful Soup更易于使用和维护，能够有效地处理复杂的HTML解析问题，可以提高爬虫程序的效率。