python爬虫问题

obj = re.compile(r'<li>.*?<span class="title">(?P<name>.*?)'
                 r'</span>.*?<p class="">.*?<br>(?P<year>.*?)&nbsp.*?</span '
                 r'class="rating_num" property="v:average">(?P<star>.*?)</span>', re.S)

obj = re.compile(r'<li>.*?<span class="title">(?P<name>.*?)</span>' , re.S)
obj = re.compile(r'</span>.*?<p class="">.*?<br>(?P<year>.*?)&nbsp.*?</span' , re.S)
obj = re.compile(r'class="rating_num" property="v:average">(?P<star>.*?)</span>.*?', re.S)

爬取网页内容时,用第一种方法爬不到东西,但是我将它们分开写之后是能爬到东西的,请问是什么问题

因为你的正则匹配写的太长,可能匹配不到你想要的html,但是你分开之后,匹配的内容相对少,出现错误的几率就低,建议分段匹配

您好,我是有问必答小助手,您的问题已经有小伙伴解答了,您看下是否解决,可以追评进行沟通哦~

如果有您比较满意的答案 / 帮您提供解决思路的答案,可以点击【采纳】按钮,给回答的小伙伴一些鼓励哦~~

ps:问答VIP仅需29元,即可享受5次/月 有问必答服务,了解详情>>>https://vip.csdn.net/askvip?utm_source=1146287632