import requests
from bs4 import BeautifulSoup
urls = [
f"https://cnblogs.com/#p{page}"
for page in range(1,5+1)
]
def parse(url):
print(url)
r = requests.get(url)
r.encoding = 'uft-8'
html= r.text
soup = BeautifulSoup(html,'lxml')
links = soup.find_all('a',class_ = 'post-item-title')
return [
(link.get('href'),link.text)
for link in links ]
def main():
for url in urls:
for result in parse(url):
print(result)
print('\n')
if __name__ == "__main__":
main()
问题出在urls构造上,第一页和后续网页的地址是不一样的,将这行改为:urls = [f'https://cnblogs.com/#p{page}' if page == 1 else f'https://cnblogs.com/sitehome/p/{page}' for page in range(1, 6)]即可。
@木三136,将鼠标指向分页的数字,你就可以看到实际网址
为什么直接点这种网址是可以进去的,而用程序爬取就不行,是什么原因导致这种情况?
以后应该如何尽量避免这种错误
您好,我是有问必答小助手,你的问题已经有小伙伴为您解答了问题,您看下是否解决了您的问题,可以追评进行沟通哦~
如果有您比较满意的答案 / 帮您提供解决思路的答案,可以点击【采纳】按钮,给回答的小伙伴一些鼓励哦~~
ps:问答VIP仅需29元,即可享受5次/月 有问必答服务,了解详情>>> https://vip.csdn.net/askvip?utm_source=1146287632