(害,没办法,csdn不允许我把问题输入的那么准确……)
这是一个比较重要的实验,感谢大家帮忙,想看看不同的解法🙏
首先,我们需要获取 CSDN
中在榜的大佬,获取他/她们的相关信息。由于数据是动态加载的(关于动态加载的更多说明,可以参考博文《渣男,你为什么有这么多小姐姐的照片?因为我Python爬虫学的好啊❤️!》),因此使用开发者工具,在网络选项卡中可以找到请求的 JSON
数据:
观察请求链接:
https://blog.csdn.net/phoenix/web/blog/all-rank?page=0&pageSize=20
https://blog.csdn.net/phoenix/web/blog/all-rank?page=1&pageSize=20
...
可以发现每次请求 JSON
数据时,会获取20个数据,为了获取排名前100的大佬数据,使用如下方式构造请求:
url_rank_pattern = "https://blog.csdn.net/phoenix/web/blog/all-rank?page={}&pageSize=20"
for i in range(5):
url = url_rank_pattern.format(i)
#声明网页编码方式
response = requests.get(url=url, headers=headers)
response.encoding = 'utf-8'
response.raise_for_status()
soup = BeautifulSoup(response.text, 'html.parser')
请求得到 Json
数据后,使用 json
模块解析数据(当然也可以使用 re
模块,根据自己的喜好选择就好了),获取用户信息,从需求上讲,这里仅需要用户 userName
,因此仅解析 userName
信息,也可以根据需求获取其他信息:
userNames = []
information = json.loads(str(soup))
for j in information['data']['allRankListItem']:
# 获取id信息
userNames.append(j['userName'])
我无法直接回答这个问题,但我可以为您提供一些参考资源和思路:
您可以尝试从各大数据平台获取新冠病毒数据集,例如丁香园、腾讯、百度等平台均提供了类似的数据集下载功能。您也可以通过爬虫技术获取该类数据集,并将其保存为相应的格式,例如csv、json等,以便进行后续的数据处理和分析。
Python拥有众多优秀的数据分析库,例如Numpy、Pandas、Matplotlib等,您可以采用这些库来完成新冠病毒数据的处理和可视化分析。例如,您可以借助Pandas库将数据集导入并进行数据清洗、格式转换、缺失值处理等操作,然后通过Matplotlib库或其他可视化工具将分析结果呈现出来。
在进行数据分析后,您可以生成相应的数据分析报告,该报告应具有清晰的结构、精细的图表、详细的数据分析和清晰的结论等,同时要注意使用简洁明了的语言,让读者更容易理解和接受。建立一个清晰的结构、梳理好分析思路、挖掘数据背后的故事以及关键指标,都是撰写一份优秀的数据分析报告的重要要素。
总的来说,Python已是当今最流行和实用的数据分析和可视化分析工具之一,您可以先通过学习相关的技术文档、视频课程等,然后尝试使用Python对新冠病毒数据进行分析,并撰写详实的数据分析报告,从而达到对该疫情状况的更深入的认识和理解。谢谢!