要求:在规定时间内,利用Jupyter notebook或者Pycharm开发工具,完成对目标数据集的数据分析。
1、参考数据分析流程(明确分析的目的一>确定分析的逻辑框架一>数据准备一>数据挖掘分析一>数据展示一>报告撰写)。
2、必须用到pandas、scipy、numpy、 matplotlib、seaborn等第三方库中至少两个。 I
3、加分点:能够使用DataFrame数据格式;用到聚合函数(min、max、count、mean);用到groupby分组;有缺失值分析;用到数据建模算法(分类、回归、聚类等);有图像报告分析。
主题范围:数据集范围可以是城市天气数据、豆瓣评论数据、城市客运量数据、电商交易数据、图书检索数据、电影评分数据、企业成本数据、城市就业率数据等
社区里关于爬取+数据分析的文章可太多了,https://blog.csdn.net/qq_42642945/article/details/88899671 可以参考类似的,做一个案例(毕竟豆瓣的可太多人做了,没意义)