哪位懂爬虫的看看咋弄

1.项目题材
使用python爬取任一网站的数据,可以选择自己喜欢的网站可以是购物类网站、招聘类网站、电影类网站、或者天气类网站、将爬取的网站数据经过Hadoop清洗后,存放到mysql数据库当中、最终数据展示需要通过echarts和flask进行数据展示。项目采用分步计分的方式,分步计分说明如5.1所示
2.项目中可以使用以下技术(至少5种):使用Python
使用linux
使用hadoop
使用echarts、flask
使用mysql
使用java