基于大数据技术的房源信息过滤集成及可视化系统开发,这个毕设怎么实现

要求是这样:对各类房源信息网站的房源信息利用大数据技术进行采集、过滤、识别,按照区域、分价格、分房源来源(中介、房东)、房屋大小、信息来源(哪个网站)进行分类,并进行可视化展示。
技术上用什么实现?业务功能展现什么,租房报表么?有了数据集还要大数据技术么?

怎么说都要有这几部分吧 (只做一个城市的话)
1、爬虫 , 采集房源信息。
2、自然语言分析, 分词, 识别关键信息, 比如地理位置,小区信息,房子规格大小,楼层,户型, 建成时间, 电梯配置, 价格
3、数据存储, 本地sqlite 还是 mysql 还是其他
4、可视化展示(pyecharts 应该可以搞掂), 一个是当前城市区域的房源分布, 二是近期(一年、6个月、1个月)价格变动,