通过网络爬虫爬取来自不同旅游网站的网页,同时需将网页内容进行分布式存储,然后对网页内容进行抽取和分析,提取其中的关键数据,包括但不限于线路编号、产品名称、出发城市、目的地城市、价格、出发日期、交通方式、旅游景点、酒店、行程安排等信息。用户输入出发城市、出发日期、旅游目的地等条件后,系统能按照一定的逻辑进行线路的展示和比价,方便用户做出决策。
Java 用jsoup 通过标签获取。
用python的scrapy爬虫框架来抓取数据。