怎么使用pycharm来抓取旅游网站的信息

通过网络爬虫爬取来自不同旅游网站的网页，同时需将网页内容进行分布式存储，然后对网页内容进行抽取和分析，提取其中的关键数据，包括但不限于线路编号、产品名称、出发城市、目的地城市、价格、出发日期、交通方式、旅游景点、酒店、行程安排等信息。用户输入出发城市、出发日期、旅游目的地等条件后，系统能按照一定的逻辑进行线路的展示和比价，方便用户做出决策。

Java 用jsoup 通过标签获取。

用python的scrapy爬虫框架来抓取数据。