如何用爬虫自动搜索百度并取得所需信息

具体就是手里有一列村庄数据,需要一个个百度搜索其所属乡镇名称,我的问题是如何在搜索后把想要的名称截取下来

你需要分析回传数据的格式是不是统一的,抽检其中几个搜索结果,如果是一致的,可以使用正则表达式搜索匹配相关的信息。

第一步:用python从村庄数据(excel)获取关键信息,有区别度的,或者唯一性;

第二步:模拟浏览器爬虫,将第一步的关键信息,填入爬虫模块的关键词搜索;

第三步:通过解析模块或者正则表达式获取所属乡镇名称。

下载最新的全国行政规划数据,导入数据库,进行自动查询即可。

1. 地址:http://www.stats.gov.cn/tjsj/tjbz/tjyqhdmhcxhfdm/2020/index.html 可以使用爬虫爬取下载

2 数据导入数据库/excel等系统,查村子就很简单啦