请大家帮我看一下这种python爬取的处理方法可不可行呢

我需要爬取400多个指定上市公司在新浪财经网上公示的企业年报中的数据然后填入excel表中,比如分季度收入,在不同地区的营业收入等,但是由于每个企业公示的年报是一个独立的网页而且是以pdf预览形式的,如果需要从预览的pdf中找到对应的表格,然后爬取数据,最后填入excel表,请问这种可以通过python实现吗

可以实现,但是工程量看上去非常大
第一步,下载所有年报,例如都是PDF格式,放入一个路径。
(手动能一键下载吗,不能的话还得爬)
第二步,根据路径下第一个文件,找寻关键信息对应格式,构建解析代码。如果不能解析第N个文件,则添加判断、解析方式
(这一步主要是每个企业年报的展示标准不一,如果有统一的标准则不需要这么麻烦)
第三步,所有文件解析完成后填入Excel表中。
(这里考虑的是最终结果是400+ 工作簿还是做个最终统一的大表囊括所有企业数据为佳)
建议导入数据库。