会计年报指定词频抓取及生成比值

问题遇到的现象和发生背景 向各位请教,首先是会计年报数量很大,五年的接近20000份,且都是pdf版本,主要是想抓取文本中指定的关键词并用每份年报抓取的关键词的词频与全文总词数生成一个比值,现阶段我只能做到单份年报抓取,自动运行格式转换及最后生成比值不会,求各位大L帮忙用Python指教,最好能有运行代码,万分感谢!

总得流程:1.自动进行txt格式转换
2.转换后进行指定的关键词进行抓取,抓取词频后与当前文本的总词数相比形成百分比(最好能删除是,的等连接词和空格)
3.形成数据