python 批量定位pdf文件中包含某些关键词的句子,并返回

各位前辈好,小生有一个关于python的问题想请教各位,希望各位不吝赐教。

目的是:提炼PDF文件中某个(些)关键词所在的句子,并返回这些句子。这些句子的特点是一整句话,始末为前后句号。

如果PDF难以直接提炼,转成TXT文件也可以。

劳烦各位前辈、学长指点,不吝赐教。

pdfminer, pdfplumber, PyPDF2

难点是把 pdf 变为 txt 文件, 你先要搜索一下这个的解决方案。  老式的 pdf 只有图像信息, 未必有文字信息, 还要通过 OCR 转成文字。 

您好,请问最后解决了没