在使用pdfminer对阿拉伯文的pdf进行文本识别时出现问题

img


如图,pdfminer识别出来的东西不分词,导致阅读很困难,请问大家有什么好方法吗?

识别pdf文件都会存在一定的准确率,这个是无法避免,提高准确率目前只有ai方面,可以试试百度或者阿里的ai数据平台识别试试。

用pyPdf 库试试,参考