在使用pdfminer对阿拉伯文的pdf进行文本识别时出现问题

如图，pdfminer识别出来的东西不分词，导致阅读很困难，请问大家有什么好方法吗？

识别pdf文件都会存在一定的准确率，这个是无法避免，提高准确率目前只有ai方面，可以试试百度或者阿里的ai数据平台识别试试。

用pyPdf 库试试，参考

python unicode 编程 pdf_Python Unicode在将阿拉伯语PDF读入tx时出错_长腿小短腿儿的博客-CSDN博客目标使用PyPDF将包含阿拉伯语文本的PDF文件转换为Python中的utf-8txt文件。在编码我所做的：import pyPdfimport codecsinput_filepath = "hans_wehr_searchable_pdf.pdf"#pdf file pathoutput_filepath = "output.txt"#output text file pathoutput_f...

https://blog.csdn.net/weixin_32265069/article/details/113639948