首页
编程
java
php
前端
首页
编程
java
php
前端
在使用pdfminer对阿拉伯文的pdf进行文本识别时出现问题
如图,pdfminer识别出来的东西不分词,导致阅读很困难,请问大家有什么好方法吗?
识别pdf文件都会存在一定的准确率,这个是无法避免,提高准确率目前只有ai方面,可以试试百度或者阿里的ai数据平台识别试试。
用pyPdf 库试试,参考
python unicode 编程 pdf_Python Unicode在将阿拉伯语PDF读入tx时出错_长腿小短腿儿的博客-CSDN博客
目标使用PyPDF将包含阿拉伯语文本的PDF文件转换为Python中的utf-8txt文件。在编码我所做的:import pyPdfimport codecsinput_filepath = "hans_wehr_searchable_pdf.pdf"#pdf file pathoutput_filepath = "output.txt"#output text file pathoutput_f...
https://blog.csdn.net/weixin_32265069/article/details/113639948
点击展开全文