解析PDF中的表格除了pdfminer、tabula、pdfplumber 这三种Python库,还有其他较好的Python库吗?PDF中的表格识别现在做到了那种程度?可以识别成有用的数据吗?(可以让表格输出为有规律的文本或者形成字典吗)
商业的话,可以用某些云计算的paas服务,在线识别。人家是针对各种样本调优过的,效果肯定比你简单用几个库好很多。
adobe的识别效果还不错