用pdfbox提取pdf文本,用poi提取word文本,为什么输出字符空白?

用pdfBox解析pdf,1m以下的pdf可以成功解析出来,但是1m以上的pdf都没办法解析出来,到底是为什么?jvm内存限制也不应该只能解析1M的文件啊?求大神解答~

可以用itext提取试试,我用itext实现了检索pdf关键字

推荐楼主可以试试Spire.pdf for java控件来提取PDF文本,效果不错,相关代码示例可参考他们官网教程


spire.doc for java支持提取Word文本,相关链接:
Java 提取 Word 中的文本和图片 本文展示如何使用Spire.Doc for Java提取Word文档中的文本和图片。 提取文本 import com.spire.doc.Document; import java.io.FileWriter; import java.io.IOException; public class Ext... https://www.e-iceblue.cn/spiredocforjavatext/extract-text-and-images-from-word-in-java.html