java 解析pdf/word

我现在有这样一个需求,解析pdf/word等文件,需要按照文档格式的顺序来依次解析,不能错误,将最后解析出来的结果以json的格式在返回给前端,文件中每一页都会存在各种元素比如 表格/图片/文字/标题 段落等,我需要按照顺序解析出来,格式不能乱,找了好多方法都是只有单一的提取 文字 表格图片等,没有循环判断元素的提取

不能直接预览文件吗?pdf里面都是啥内容?