竖版PDF如何识别,有什么开源工具或者解决思路吗?

我需要从一本杂志类PDF文件中,提取所有文章(标题及内容),杂志内容如图:
img
我需要对这种类型的页面进行批量识别,尽量做到能提取出所有文章,但是传统PDF文字识别都是横向识别,无法确定竖向排版
如果我想完成此工作,有什么开源工具或者解决思路吗?
img

这不叫竖排,叫分栏排版,给你思路:
1、用工具将pdf导出为一张张的图片
2、用ps打开任一图片,然后开始录制action
3、编辑图片,调整高度为原高度3倍,将中栏及右栏内容分别移至左下方,裁切图片宽度到合适,保存图片
4、停止录制action
5、ps中运行批处理指定刚才录制action,源文件夹指定你导出的存放图片的文件夹
6、执行完成后,所有图片已变成单栏排方式
7、将所有图片拼成一个新的pdf
8、将pdf导入你的识别工具……