怎么识别一个经过base64转码过的PDF文件里面的文字内容？

因为需要，在数据库中存的PDF文件是经过转码后的base64字符串，现在想取出来解析pdf里的内容
有没有大佬可以给点思路。

首先base64解码，保存字节成pdf文件
然后用itext这个库读取
如果内容是图片，还需要ocr