怎么识别一个经过base64转码过的PDF文件里面的文字内容?

因为需要,在数据库中存的PDF文件是经过转码后的base64字符串,现在想取出来解析pdf里的内容
有没有大佬可以给点思路。

首先base64解码,保存字节成pdf文件
然后用itext这个库读取
如果内容是图片,还需要ocr