使用pymupdf读取文件里面的文字时公式全是乱码
import fitz
docs = fitz.open("30.pdf")
for doc in docs:
# blks = doc.get_text_blocks(flags = 4)
blks = doc.get_text("blocks", sort=True)
print(blks)
我看有人弄了个ttf的字体,但是找不到相关资料
输出正确不乱码的结果
先确定你的pdf是图片还是文档,如果从图片转pdf,这个是图像识别问题,如果是文档转,你要看看模块的一些参数设置