用pdfplumber读取pdf文件,出现cid,观察一看pdf中这一部分是公式
import pdfplumber
# 读取pdf并选择对应的页数
pdf = pdfplumber.open('30.pdf')
page = pdf.pages[0]
# 提取文本并可视化
words = page.extract_text(x_tolerance=1)
print(words)
# tables=page.extract_table()
# print(tables)
根据cid后面的数字还原公式
还原pdf内容就行了,知道cid每个对应的是什么也行
这个公式是图片,pdfplumber处理不了图片