pdfplumber提取PDF中的数据,由于一个表格中一行话分成了两行,导致第一行和右边的数据拼接到一起了
import pdfplumber
with pdfplumber.open('1.pdf') as p:
page_count = len(p.pages)
for i in range(0,page_count):
page = p.pages[i]
textdata = page.extract_text()
print(textdata)
PDF中实际的数据为
请求各位帮忙看看,怎么处理,多谢了
如果原pdf中是表格数据,使用extract_table()试试,参考:
https://zhuanlan.zhihu.com/p/353397002