#描述遇到的问题
最近在用 pdfplumber 解析PDF数据时遇到解析表格不全的问题
代码
import pandas as pd
import pdfplumber
import re
import PyPDF2
path=r'./新版征信PDF.pdf'
coding='utf-8'
def extract_content(pdf_path):
# 内容提取,使用 pdfplumber 打开 PDF,用于提取文本
with pdfplumber.open(pdf_path) as pdf_file:
# 使用 PyPDF2 打开 PDF 用于提取图片
pdf_image_reader = PyPDF2.PdfReader(open(pdf_path, "rb"))
content = ''
for i in range(len(pdf_file.pages)):
page_text = pdf_file.pages[i]
# page.extract_text()函数即读取文本内容
page_content = page_text.extract_text() ###当页提取完的所有表格文本
tables = page_text.extract_table() #### 当页所有表格
for i1 in range(len(tables)):
tables[i1] = list(filter(None, tables[i1])) #### 过滤空值
if i ==3 :
print(tables)
print('-----------------------')
if i == 4 :
print(tables)
extract_content(path)
效果
第四页解析至末尾
第五页解析时跳过剩余表格了
原始文件 :
有什么办法可以把这种跨页的表格也解析完吗?
将跨页表格的内容合并在一起。先定义了一个函数 extract_tables,它打开 PDF 文件并提取所有页面中的表格内容。然后循环遍历每一页,并使用 extract_tables() 方法提取每一页中的表格。如果表格不为空,则将其添加到表格列表中。在添加表格之前,检查该表格的列数是否与前一个表格的列数相同,如果相同,则将当前表格添加到前一个表格的末尾,否则将其视为新表格并将其添加到表格列表的末尾。
import pandas as pd
import pdfplumber
def extract_tables(pdf_path):
with pdfplumber.open(pdf_path) as pdf_file:
tables = []
for page in pdf_file.pages:
page_tables = page.extract_tables()
for table in page_tables:
if table:
if tables and len(table[0]) == len(tables[-1][0]):
tables[-1] += table
else:
tables.append(table)
return tables
tables = extract_tables('example.pdf')
df = pd.DataFrame(tables[0][1:], columns=tables[0][0])
print(df.head())
按理如果表格有分页的话,那么第二页也能读取到,你只需要拼接起来即可。至于您这里没有获取到,建议更换pdf解析工具试试,望采纳!!!