PYTHON PDF解析如何跨页解析表格

#描述遇到的问题
最近在用 pdfplumber 解析PDF数据时遇到解析表格不全的问题
代码

import pandas as pd
import pdfplumber
import re
import PyPDF2
path=r'./新版征信PDF.pdf'
coding='utf-8'
def extract_content(pdf_path):
    # 内容提取,使用 pdfplumber 打开 PDF,用于提取文本
    with pdfplumber.open(pdf_path) as pdf_file:
        # 使用 PyPDF2 打开 PDF 用于提取图片
        pdf_image_reader = PyPDF2.PdfReader(open(pdf_path, "rb"))
        content = ''
        for i in range(len(pdf_file.pages)):
            page_text = pdf_file.pages[i]
            # page.extract_text()函数即读取文本内容
            page_content = page_text.extract_text()    ###当页提取完的所有表格文本
            tables = page_text.extract_table()       #### 当页所有表格
            for i1 in range(len(tables)):
                tables[i1] = list(filter(None, tables[i1]))       #### 过滤空值
            if i ==3 :
                print(tables)
                print('-----------------------')
            if i == 4 :
                print(tables)
extract_content(path)

效果
第四页解析至末尾

img

第五页解析时跳过剩余表格了

img

原始文件 :

img

有什么办法可以把这种跨页的表格也解析完吗?

将跨页表格的内容合并在一起。先定义了一个函数 extract_tables,它打开 PDF 文件并提取所有页面中的表格内容。然后循环遍历每一页,并使用 extract_tables() 方法提取每一页中的表格。如果表格不为空,则将其添加到表格列表中。在添加表格之前,检查该表格的列数是否与前一个表格的列数相同,如果相同,则将当前表格添加到前一个表格的末尾,否则将其视为新表格并将其添加到表格列表的末尾。


import pandas as pd
import pdfplumber

def extract_tables(pdf_path):
    with pdfplumber.open(pdf_path) as pdf_file:
        tables = []
        for page in pdf_file.pages:
            page_tables = page.extract_tables()
            for table in page_tables:
                if table:
                    if tables and len(table[0]) == len(tables[-1][0]):
                        tables[-1] += table
                    else:
                        tables.append(table)
    return tables

tables = extract_tables('example.pdf')
df = pd.DataFrame(tables[0][1:], columns=tables[0][0])
print(df.head())

按理如果表格有分页的话,那么第二页也能读取到,你只需要拼接起来即可。至于您这里没有获取到,建议更换pdf解析工具试试,望采纳!!!