求好用的批量提取PDF/WORD中固定格式内容的好用工具或程序

各位好，涉及文件有PDF、Word，上百份，需要提取所有材料固定第二章/第三章“术语和定义”内容（如示例1，示例2）到对应EXCEL表格。求好用的可以批量提取的软件推荐或程序代码推荐，感谢。

示例1：一般在所有PDF/WORD的第2章节或者第3章，标题都是“术语和定义”。没有“术语和定义”的章节的PDF/WORD不需要摘取。

示例2:不同的构成类型示例

希望生成EXCEl格式如下


from PyPDF2 import PdfFileReader, PdfFileWriter
import pdfplumber
 
path = r'C:\xxx'
pdf_writer = PdfFileWriter()
pdf_reader = PdfFileReader(path + r'\公司年报.PDF')
 
with pdfplumber.open(path + r'\公司年报.PDF') as pdf:
    for i in range(pdf_reader.getNumPages()):
        page = pdf.pages[i]
        print(page.extract_text())
        if '战略' in page.extract_text():
            pdf_writer.addPage(pdf_reader.getPage(i))
            print(i + 1, page.extract_text())
 
with open(path + r'\new_公司年报1.pdf', 'wb') as out:
    pdf_writer.write(out)


from PyPDF2 import PdfFileReader, PdfFileWriter
import fitz
import re
import os
 
path = r'C:\xxx'
 
page_lst = []
checkImg = r"/Subtype(?= */Image)"
pdf = fitz.open(path + r'\公司年报.PDF')
lenXREF = pdf._getXrefLength()
for i in range(lenXREF):
    text = pdf._getXrefString(i)
    isImage = re.search(checkImg, text)
    if isImage:
        page_lst.append(i)
 
print(page_lst)
 
pdf_reader = PdfFileReader(path + r'\公司年报.PDF')
for page in page_lst:
    pdf_writer = PdfFileWriter()
    pdf_writer.addPage(pdf_reader.getPage(page))
    with open(path + r'\公司年报_{}.pdf'.format(page + 1), 'wb') as out:
        pdf_writer.write(out)

pdf都不好用