如何提取文本中某一章的内容

请问如何用python批量提取年报pdf中发某一章节的内容,如:如何提取其中管理层讨论与分析部分
类似这是其中一个报告的目录 我只想要第四节的内容

img


第四节长这样,每一节开头都是新的一页

img

输出文本内某段的内容
输入匹配样式获取匹配内容
获取范围内容,用正则进行匹配
举个例子

import re
import numpy as np
# import csv
x=int(input("输入起始行:"))
y=int(input("输入结束行:"))
z=input("输入匹配模式:")
file_path='filename'
data = []
# #读取
with open(file_path,encoding='utf-8',) as txtfile:
    line=txtfile.readlines()
    for i,rows in enumerate(line):
        if i in range(x,y) :  #指定数据哪几行
            print(rows)
            data.append(rows)
# print("length",len(data))
for j in data:
    a=re.findall(z,j)
    if a:
        print(a)
  1. 导入文件
  1. 建立一个新的文件
  1. 检测导入的文件是否有下一项,如果有,那么就输入新文件中。

import re

import numpy as np

import csv

x=int(input("输入起始行:"))

y=int(input("输入结束行:"))

z=input("输入匹配模式:")

file_path='filename'

data = []

#读取

with open(file_path,encoding='utf-8',) as txtfile:

line=txtfile.readlines()

for i,rows in enumerate(line):

    if i in range(x,y) :  #指定数据哪几行

        print(rows)

        data.append(rows)

print("length",len(data))

for j in data:

a=re.findall(z,j)

if a:

    print(a)

我看了下答案,都没有输入是PDF的,等我明天弄一下

可否提供样例