解析一个公布有一定规律pdf文件,抽取里面需要的关键数值,并保存

紧急!解析一个公布有一定规律pdf文件,抽取里面需要的关键数值,并保存,应该比较简单!
1、希望能用python解决
2、能够保存到本地
3、如果能够解决问题(只要90%能够解决就行),将会给予感谢!

格式一:
公告pdf链接: http://static.cninfo.com.cn/finalpage/2022-02-12/1212351041.PDF

img


格式二:
公告pdf链接: http://static.sse.com.cn/disclosure/listedinfo/announcement/c/new/2022-05-28/600280_20220528_1_7dEgtJWd.pdf

img

你可以使用Python中的PDF解析库来解析PDF文件,例如 PyPDF2 或 pdfminer。使用这些库,你可以轻松地抽取PDF中的文本,并使用正则表达式来查找需要的关键数字。

以下是一个大致的步骤:

1.使用 PyPDF2 或 pdfminer 将PDF文件加载到内存中。
2.使用库提供的函数抽取 PDF 中的文本。
3.使用正则表达式来查找需要的数字。
4.将数字保存到本地文件中。
以下是一个示例代码,仅供参考:


import re
import PyPDF2

# 打开 PDF 文件
pdf_file = open('example.pdf', 'rb')

# 读取 PDF 文件
pdf_reader = PyPDF2.PdfReader(pdf_file)

# 将每一页 PDF 转换为字符串
pages = []
for page in pdf_reader.pages:
    text = page.extract_text()
    pages.append(text)

# 合并所有页面的文本
all_text = '\n'.join(pages)

# 使用正则表达式查找数字
pattern = r'\d+\.\d+'  # 查找浮点数
numbers = re.findall(pattern, all_text)

# 将数字写入文件
with open('numbers.txt', 'w') as file:
    for number in numbers:
        file.write(number + '\n')

请注意,PDF 文件的结构可能会因文档而异,因此您可能需要对上述代码进行修改以适应您的 PDF 文件。

要解析一个PDF文件并抽取其中的数据,可以使用Python的pdfminer库。pdfminer库可以将PDF文件解析为文本,然后您可以使用正则表达式或其他方法从中提取所需的数据。

这是一个简单的Python脚本,可以使用pdfminer库读取PDF文件,使用正则表达式抽取所需的数据,并将数据保存到本地文件中:


```import re
from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
from pdfminer.converter import TextConverter
from pdfminer.layout import LAParams
from pdfminer.pdfpage import PDFPage
import io

# 指定PDF文件路径和所需数据的正则表达式
pdf_file = 'example.pdf'
pattern = r'关键数值:(\d+\.\d+)'

# 将PDF文件转换为文本
resource_manager = PDFResourceManager()
retstr = io.StringIO()
layout_params = LAParams(all_texts=True)
device = TextConverter(resource_manager, retstr, laparams=layout_params)
fp = open(pdf_file, 'rb')
interpreter = PDFPageInterpreter(resource_manager, device)

for page in PDFPage.get_pages(fp):
    interpreter.process_page(page)

fp.close()
device.close()
text = retstr.getvalue()
retstr.close()

# 从文本中抽取所需的数据
match = re.search(pattern, text)
if match:
    key_value = match.group(1)
    # 将数据保存到本地文件
    with open('result.txt', 'w') as f:
        f.write(key_value)

在上面的代码中,您需要将example.pdf替换为您要解析的PDF文件的路径。pattern变量是用来匹配所需数据的正则表达式。上面的代码只是一个简单的示例,实际的PDF文件可能需要使用更复杂的正则表达式。

该脚本会将抽取到的数据保存到名为result.txt的文件中。您可以更改文件名以及文件路径等参数来保存到您想要的位置。


```

明天没人写,我给你写。格式比较固定的,还是可以搞的

PDF文件中的数据提取通常需要用到第三方Python库来完成,最常用的是PyPDF2、pdfminer、pypdfocr等库。具体步骤如下:

1.安装PyPDF2库(如果您选择使用其他库,请安装相应的库)
在命令行中输入以下命令来安装PyPDF2库:

pip install PyPDF2

2.导入PyPDF2库
在Python脚本中导入PyPDF2库:

import PyPDF2

3.打开PDF文件
打开需要解析的PDF文件:

pdf_file = open('example.pdf', 'rb')

4.创建一个PDF读取器
创建一个PDF读取器对象,用于读取PDF文件:

pdf_reader = PyPDF2.PdfFileReader(pdf_file)

5.获取PDF页数
获取PDF文件中的页数:

num_pages = pdf_reader.getNumPages()

6.遍历PDF中的页面
遍历PDF文件中的每一页,提取需要的数据:

for page in range(num_pages):
    page_obj = pdf_reader.getPage(page)
    text = page_obj.extractText()
    # 在text中查找需要的关键数值,并保存到本地

7.保存数据到本地
在找到需要的关键数值后,可以将其保存到本地。可以使用Python内置的文件操作函数,如open()和write():

with open('output.txt', 'w') as f:
    f.write(text)

需要注意的是,PDF文件中的文本提取有时会受到编码和格式的影响,因此可能需要一些特定的技巧来正确地提取文本。另外,如果PDF文件中的数据需要更复杂的处理和分析,您可能需要使用其他Python库或数据分析工具来完成。

希望这些建议能够帮到您!