解析一个公布有一定规律pdf文件，抽取里面需要的关键数值，并保存

紧急！解析一个公布有一定规律pdf文件，抽取里面需要的关键数值，并保存，应该比较简单！
1、希望能用python解决
2、能够保存到本地
3、如果能够解决问题（只要90%能够解决就行），将会给予感谢！

格式一：
公告pdf链接： http://static.cninfo.com.cn/finalpage/2022-02-12/1212351041.PDF

格式二：
公告pdf链接： http://static.sse.com.cn/disclosure/listedinfo/announcement/c/new/2022-05-28/600280_20220528_1_7dEgtJWd.pdf

你可以使用Python中的PDF解析库来解析PDF文件，例如 PyPDF2 或 pdfminer。使用这些库，你可以轻松地抽取PDF中的文本，并使用正则表达式来查找需要的关键数字。

以下是一个大致的步骤：

1.使用 PyPDF2 或 pdfminer 将PDF文件加载到内存中。
2.使用库提供的函数抽取 PDF 中的文本。
3.使用正则表达式来查找需要的数字。
4.将数字保存到本地文件中。
以下是一个示例代码，仅供参考：


import re
import PyPDF2

# 打开 PDF 文件
pdf_file = open('example.pdf', 'rb')

# 读取 PDF 文件
pdf_reader = PyPDF2.PdfReader(pdf_file)

# 将每一页 PDF 转换为字符串
pages = []
for page in pdf_reader.pages:
    text = page.extract_text()
    pages.append(text)

# 合并所有页面的文本
all_text = '\n'.join(pages)

# 使用正则表达式查找数字
pattern = r'\d+\.\d+'  # 查找浮点数
numbers = re.findall(pattern, all_text)

# 将数字写入文件
with open('numbers.txt', 'w') as file:
    for number in numbers:
        file.write(number + '\n')

请注意，PDF 文件的结构可能会因文档而异，因此您可能需要对上述代码进行修改以适应您的 PDF 文件。

要解析一个PDF文件并抽取其中的数据，可以使用Python的pdfminer库。pdfminer库可以将PDF文件解析为文本，然后您可以使用正则表达式或其他方法从中提取所需的数据。

这是一个简单的Python脚本，可以使用pdfminer库读取PDF文件，使用正则表达式抽取所需的数据，并将数据保存到本地文件中：


```import re
from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
from pdfminer.converter import TextConverter
from pdfminer.layout import LAParams
from pdfminer.pdfpage import PDFPage
import io

# 指定PDF文件路径和所需数据的正则表达式
pdf_file = 'example.pdf'
pattern = r'关键数值：(\d+\.\d+)'

# 将PDF文件转换为文本
resource_manager = PDFResourceManager()
retstr = io.StringIO()
layout_params = LAParams(all_texts=True)
device = TextConverter(resource_manager, retstr, laparams=layout_params)
fp = open(pdf_file, 'rb')
interpreter = PDFPageInterpreter(resource_manager, device)

for page in PDFPage.get_pages(fp):
    interpreter.process_page(page)

fp.close()
device.close()
text = retstr.getvalue()
retstr.close()

# 从文本中抽取所需的数据
match = re.search(pattern, text)
if match:
    key_value = match.group(1)
    # 将数据保存到本地文件
    with open('result.txt', 'w') as f:
        f.write(key_value)

在上面的代码中，您需要将example.pdf替换为您要解析的PDF文件的路径。pattern变量是用来匹配所需数据的正则表达式。上面的代码只是一个简单的示例，实际的PDF文件可能需要使用更复杂的正则表达式。

该脚本会将抽取到的数据保存到名为result.txt的文件中。您可以更改文件名以及文件路径等参数来保存到您想要的位置。

```

明天没人写，我给你写。格式比较固定的，还是可以搞的

PDF文件中的数据提取通常需要用到第三方Python库来完成，最常用的是PyPDF2、pdfminer、pypdfocr等库。具体步骤如下：

1.安装PyPDF2库（如果您选择使用其他库，请安装相应的库）
在命令行中输入以下命令来安装PyPDF2库：

pip install PyPDF2

2.导入PyPDF2库
在Python脚本中导入PyPDF2库：

import PyPDF2

3.打开PDF文件
打开需要解析的PDF文件：

pdf_file = open('example.pdf', 'rb')

4.创建一个PDF读取器
创建一个PDF读取器对象，用于读取PDF文件：

pdf_reader = PyPDF2.PdfFileReader(pdf_file)

5.获取PDF页数
获取PDF文件中的页数：

num_pages = pdf_reader.getNumPages()

6.遍历PDF中的页面
遍历PDF文件中的每一页，提取需要的数据：

for page in range(num_pages):
    page_obj = pdf_reader.getPage(page)
    text = page_obj.extractText()
    # 在text中查找需要的关键数值，并保存到本地

7.保存数据到本地
在找到需要的关键数值后，可以将其保存到本地。可以使用Python内置的文件操作函数，如open()和write()：

with open('output.txt', 'w') as f:
    f.write(text)

需要注意的是，PDF文件中的文本提取有时会受到编码和格式的影响，因此可能需要一些特定的技巧来正确地提取文本。另外，如果PDF文件中的数据需要更复杂的处理和分析，您可能需要使用其他Python库或数据分析工具来完成。

希望这些建议能够帮到您！