批量将下面的图片中红框中的文字提取
准确导入到EXECL表格的单元格中(每一个图片新建一个EXECL表格文件,名称为委托编号)
我刚好会, 顺便可以指导你用C#来实现 写完可以发你源代码 我的思路是用OCR来实现识别文字 最后 用MiniExcel来写入 到表格中 如果需要的话 可以私信我
可以的,但是我写不动了。。给你一个思路,将图片进行文字本土化,就是转换成字典,在使用ocr技术识别文字定位excel具体单元格,这是相关链接,希望后续的人看到能利用gpt实现:
https://builtin.com/data-science/python-ocr
** ORC 读取到后 在保存到EXCEL里面导出就行**
这个东西直接用阿里云的接口然后自己写个脚本整理到excel中即可。准确度还高。
使用python的图片识别类库,把图片的内容识别出来,然后根据图片中字段的位置进行解析出你需要使用的字段,这个解析会比较麻烦些,会存在解析的误差。解析之后。
首先创建一个excel模板,然后把Excel模板需要填充的位置做好标记,找到处理excel的类库进行数据标记好的位置填充。
第二个excel表格更加简单解析后,先读取excel,然后追加行就行了。
python
from PIL import Image
import pytesseract
# 读取图片
img = Image.open('image.png')
# 使用pytesseract识别图片中的文字
text = pytesseract.image_to_string(img, lang='chi_sim')
python
from openpyxl import Workbook, load_workbook
# 新建Excel文件或打开已有文件
wb = Workbook()
sheet = wb.active
# 向指定单元格中写入文字
sheet['A1'] = text
# 保存Excel文件
wb.save('example.xlsx')
python
from PIL import Image
import pytesseract
from openpyxl import Workbook, load_workbook
# 新建Excel文件或打开已有文件
wb = Workbook()
sheet = wb.active
# 循环读取多张图片并识别文字
for i in range(1, 11):
# 读取图片
img = Image.open(f'image_{i}.png')
# 使用pytesseract识别图片中的文字
text = pytesseract.image_to_string(img, lang='chi_sim')
# 将识别结果导入到指定Excel单元格中
cell_pos = f'A{i}' # 根据图片序号确定格子位置
sheet[cell_pos] = text
# 保存Excel文件
wb.save('example.xlsx')
可以使用Python中的一些第三方库来实现这个功能。以下是一个简单的示例,它使用了Python的pytesseract
库来识别图片中的文本,并将其插入到指定的Excel单元格中。需要注意的是,你需要先安装tesseract
OCR引擎以及相关的Python库。
import pytesseract
import cv2
import openpyxl
# 加载图片
img = cv2.imread('image.png')
# 使用tesseract识别图片中的文本
text = pytesseract.image_to_string(img)
# 打开Excel文件
wb = openpyxl.load_workbook('example.xlsx')
# 选择要操作的工作表和单元格
ws = wb['Sheet1']
cell = ws['A1']
# 将识别到的文本插入到单元格中
cell.value = text
# 保存Excel文件
wb.save('example.xlsx')
在这个示例中,我们首先使用cv2
库加载要识别的图片。然后,我们使用pytesseract
库对图片进行OCR识别,将识别结果存储在变量text
中。
接下来,我们使用openpyxl
库打开Excel文件,选择要操作的工作表和单元格,并将识别到的文本插入到单元格中。最后,我们保存Excel文件。
需要注意的是,这个示例只是一个简单的演示,实际使用时可能需要根据具体需求进行调整。