扫描一页双面文件分别生产两张图片,01B和01F
现需要识别01B圆框位置中的献浆证号,识别结果为:4400401211;
然后识别01F圆框位置中的日期,识别结果为:20210821;
最后根据识别出来的内容对两张图片分别命名为:01B→202108214400401211B,01F→202108214400401211F;
命名规则:日期+献浆证号+B(F)
最终完成结果为下图:
每天会产生500张图片以为,就是01B、01F→500B、500F
python的话,可能要装一个插件。
运用numpy的裁剪功能,先从图片里把要识别区域裁剪出来,在进行OCR
这里边的难点是 手写字体怎么才能识别准确呢?机打的就比较好识别了
试了下 开源的Tesseract-OCR是没法用
只保留输入区也是识别不出来: