各位大佬好。我最近在学习图片识别文字技术的应用。
选择了google的Tesseract-ocr。
目前学习到的训练方法是,使用jTessBoxEditor人工的调整未准确识别的文字。(测试的身份证)
这种效率太慢了。
我的训练过程从图片tif到最后的traineddata字库都可以自动完成,但是训练中需使用工具调整未准确识别字的过程不能自动完成,我也找不到解决办法。
我也尝试了不调整未正确识别的图片,几十份身份证样例只训练不调整。但是生成的字库识别率没什么变化。难道是量不够?感觉不是行得通。能调整的话事半功倍吧,但是自动化才是可行的路。
所以想请教各位神仙,指点思路。现在很多文字识别软件,人家是怎么练出来的!
人家是找了很多农村妇女做数据标记用大量的样本训练出来的。你样本太少,人工太少,投入的资金太少,自然不行
https://www.sohu.com/a/280497794_100271081
我作为小白,只想说说自己的想法,如果对一幅图片的文字用cnn单独提取出来,数据清洗,锐化一下图像,识别效果应该会更好