图片文字识别方案--如何实现自动训练提高识别准确率？

各位大佬好。我最近在学习图片识别文字技术的应用。
选择了google的Tesseract-ocr。
目前学习到的训练方法是，使用jTessBoxEditor人工的调整未准确识别的文字。（测试的身份证）
这种效率太慢了。
我的训练过程从图片tif到最后的traineddata字库都可以自动完成，但是训练中需使用工具调整未准确识别字的过程不能自动完成，我也找不到解决办法。
我也尝试了不调整未正确识别的图片，几十份身份证样例只训练不调整。但是生成的字库识别率没什么变化。难道是量不够？感觉不是行得通。能调整的话事半功倍吧，但是自动化才是可行的路。
所以想请教各位神仙，指点思路。现在很多文字识别软件，人家是怎么练出来的！

人家是找了很多农村妇女做数据标记用大量的样本训练出来的。你样本太少，人工太少，投入的资金太少，自然不行
https://www.sohu.com/a/280497794_100271081

我作为小白，只想说说自己的想法，如果对一幅图片的文字用cnn单独提取出来，数据清洗，锐化一下图像，识别效果应该会更好