tesseract ocr识别问题

自己做的训练集识别的结果，识别出了噪声部分，请问有什么方法不识别出除数字和字母以外的部分没？

6 ZCSU 1264176 510 1142G1

识别出来以后用正则表达式过滤下。

这个图片字母与数字的宽度与噪声的宽度差异还是比较明显的，可以用根据字符宽度对噪声进行过滤，然后再识别。