Tesseract-OCR训练识别验证码有什么高效的办法吗

发布网友发布时间：2022-05-03 12:05

共1个回答

热心网友时间：2022-06-19 19:55

1. 采集图片库（一般每个出现的字符出现20次左右识别效果比较好），根据图片特点进行初步处理（二值化/灰度化/滤波/降噪等处理），并保存为.tif格式（x.tif)；
2. 使用JTessBoxEditor ,将得到的.tif图片合并为一张图片（Tool—>MergeTiff）；
3. 下载安装tesseract-ocr-setup-3.01-1.exe；
4. 安装后，运行命令行到.tif格式（x.tif)文件夹中，输入tesseract.exe x.tif x batch.nochop makebox;(PS:保存为同名同文件夹下）
5. 使用JTessBoxEditor打开x.tif文件进行逐个校正；（PS:每次校正后都得保存）
6.校正后，命令行执行：
tesseract.exe x.tif x nobatch box.train;
unicharset_extractor.exe x.box;
7. 在目录下建立名为“font_properties”的文件，并输入内容：x 1 0 0 1 0；
8.命令行执行：
cntraining.exe x.tr;
mftraining.exe –F font_properties –U unicharset x.tr;
9. 将目录下生成的文件其中几个unicharset/inttemp/normproto/pffmtable文件加上训练名前缀“x.”;
10.命令行执行：
combine_tessdata x. 生成最终的校验学习数据x.traineddata文件；