Tesseract-OCR训练识别验证码有什么高效的办法吗
发布网友
发布时间:2022-05-03 12:05
我来回答
共1个回答
热心网友
时间:2022-06-19 19:55
1. 采集图片库(一般每个出现的字符出现20次左右识别效果比较好),根据图片特点进行初步处理(二值化/灰度化/滤波/降噪等处理),并保存为.tif格式(x.tif);
2. 使用JTessBoxEditor ,将得到的.tif图片合并为一张图片(Tool—>MergeTiff);
3. 下载安装tesseract-ocr-setup-3.01-1.exe;
4. 安装后,运行命令行到.tif格式(x.tif)文件夹中,输入tesseract.exe x.tif x batch.nochop makebox;(PS:保存为 同名同文件夹下)
5. 使用JTessBoxEditor打开x.tif文件进行逐个校正;(PS:每次校正后都得保存)
6.校正后,命令行执行:
tesseract.exe x.tif x nobatch box.train;
unicharset_extractor.exe x.box;
7. 在目录下建立名为“font_properties”的文件,并输入内容:x 1 0 0 1 0;
8.命令行执行:
cntraining.exe x.tr;
mftraining.exe –F font_properties –U unicharset x.tr;
9. 将目录下生成的文件其中几个unicharset/inttemp/normproto/pffmtable文件加上训练名前缀“x.”;
10.命令行执行:
combine_tessdata x. 生成最终的校验学习数据x.traineddata文件;