成都全网营销型网站,网站免费建站系统,手机app商城,什么是网站评价OCR#xff1a;即Optical Character Recognition#xff0c;光学字符识别#xff0c;是指检查纸或者图片上打印的字符#xff0c;通过检测暗、亮的模式确定其形状#xff0c;然后用字符识别方法将形状翻译成计算机文字的过程#xff1b; Tesseract-OCR#xff1a;一款由… OCR即Optical Character Recognition光学字符识别是指检查纸或者图片上打印的字符通过检测暗、亮的模式确定其形状然后用字符识别方法将形状翻译成计算机文字的过程 Tesseract-OCR一款由HP实验室惠普布里斯托实验室开发由Google维护的开源OCR引擎可以经过不断的训练增强图像转换文本的能力Tesseract-OCR 也经常被用于Python爬虫的验证码识别 1、下载安装Tesseract-OCR
官方GitHub地址https://github.com/tesseract-ocr/
下载地址一https://github.com/UB-Mannheim/tesseract/wiki 仅Windows操作系统最新版本 下载地址二https://digi.bib.uni-mannheim.de/tesseract/ 仅Windows操作系统历史版本 下载地址三https://github.com/tesseract-ocr/tesseract/wiki 其他操作系统
以下以 V5.0.0 版本为例进行安装双击 tesseract-ocr-w64-setup-v5.0.0-alpha.20190708.exe 安装程序基本上一直next就OK了注意要勾选 Additional language data(download) 安装OCR识别支持的语言包 在这里勾选 Additional language data(download) 安装OCR识别支持的语言包在安装语言包时会比较慢所以建议不要全选根据需要选择即可若后期需要增加语言包可在官网下载后放到Tesseract-OCR\tessdata\tessconfigs目录下即可不同版本的对应的语言包也不同下载地址https://github.com/tesseract-ocr/tesseract/wiki/Data-Files#data-files-for-version-302
2、配置环境变量
依次右键【此电脑】-【属性】-【高级系统设置】-【环境变量】在【系统变量】里找到【Path】变量选择【编辑】-【新建】将你的Tesseract-OCR安装路径填写进去比如我的是E:\Tesseract-OCR点击确定保存即可
3、测试是否成功安装
打开cmd输入 tesseract 会显示一些 Tesseract-OCR 相关用法提示输入 tesseract -v 可以查看到 Tesseract-OCR 的版本信息说明此时安装成功
4、基本用法
完整命令tesseract 图片路径和图片名 结果路径和结果名 -l 语言 举例tesseract F:\code\test.png F:\code\result -l eng 注意 1、需要识别的图片要加后缀 2、结果文件名不需要加后缀会自动加后缀生成的是txt文件 3、-l 是英文字母l不是数字1language 语言的意思不加默认英文 4、eng 表示英文chi_sim 表示简体中文 5、将cmd切换到要识别图片的文件夹后就不用加图片路径 在 Python 中使用需要安装 pytesseract 库
import pytesseract
from PIL import Image# 打开图片
img Image.open(图片路径和图片名)
# 识别图片
print(pytesseract.image_to_string(img))