1、先下载安装 tesseract 并安装受训语言包 至少有chi_sim、eng、equ; 2、系统环境变量将 tesseract 安装目录加上,并新建一个变量 TESSDATA_PREFIX 变量值为C:\Program Files (x86)\Tesseract-OCR\tessdata即安装目录加\tessdata; 3、可以在命令框中直接运行tessdata,语法为 tesseract 1.jpg 1.txt -l chi_sim+equ+eng 即tesseract +输入+输出+参数+语言包; 3、python调用 先 pip install pytessdata ,在pytesseract库文件中进行配置,找到安装路径\Lib\site-packages\pytesseract下的pytesseract.py文件,打开后找到一下这句代码:tesseract_cmd = 'tesseract' 将字符串’tesseract’替换成你的tesseract-ocr的安装路径(e.g.‘F:\Program_File\Tesseract-OCR\tesseract.exe’) 4、核心代码 string = pytesseract.image_to_string(im,lang='chi_sim') 多个识别语言包同时运作 则 lang='chi_sim+eng+equ' import pytesseract,os from PIL import Image path = input('输入文字识别文件夹地址') piclist = [path+'\\'+i for i in os.listdir(path) if '.jpg' in i] wordfile = '' for i in piclist: im = Image.open(i) string = pytesseract.image_to_string(im,lang='chi_sim') wordfile += string wordname = input('输入保存文件名')+'.txt' with open (wordname,'w') as f: f.write(wordfile) f.close()