使用Python中的pytesseract模塊實現(xiàn)抓取圖片中文字
一、需求分析
最近同事用網(wǎng)上提供掃描軟件進行掃描識別文字,每天上線只能夠做兩次掃描,請求我研發(fā)一個小工具幫助解決識別圖片的中文字。
二、方案選擇
使用pytesseract模塊可以解決這個需求問題,pytesseract是光識別圖片的模塊。需要安裝第三方資源庫進行搜索。
三、實驗實操
3.1、配置環(huán)境
Anaconda3.0,pycharm2022版,python3.7.0,win10
3.2、 Anaconda配置
先配置Anaconda3的環(huán)境,找到默認安裝路徑C:\Users\Administrator\.condarc(看自己環(huán)境安裝哪里)
將.condarc文件備份一個,然后加載源的配置項拷貝進去,重啟Anaconda3程序,生效配置項。
加載源:
channels:
- http://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free/
- http://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/conda-forge/
- http://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/msys2/
- http://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/bioconda/
- http://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main/
show_channel_urls: true
ssl_verify: true
3.3、安裝tesseract程序
下載tesseract的exe安裝文件,安裝包地址:https://github.com/UB-Mannheim/tesseract/wiki
我下的是 tesseract-ocr-w64-setup-v5.0.1.20220118.exe版本。(本機是64位操作系統(tǒng))
選配項中記得選擇中文的語言,后期識別中文字體做準備。
配置tesseract系統(tǒng)環(huán)境變量,將 tesseract-ocr的絕對路徑配置在系統(tǒng)變量中。
【從C:\Program Files\Tesseract-OCR安裝目錄下,直接把tessdata 文件夾里的內(nèi)容都復制到C:\Users\Administrator\Anaconda3,另外tessdata 文件夾里chi_sim.traineddata,eng.traineddata文件需要復制到C:\ProgramData\Anaconda3下,不然后面運行程序會提示找不到文件,配置好環(huán)境變量也不行!】(據(jù)說是霸王條款)
重啟系統(tǒng)讓變量生效。
3.4、安裝pytesseract模塊
運行Anaconda 終端命令,執(zhí)行conda install tesserocr pillow
系統(tǒng)已經(jīng)顯示我已經(jīng)安裝。(安裝的時間有一些長,需要耐性等待。)
執(zhí)行另外一個指令conda install pytesseract (安裝pytesseract,這個安裝需要一點時間等待了)
使用python語句進行驗證。
3.5、見證奇跡的環(huán)節(jié)
測試1:
在pycharm編譯器中執(zhí)行語句操作:
from PIL import Image import pytesseract image = Image.open("粉絲.jpg") #打開圖片 #print(image.size) #測試圖片像素尺寸 text = pytesseract.image_to_string(image, lang='chi_sim') #圖片轉(zhuǎn)字符串 text = text.replace("“ ","").replace("。","") #去掉雜質(zhì),提純 print(text) #測試結(jié)果
原圖片粉絲.jpg:
編譯結(jié)果:.(已經(jīng)成功識別圖片內(nèi)部的文字,進行呈現(xiàn)。)
測試2:
原圖2
測試結(jié)果:可以正常識別圖片文字出來了。
參考網(wǎng)友知識:
anaconda+python+tesseract安裝,親試可用
到此這篇關于使用Python中的pytesseract模塊實現(xiàn)抓取圖片中文字的文章就介紹到這了,更多相關Python pytesseract模塊抓取圖片中文字內(nèi)容請搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關文章希望大家以后多多支持腳本之家!
相關文章
Django 用戶登陸訪問限制實例 @login_required
這篇文章主要介紹了Django 用戶登陸訪問限制實例 @login_required,具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧2020-05-05使用Python合并Excel文件中的多個Sheet的實現(xiàn)過程
在Python中,可以使用pandas庫來處理Excel文件,將多個工作表(sheets)合并為一個工作表,以下是一個詳細的代碼示例,展示了如何實現(xiàn)這一功能,文中有相關的代碼供大家參考,需要的朋友可以參考下2024-10-10探索Python?Furl高性能URL構(gòu)建解析和操作功能實例
本文將提供關于Python?Furl的全面指南,包括安裝和配置、基本概念、URL解析、URL構(gòu)建、查詢參數(shù)操作、片段處理、實際應用場景以及豐富的示例代碼2024-01-013個Python?SQLAlchemy數(shù)據(jù)庫操作功能詳解
Python?SQLAlchemy?是一個強大且多功能的?Python?SQL?工具包和對象關系映射?(ORM)?系統(tǒng),提供了一整套眾所周知的企業(yè)級持久性模式,本文為大家整理了它必須了解的3個數(shù)據(jù)庫操作功能,希望對大家有所幫助2023-09-09python實現(xiàn)Android與windows局域網(wǎng)文件夾同步
這篇文章主要給大家詳細介紹了python實現(xiàn)Android與windows局域網(wǎng)文件夾同步,文中有詳細的代碼示例和圖文介紹,具有一定的參考價值,需要的朋友可以參考下2023-09-09