Python中圖片與pdf識別文本的方法總結(jié)(OCR)
1、PaddleOCR:
基于百度飛槳框架開發(fā),模型豐富,支持多語言識別,包括中文、英文等。性能強大,適合復(fù)雜場景的文字識別
安裝 PaddleOCR 庫:
pip install paddleocr
示例代碼
from paddleocr import PaddleOCR, draw_ocr from PIL import Image # 初始化 PaddleOCR # 參數(shù)解釋: # `lang`:指定語言模型,如 'en'(英文)、'ch'(中文)等。 # `use_angle_cls`:是否啟用文字方向分類器。 ocr = PaddleOCR(use_angle_cls=True, lang='en') # 也可以設(shè)置為 'ch' 用于中文[^28^] # 指定圖片路徑 img_path = 'example.jpg' # 替換為你的圖片路徑 # 執(zhí)行 OCR 識別 result = ocr.ocr(img_path, cls=True) # `cls=True` 表示啟用方向分類器 # 打印識別結(jié)果 for line in result: print(line) # 可選:繪制識別結(jié)果并保存 if result: image = Image.open(img_path).convert('RGB') boxes = [line[0] for line in result] # 提取文字框 txts = [line[1][0] for line in result] # 提取文字內(nèi)容 scores = [line[1][1] for line in result] # 提取置信度 # 繪制結(jié)果 im_show = draw_ocr(image, boxes, txts, scores, font_path='path/to/PaddleOCR/doc/fonts/simfang.ttf') im_show = Image.fromarray(im_show) im_show.save('result.jpg') # 保存繪制后的圖片[^28^]
2、RapidOCR
首先,確保安裝了 RapidOCR 的 ONNXRuntime 版本,這是一個輕量級且高效的推理引擎:
pip install rapidocr_onnxruntime
示例代碼:識別數(shù)字和字母
以下代碼展示了如何使用 RapidOCR 識別圖片中的數(shù)字和字母,并僅打印識別結(jié)果:
from rapidocr_onnxruntime import RapidOCR # 初始化 OCR 引擎 ocr = RapidOCR() # 指定圖片路徑 img_path = 'example.jpg' # 替換為你的圖片路徑 # 執(zhí)行識別 result, _ = ocr(img_path) # 提取并打印識別結(jié)果(僅數(shù)字和字母) if result: for line in result: text = line[1] # 提取文字內(nèi)容 # 篩選只包含數(shù)字和字母的文本 if text.isalnum(): print(text) else: print("未識別到文字")
注意事項
- 圖片路徑:確保
img_path
指向的圖片包含數(shù)字或字母。 - 語言設(shè)置:默認情況下,RapidOCR 支持中英文混合識別。如果需要識別其他語言,可以參考文檔進行配置。
- 環(huán)境要求:確保 Python 版本為 3.6 或更高。
3、EasyOCR
特點:易于使用,支持多種語言(包括中文、英文等),基于深度學(xué)習(xí)技術(shù),適合初學(xué)者和快速集成。
安裝方法:
pip install easyocr
使用示例:
import easyocr reader = easyocr.Reader(['en', 'ch_sim']) # 支持多語言 img_path = 'example.jpg' result = reader.readtext(img_path) for line in result: print(line[1]) # 打印識別結(jié)果
4、Pytesseract
特點:Tesseract 的 Python 封裝,支持多種語言,使用簡單,適合傳統(tǒng) OCR 任務(wù)。
安裝方法:
pip install pytesseract
需要先安裝 Tesseract OCR,可以從 Tesseract 官網(wǎng) 下載。
使用示例:
from PIL import Image import pytesseract img_path = 'example.jpg' text = pytesseract.image_to_string(Image.open(img_path), lang='eng') print(text) # 打印識別結(jié)果
5、DocTR
特點:專注于文檔分析和表格識別,能夠提取文檔中的結(jié)構(gòu)化信息,適合處理復(fù)雜布局的文檔。
安裝方法:
pip install python-doctr
使用示例:
from doctr.models import ocr_predictor from doctr.io import DocumentFile img_path = 'example.jpg' doc = DocumentFile.from_images(img_path) model = ocr_predictor(pretrained=True) result = model(doc) for block in result.pages[0].blocks: for line in block.lines: for word in line.words: print(word.value) # 打印識別結(jié)果
6、PyOCR
特點:封裝了多個 OCR 引擎(如 Tesseract、Cuneiform 等),提供了統(tǒng)一的接口。
安裝方法:
pip install pyocr
使用示例:
import pyocr from PIL import Image tools = pyocr.get_available_tools() ocr_tool = tools[0] img_path = 'example.jpg' text = ocr_tool.image_to_string(Image.open(img_path), lang='eng') print(text) # 打印識別結(jié)果
選擇建議:
速度優(yōu)先:推薦使用 RapidOCR 或 EasyOCR。
準確性優(yōu)先:推薦使用 PaddleOCR。
易用性優(yōu)先:推薦使用 EasyOCR。
文檔分析優(yōu)先:推薦使用 docTR。
注意:根據(jù)你的具體需求(如語言支持、應(yīng)用場景、性能要求等),可以選擇最適合的 OCR 庫。
總結(jié)
到此這篇關(guān)于Python中圖片與pdf識別文本的文章就介紹到這了,更多相關(guān)Python圖片與pdf識別文本內(nèi)容請搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!
相關(guān)文章
Python應(yīng)用實現(xiàn)雙指數(shù)函數(shù)及擬合代碼實例
這篇文章主要介紹了Python應(yīng)用實現(xiàn)雙指數(shù)函數(shù)及擬合代碼實例,文中通過示例代碼介紹的非常詳細,對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價值,需要的朋友可以參考下2020-06-06pytorch tensor int型除法出現(xiàn)的問題
這篇文章主要介紹了pytorch tensor int型除法出現(xiàn)的問題,具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧2021-04-04利用Pycharm將python文件打包為exe文件的超詳細教程(附帶設(shè)置文件圖標)
在日常使用pycharm寫好程序后,如何將程序打包為exe文件呢,下面這篇文章主要給大家介紹了關(guān)于利用Pycharm將python文件打包為exe文件的超詳細教程,附帶設(shè)置文件圖標,需要的朋友可以參考下2022-08-08Pandas數(shù)據(jù)合并的始終高效技巧與常見問題
在數(shù)據(jù)分析工作中,我們經(jīng)常需要處理來自多個來源的數(shù)據(jù)集,當(dāng)合并來自20個不同地區(qū)的銷售數(shù)據(jù)時,可能會發(fā)現(xiàn)部分列意外丟失,如果您曾經(jīng)因數(shù)據(jù)合并問題而感到困擾,本文將為您提供系統(tǒng)的解決方案,需要的朋友可以參考下2025-05-05Python實現(xiàn)PS圖像調(diào)整之對比度調(diào)整功能示例
這篇文章主要介紹了Python實現(xiàn)PS圖像調(diào)整之對比度調(diào)整功能,結(jié)合實例形式分析了Python實現(xiàn)PS圖像對比度調(diào)整的原理、實現(xiàn)方法及相關(guān)操作技巧,需要的朋友可以參考下2018-01-01