快捷導(dǎo)航

Python中圖片與pdf識別文本的方法總結(jié)(OCR)

更新時間：2025年06月12日 09:52:07 作者：幸福清風(fēng)

在Python編程語言中,我們可以利用各種庫來實現(xiàn)OCR功能,以便從PDF文檔中的圖片部分提取文本信息,這篇文章主要介紹了Python中圖片與pdf識別文本的相關(guān)資料,需要的朋友可以參考下

1、PaddleOCR：

基于百度飛槳框架開發(fā)，模型豐富，支持多語言識別，包括中文、英文等。性能強大，適合復(fù)雜場景的文字識別

安裝 PaddleOCR 庫：

pip install paddleocr

示例代碼

from paddleocr import PaddleOCR, draw_ocr
from PIL import Image

# 初始化 PaddleOCR
# 參數(shù)解釋：
# `lang`：指定語言模型，如 'en'（英文）、'ch'（中文）等。
# `use_angle_cls`：是否啟用文字方向分類器。
ocr = PaddleOCR(use_angle_cls=True, lang='en')  # 也可以設(shè)置為 'ch' 用于中文[^28^]

# 指定圖片路徑
img_path = 'example.jpg'  # 替換為你的圖片路徑

# 執(zhí)行 OCR 識別
result = ocr.ocr(img_path, cls=True)  # `cls=True` 表示啟用方向分類器

# 打印識別結(jié)果
for line in result:
    print(line)

# 可選：繪制識別結(jié)果并保存
if result:
    image = Image.open(img_path).convert('RGB')
    boxes = [line[0] for line in result]  # 提取文字框
    txts = [line[1][0] for line in result]  # 提取文字內(nèi)容
    scores = [line[1][1] for line in result]  # 提取置信度

    # 繪制結(jié)果
    im_show = draw_ocr(image, boxes, txts, scores, font_path='path/to/PaddleOCR/doc/fonts/simfang.ttf')
    im_show = Image.fromarray(im_show)
    im_show.save('result.jpg')  # 保存繪制后的圖片[^28^]

2、RapidOCR

首先，確保安裝了 RapidOCR 的 ONNXRuntime 版本，這是一個輕量級且高效的推理引擎：

pip install rapidocr_onnxruntime

示例代碼：識別數(shù)字和字母

以下代碼展示了如何使用 RapidOCR 識別圖片中的數(shù)字和字母，并僅打印識別結(jié)果：

from rapidocr_onnxruntime import RapidOCR

# 初始化 OCR 引擎
ocr = RapidOCR()

# 指定圖片路徑
img_path = 'example.jpg'  # 替換為你的圖片路徑

# 執(zhí)行識別
result, _ = ocr(img_path)

# 提取并打印識別結(jié)果（僅數(shù)字和字母）
if result:
    for line in result:
        text = line[1]  # 提取文字內(nèi)容
        # 篩選只包含數(shù)字和字母的文本
        if text.isalnum():
            print(text)
else:
    print("未識別到文字")

注意事項

圖片路徑：確保 img_path 指向的圖片包含數(shù)字或字母。
語言設(shè)置：默認情況下，RapidOCR 支持中英文混合識別。如果需要識別其他語言，可以參考文檔進行配置。
環(huán)境要求：確保 Python 版本為 3.6 或更高。

3、EasyOCR

特點：易于使用，支持多種語言（包括中文、英文等），基于深度學(xué)習(xí)技術(shù)，適合初學(xué)者和快速集成。
安裝方法：
```
pip install easyocr
```

使用示例：

import easyocr

reader = easyocr.Reader(['en', 'ch_sim'])  # 支持多語言
img_path = 'example.jpg'
result = reader.readtext(img_path)
for line in result:
    print(line[1])  # 打印識別結(jié)果

4、Pytesseract

特點：Tesseract 的 Python 封裝，支持多種語言，使用簡單，適合傳統(tǒng) OCR 任務(wù)。
安裝方法：
```
pip install pytesseract
```
需要先安裝 Tesseract OCR，可以從 Tesseract 官網(wǎng) 下載。

使用示例：

from PIL import Image
import pytesseract

img_path = 'example.jpg'
text = pytesseract.image_to_string(Image.open(img_path), lang='eng')
print(text)  # 打印識別結(jié)果

5、DocTR

特點：專注于文檔分析和表格識別，能夠提取文檔中的結(jié)構(gòu)化信息，適合處理復(fù)雜布局的文檔。
安裝方法：
```
pip install python-doctr
```

使用示例：

from doctr.models import ocr_predictor
from doctr.io import DocumentFile

img_path = 'example.jpg'
doc = DocumentFile.from_images(img_path)
model = ocr_predictor(pretrained=True)
result = model(doc)
for block in result.pages[0].blocks:
    for line in block.lines:
        for word in line.words:
            print(word.value)  # 打印識別結(jié)果

6、PyOCR

特點：封裝了多個 OCR 引擎（如 Tesseract、Cuneiform 等），提供了統(tǒng)一的接口。
安裝方法：
```
pip install pyocr
```

使用示例：

import pyocr
from PIL import Image

tools = pyocr.get_available_tools()
ocr_tool = tools[0]
img_path = 'example.jpg'
text = ocr_tool.image_to_string(Image.open(img_path), lang='eng')
print(text)  # 打印識別結(jié)果

選擇建議：