快捷導(dǎo)航

Python?paddleocr快速使用及參數(shù)配置詳解

更新時(shí)間：2024年06月04日 17:11:22 作者：ElaineTiger

PaddleOCR是基于PaddlePaddle深度學(xué)習(xí)框架的開(kāi)源OCR工具,但它提供了推理模型/訓(xùn)練模型/預(yù)訓(xùn)練模型,用戶可以直接使用推理模型進(jìn)行識(shí)別,也可以對(duì)訓(xùn)練模型或預(yù)訓(xùn)練模型進(jìn)行再訓(xùn)練,這篇文章主要介紹了Python?paddleocr快速使用及參數(shù)詳解,需要的朋友可以參考下

PaddleOCR是基于PaddlePaddle深度學(xué)習(xí)框架的開(kāi)源OCR工具，但它提供了推理模型/訓(xùn)練模型/預(yù)訓(xùn)練模型，用戶可以直接使用推理模型進(jìn)行識(shí)別，也可以對(duì)訓(xùn)練模型或預(yù)訓(xùn)練模型進(jìn)行再訓(xùn)練。支持約80種語(yǔ)言的文本識(shí)別，并具有較高的準(zhǔn)確性和速度。

1. paddleocr快速使用

1.1 使用默認(rèn)模型路徑

import cv2
from paddleocr import PaddleOCR
# 使用默認(rèn)模型路徑
paddleocr = PaddleOCR(lang='ch', show_log=False)
img = cv2.imread('ch2.jpg')  # 打開(kāi)需要識(shí)別的圖片
result = paddleocr.ocr(img)
for i in range(len(result[0])):
    print(result[0][i][1][0])   # 輸出識(shí)別結(jié)果

1.2 設(shè)定模型路徑

import cv2
from paddleocr import PaddleOCR
# 設(shè)定模型路徑
paddleocr = PaddleOCR(lang='ch', show_log=False, 
                      det_model_dir='.paddleocr\\whl\\det\\ch\\ch_PP-OCRv4_det_infer',
                      rec_model_dir='.paddleocr\\whl\\rec\\ch\\ch_PP-OCRv4_rec_infer') # 推理模型路徑
img = cv2.imread('ch2.jpg')  # 打開(kāi)需要識(shí)別的圖片
result = paddleocr.ocr(img)
for i in range(len(result[0])):
    print(result[0][i][1][0])   # 輸出識(shí)別結(jié)果

2. PaddleOCR其他參數(shù)介紹

PaddleOCR模型推理參數(shù)解釋

在使用PaddleOCR進(jìn)行模型推理時(shí)，可以自定義修改參數(shù)，來(lái)修改模型、數(shù)據(jù)、預(yù)處理、后處理等內(nèi)容，詳細(xì)的參數(shù)解釋如下所示。

全局信息

參數(shù)名稱	類型	默認(rèn)值	含義
image_dir	str	無(wú)，必須顯式指定	圖像或者文件夾路徑
page_num	int	0	當(dāng)輸入類型為pdf文件時(shí)有效，指定預(yù)測(cè)前面page_num頁(yè)，默認(rèn)預(yù)測(cè)所有頁(yè)
vis_font_path	str	“./doc/fonts/simfang.ttf”	用于可視化的字體路徑
drop_score	float	0.5	識(shí)別得分小于該值的結(jié)果會(huì)被丟棄，不會(huì)作為返回結(jié)果
use_pdserving	bool	False	是否使用Paddle Serving進(jìn)行預(yù)測(cè)
warmup	bool	False	是否開(kāi)啟warmup，在統(tǒng)計(jì)預(yù)測(cè)耗時(shí)的時(shí)候，可以使用這種方法
draw_img_save_dir	str	“./inference_results”	系統(tǒng)串聯(lián)預(yù)測(cè)OCR結(jié)果的保存文件夾
save_crop_res	bool	False	是否保存OCR的識(shí)別文本圖像
crop_res_save_dir	str	“./output”	保存OCR識(shí)別出來(lái)的文本圖像路徑
use_mp	bool	False	是否開(kāi)啟多進(jìn)程預(yù)測(cè)
total_process_num	int	6	開(kāi)啟的進(jìn)程數(shù)，`use_mp`為`True`時(shí)生效
process_id	int	0	當(dāng)前進(jìn)程的id號(hào)，無(wú)需自己修改
benchmark	bool	False	是否開(kāi)啟benchmark，對(duì)預(yù)測(cè)速度、顯存占用等進(jìn)行統(tǒng)計(jì)
save_log_path	str	“./log_output/”	開(kāi)啟`benchmark`時(shí)，日志結(jié)果的保存文件夾
show_log	bool	True	是否顯示預(yù)測(cè)中的日志信息
use_onnx	bool	False	是否開(kāi)啟onnx預(yù)測(cè)

預(yù)測(cè)引擎相關(guān)

參數(shù)名稱	類型	默認(rèn)值	含義
use_gpu	bool	True	是否使用GPU進(jìn)行預(yù)測(cè)
ir_optim	bool	True	是否對(duì)計(jì)算圖進(jìn)行分析與優(yōu)化，開(kāi)啟后可以加速預(yù)測(cè)過(guò)程
use_tensorrt	bool	False	是否開(kāi)啟tensorrt
min_subgraph_size	int	15	tensorrt中最小子圖size，當(dāng)子圖的size大于該值時(shí)，才會(huì)嘗試對(duì)該子圖使用trt engine計(jì)算
precision	str	fp32	預(yù)測(cè)的精度，支持`fp32`, `fp16`, `int8` 3種輸入
enable_mkldnn	bool	True	是否開(kāi)啟mkldnn
cpu_threads	int	10	開(kāi)啟mkldnn時(shí)，cpu預(yù)測(cè)的線程數(shù)

文本檢測(cè)模型相關(guān)

參數(shù)名稱	類型	默認(rèn)值	含義
det_algorithm	str	“DB”	文本檢測(cè)算法名稱，目前支持`DB`, `EAST`, `SAST`, `PSE`, `DB++`, `FCE`
det_model_dir	str	xx	檢測(cè)inference模型路徑
det_limit_side_len	int	960	檢測(cè)的圖像邊長(zhǎng)限制
det_limit_type	str	“max”	檢測(cè)的邊長(zhǎng)限制類型，目前支持`min`和`max`，`min`表示保證圖像最短邊不小于`det_limit_side_len`，`max`表示保證圖像最長(zhǎng)邊不大于`det_limit_side_len`

其中，DB算法相關(guān)參數(shù)如下

參數(shù)名稱	類型	默認(rèn)值	含義
det_db_thresh	float	0.3	DB輸出的概率圖中，得分大于該閾值的像素點(diǎn)才會(huì)被認(rèn)為是文字像素點(diǎn)
det_db_box_thresh	float	0.6	檢測(cè)結(jié)果邊框內(nèi)，所有像素點(diǎn)的平均得分大于該閾值時(shí)，該結(jié)果會(huì)被認(rèn)為是文字區(qū)域
det_db_unclip_ratio	float	1.5	`Vatti clipping`算法的擴(kuò)張系數(shù)，使用該方法對(duì)文字區(qū)域進(jìn)行擴(kuò)張
max_batch_size	int	10	預(yù)測(cè)的batch size
use_dilation	bool	False	是否對(duì)分割結(jié)果進(jìn)行膨脹以獲取更優(yōu)檢測(cè)效果
det_db_score_mode	str	“fast”	DB的檢測(cè)結(jié)果得分計(jì)算方法，支持`fast`和`slow`，`fast`是根據(jù)polygon的外接矩形邊框內(nèi)的所有像素計(jì)算平均得分，`slow`是根據(jù)原始polygon內(nèi)的所有像素計(jì)算平均得分，計(jì)算速度相對(duì)較慢一些，但是更加準(zhǔn)確一些。

EAST算法相關(guān)參數(shù)如下

參數(shù)名稱	類型	默認(rèn)值	含義
det_east_score_thresh	float	0.8	EAST后處理中score map的閾值
det_east_cover_thresh	float	0.1	EAST后處理中文本框的平均得分閾值
det_east_nms_thresh	float	0.2	EAST后處理中nms的閾值

SAST算法相關(guān)參數(shù)如下

參數(shù)名稱	類型	默認(rèn)值	含義
det_sast_score_thresh	float	0.5	SAST后處理中的得分閾值
det_sast_nms_thresh	float	0.5	SAST后處理中nms的閾值
det_box_type	str	quad	是否多邊形檢測(cè)，彎曲文本場(chǎng)景（如Total-Text）設(shè)置為’poly’

PSE算法相關(guān)參數(shù)如下

參數(shù)名稱	類型	默認(rèn)值	含義
det_pse_thresh	float	0.0	對(duì)輸出圖做二值化的閾值
det_pse_box_thresh	float	0.85	對(duì)box進(jìn)行過(guò)濾的閾值，低于此閾值的丟棄
det_pse_min_area	float	16	box的最小面積，低于此閾值的丟棄
det_box_type	str	“quad”	返回框的類型，quad:四點(diǎn)坐標(biāo)，poly: 彎曲文本的所有點(diǎn)坐標(biāo)
det_pse_scale	int	1	輸入圖像相對(duì)于進(jìn)后處理的圖的比例，如`640640`的圖像，網(wǎng)絡(luò)輸出為`160160`，scale為2的情況下，進(jìn)后處理的圖片shape為`320*320`。這個(gè)值調(diào)大可以加快后處理速度，但是會(huì)帶來(lái)精度的下降

文本識(shí)別模型相關(guān)

參數(shù)名稱	類型	默認(rèn)值	含義
rec_algorithm	str	“CRNN”	文本識(shí)別算法名稱，目前支持`CRNN`, `SRN`, `RARE`, `NETR`, `SAR`, `ViTSTR`, `ABINet`, `VisionLAN`, `SPIN`, `RobustScanner`, `SVTR`, `SVTR_LCNet`
rec_model_dir	str	無(wú)，如果使用識(shí)別模型，該項(xiàng)是必填項(xiàng)	識(shí)別inference模型路徑
rec_image_shape	str	“3,48,320”	識(shí)別時(shí)的圖像尺寸
rec_batch_num	int	6	識(shí)別的batch size
max_text_length	int	25	識(shí)別結(jié)果最大長(zhǎng)度，在`SRN`中有效
rec_char_dict_path	str	“./ppocr/utils/ppocr_keys_v1.txt”	識(shí)別的字符字典文件
use_space_char	bool	True	是否包含空格，如果為`True`，則會(huì)在最后字符字典中補(bǔ)充`空格`字符

端到端文本檢測(cè)與識(shí)別模型相關(guān)

參數(shù)名稱	類型	默認(rèn)值	含義
e2e_algorithm	str	“PGNet”	端到端算法名稱，目前支持`PGNet`
e2e_model_dir	str	無(wú)，如果使用端到端模型，該項(xiàng)是必填項(xiàng)	端到端模型inference模型路徑
e2e_limit_side_len	int	768	端到端的輸入圖像邊長(zhǎng)限制
e2e_limit_type	str	“max”	端到端的邊長(zhǎng)限制類型，目前支持`min`, `max`，`min`表示保證圖像最短邊不小于`e2e_limit_side_len`，`max`表示保證圖像最長(zhǎng)邊不大于`e2e_limit_side_len`
e2e_pgnet_score_thresh	float	0.5	端到端得分閾值，小于該閾值的結(jié)果會(huì)被丟棄
e2e_char_dict_path	str	“./ppocr/utils/ic15_dict.txt”	識(shí)別的字典文件路徑
e2e_pgnet_valid_set	str	“totaltext”	驗(yàn)證集名稱，目前支持`totaltext`, `partvgg`，不同數(shù)據(jù)集對(duì)應(yīng)的后處理方式不同，與訓(xùn)練過(guò)程保持一致即可
e2e_pgnet_mode	str	“fast”	PGNet的檢測(cè)結(jié)果得分計(jì)算方法，支持`fast`和`slow`，`fast`是根據(jù)polygon的外接矩形邊框內(nèi)的所有像素計(jì)算平均得分，`slow`是根據(jù)原始polygon內(nèi)的所有像素計(jì)算平均得分，計(jì)算速度相對(duì)較慢一些，但是更加準(zhǔn)確一些。

方向分類器模型相關(guān)

參數(shù)名稱	類型	默認(rèn)值	含義
use_angle_cls	bool	False	是否使用方向分類器
cls_model_dir	str	無(wú)，如果需要使用，則必須顯式指定路徑	方向分類器inference模型路徑
cls_image_shape	str	“3,48,192”	預(yù)測(cè)尺度
label_list	list	[‘0’, ‘180’]	class id對(duì)應(yīng)的角度值
cls_batch_num	int	6	方向分類器預(yù)測(cè)的batch size
cls_thresh	float	0.9	預(yù)測(cè)閾值，模型預(yù)測(cè)結(jié)果為180度，且得分大于該閾值時(shí)，認(rèn)為最終預(yù)測(cè)結(jié)果為180度，需要翻轉(zhuǎn)