亚洲乱码中文字幕综合,中国熟女仑乱hd,亚洲精品乱拍国产一区二区三区,一本大道卡一卡二卡三乱码全集资源,又粗又黄又硬又爽的免费视频

Python使用Docling庫玩轉文檔處理

 更新時間:2025年02月17日 10:30:23   作者:正東AI  
Docling?是一個強大的?Python?第三方庫,專注于文檔處理和轉換,所以本文將帶大家深入了解?Docling?的強大功能,展示它如何幫助我們高效處理文檔,感興趣的可以了解下

一、背景

在日常開發(fā)中,文檔處理一直是令人頭疼的問題。無論是技術文檔、設計文檔,還是各種格式的文件(如 PDF、DOCX、PPTX等),如何高效地解析、轉換和提取信息,常常耗費大量精力。Docling 的出現(xiàn),為這一問題提供了優(yōu)雅的解決方案。它不僅支持多種主流文檔格式,還能深度解析PDF,提取頁面布局、表格結構等復雜信息。更重要的是,Docling 提供了統(tǒng)一的文檔表示格式和便捷的 CLI,使得文檔處理變得簡單高效。

接下來,我們將深入了解 Docling 的強大功能,并通過實際代碼示例,展示它如何幫助我們高效處理文檔。

二、什么是 Docling

Docling 是一個強大的 Python 第三方庫,專注于文檔處理和轉換。它支持多種文檔格式,包括PDF、DOCX、PPTX、HTML、圖片等。Docling 的核心功能是深度解析 PDF,能夠識別頁面布局、閱讀順序、表格結構,甚至支持 OCR功能,處理掃描版文檔。此外,Docling 還提供了統(tǒng)一的文檔表示格式(DoclingDocument),方便開發(fā)者進行后續(xù)處理。

三、安裝 Docling

作為第三方庫,Docling 的安裝非常簡單。只需通過 pip 命令即可完成安裝:

pip install docling

如果需要支持 CPU 版本的 PyTorch,可以使用以下命令:

pip install docling --extra-index-url https://download.pytorch.org/whl/cpu

安裝完成后,即可使用 Docling 提供的強大功能。

四、庫函數(shù)使用方法

以下是 Docling 的五個常用函數(shù)及其使用方法:

1. DocumentConverter.convert()

該函數(shù)用于轉換文檔,支持本地路徑或 URL。

from docling.document_converter import DocumentConverter

source = "https://arxiv.org/pdf/2408.09869"  # 文檔路徑或 URL
converter = DocumentConverter()
result = converter.convert(source)

source:文檔的路徑或 URL。

converter.convert():將文檔轉換為 Docling 的內(nèi)部表示格式。

2. export_to_markdown()

將文檔導出為 Markdown 格式。

markdown_content = result.document.export_to_markdown()
print(markdown_content)

export_to_markdown():將文檔內(nèi)容轉換為 Markdown 格式。

3. export_to_json()

將文檔導出為 JSON 格式。

json_content = result.document.export_to_json()
print(json_content)

export_to_json():將文檔內(nèi)容轉換為 JSON 格式。

4. HierarchicalChunker.chunk()

對文檔進行分塊處理,返回文本內(nèi)容和元數(shù)據(jù)。

from docling_core.transforms.chunker import HierarchicalChunker

chunks = list(HierarchicalChunker().chunk(result.document))
print(chunks[0])

HierarchicalChunker():創(chuàng)建分塊器。

chunk(result.document):對文檔進行分塊處理。

5. PdfPipelineOptions

自定義 PDF 轉換選項。

from docling.datamodel.pipeline_options import PdfPipelineOptions

pipeline_options = PdfPipelineOptions(do_table_structure=True)
pipeline_options.table_structure_options.do_cell_matching = False

PdfPipelineOptions:自定義 PDF 轉換選項。

do_table_structure:是否解析表格結構。

do_cell_matching:是否將表格單元格映射回 PDF。

五、使用場景示例

以下是五個實際使用場景及其代碼示例:

場景 1:將 PDF 轉換為 Markdown

from docling.document_converter import DocumentConverter

source = "https://arxiv.org/pdf/2408.09869"
converter = DocumentConverter()
result = converter.convert(source)
markdown_content = result.document.export_to_markdown()
print(markdown_content)

convert():將 PDF 轉換為 Docling 的內(nèi)部表示格式。

export_to_markdown():將文檔導出為 Markdown 格式。

場景 2:限制文檔大小

from docling.document_converter import DocumentConverter

source = "https://arxiv.org/pdf/2408.09869"
converter = DocumentConverter()
result = converter.convert(source, max_num_pages=100, max_file_size=20971520)

max_num_pages:限制文檔的最大頁數(shù)。

max_file_size:限制文檔的最大文件大小。

場景 3:自定義 PDF 轉換選項

from docling.datamodel.pipeline_options import PdfPipelineOptions
from docling.document_converter import DocumentConverter

pipeline_options = PdfPipelineOptions(do_table_structure=True)
pipeline_options.table_structure_options.do_cell_matching = False
converter = DocumentConverter(pipeline_options=pipeline_options)
result = converter.convert("path/to/your/document.pdf")

PdfPipelineOptions:自定義 PDF 轉換選項。

do_table_structure 和 do_cell_matching:控制表格結構的解析方式。

場景 4:文檔分塊處理

from docling.document_converter import DocumentConverter
from docling_core.transforms.chunker import HierarchicalChunker

converter = DocumentConverter()
result = converter.convert("https://arxiv.org/pdf/2206.01062")
chunks = list(HierarchicalChunker().chunk(result.document))
print(chunks[0])

HierarchicalChunker.chunk():對文檔進行分塊處理。

輸出包含文本內(nèi)容和元數(shù)據(jù),方便后續(xù)處理。

場景 5:使用 OCR 處理掃描版 PDF

from docling.datamodel.pipeline_options import PipelineOptions, TesseractOcrOptions
from docling.document_converter import DocumentConverter

pipeline_options = PipelineOptions()
pipeline_options.do_ocr = True
pipeline_options.ocr_options = TesseractOcrOptions()
converter = DocumentConverter(pipeline_options=pipeline_options)
result = converter.convert("path/to/scanned_document.pdf")

PipelineOptions 和 TesseractOcrOptions:配置 OCR 選項。

do_ocr:啟用 OCR 功能。

六、常見問題及解決方案

以下是使用 Docling 時常見的三個問題及其解決方案:

問題 1:TensorFlow 相關警告

錯誤信息:

This TensorFlow binary is optimized to use available CPU instructions in performance-critical operations.

解決方案:安裝適合 CPU 的 TensorFlow 版本。

conda create --name py11 python==3.11
conda activate py11
conda install tensorflow

問題 2:Tesseract OCR 安裝問題

錯誤信息:Tesseract OCR 未安裝或配置錯誤。

解決方案:安裝 Tesseract OCR 并設置 TESSDATA_PREFIX。

# macOS
brew install tesseract leptonica pkg-config
TESSDATA_PREFIX=/opt/homebrew/share/tessdata/

# Linux
apt-get install tesseract-ocr tesseract-ocr-eng libtesseract-dev libleptonica-dev pkg-config
TESSDATA_PREFIX=$(dpkg -L tesseract-ocr-eng | grep tessdata$)

問題 3:Tesserocr 安裝失敗

錯誤信息:Tesserocr 安裝失敗。

解決方案:重新安裝 Tesserocr。

pip uninstall tesserocr
pip install --no-binary :all: tesserocr

七、總結

Docling是一個功能強大的文檔處理庫,支持多種文檔格式和深度解析功能。它提供了統(tǒng)一的文檔表示格式和豐富的導出選項,能夠滿足多種開發(fā)需求。通過簡單的安裝和使用,開發(fā)者可以輕松地將文檔處理集成到自己的項目中。無論是技術文檔處理還是AI 應用開發(fā),Docling 都是一個值得信賴的選擇。

到此這篇關于Python使用Docling庫玩轉文檔處理的文章就介紹到這了,更多相關Python Docling文檔處理內(nèi)容請搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關文章希望大家以后多多支持腳本之家!

相關文章

  • 利用numpy+matplotlib繪圖的基本操作教程

    利用numpy+matplotlib繪圖的基本操作教程

    這篇文章主要給大家介紹了利用numpy+matplotlib繪圖的基本操作,文中介紹的非常詳細,對大家學習matplotlib繪圖具有一定的參考學習價值,需要的朋友們下面來一起學習學習吧。
    2017-05-05
  • wxPython:python首選的GUI庫實例分享

    wxPython:python首選的GUI庫實例分享

    wxPython是Python語言的一套優(yōu)秀的GUI圖形庫。允許Python程序員很方便的創(chuàng)建完整的、功能鍵全的GUI用戶界面。 wxPython是作為優(yōu)秀的跨平臺GUI庫wxWidgets的Python封裝和Python模塊的方式提供給用戶的
    2019-10-10
  • python 實現(xiàn)字符串下標的輸出功能

    python 實現(xiàn)字符串下標的輸出功能

    這篇文章主要介紹了python 簡單的實現(xiàn)字符串下標的輸出,本文通過實例代碼給大家介紹的非常詳細,具有一定的參考借鑒價值,需要的朋友可以參考下
    2020-02-02
  • python實現(xiàn)udp聊天窗口

    python實現(xiàn)udp聊天窗口

    這篇文章主要為大家詳細介紹了python實現(xiàn)udp聊天窗口,文中示例代碼介紹的非常詳細,具有一定的參考價值,感興趣的小伙伴們可以參考一下
    2020-03-03
  • Python使用ConfigParser模塊操作配置文件的方法

    Python使用ConfigParser模塊操作配置文件的方法

    這篇文章主要介紹了Python使用ConfigParser模塊操作配置文件的方法,結合實例形式分析了Python基于ConfigParser模塊針對配置文件的創(chuàng)建、讀取、寫入、判斷等相關操作技巧,需要的朋友可以參考下
    2018-06-06
  • python如何生成密碼字典

    python如何生成密碼字典

    這篇文章主要介紹了python如何生成密碼字典,密碼字典主要是配合解密使用,下面利用python實現(xiàn)生成密碼字典,需要的小伙伴可以參考一下
    2022-03-03
  • Python報錯ValueError:?cannot?convert?float?NaN?to?integer的解決方法

    Python報錯ValueError:?cannot?convert?float?NaN?to?intege

    在Python編程中,我們經(jīng)常需要處理各種數(shù)據(jù)類型,包括浮點數(shù)和整數(shù),然而,有時候我們可能會遇到一些意外的情況,比如將一個包含NaN(Not?a?Number)的浮點數(shù)轉換為整數(shù)時,就會拋出錯誤,本文將探討這個錯誤的原因,并給出幾種可能的解決方案,需要的朋友可以參考下
    2024-09-09
  • Python類的定義和使用詳情

    Python類的定義和使用詳情

    這篇文章主要介紹了Python類的定義與使用,類名只要是一個合法的標識符即可,但這僅僅滿足的是?Python?的語法要求:如果從程序的可讀性方面來看,Python?的類名必須是由一個或多個有意義的單詞連綴而成的,下文基于這些基礎內(nèi)容展開介紹,需要的朋友可以參考一下
    2022-03-03
  • Python替換NumPy數(shù)組中大于某個值的所有元素實例

    Python替換NumPy數(shù)組中大于某個值的所有元素實例

    這篇文章主要介紹了Python替換NumPy數(shù)組中大于某個值的所有元素實例,具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧
    2020-06-06
  • Pytest如何使用skip跳過執(zhí)行測試

    Pytest如何使用skip跳過執(zhí)行測試

    這篇文章主要介紹了Pytest如何使用skip跳過執(zhí)行測試,文中通過示例代碼介紹的非常詳細,對大家的學習或者工作具有一定的參考學習價值,需要的朋友可以參考下
    2020-08-08

最新評論