快捷導(dǎo)航

Python對(duì)PDF文檔和PPT文檔的操作詳解

更新時(shí)間：2023年12月22日 09:30:05 作者：逃逸的卡路里

Python辦公?動(dòng)化是利?Python編程語?來創(chuàng)建腳本和程序,以簡(jiǎn)化、加速和?動(dòng)化?常辦公任務(wù)和?作流程的過程,它基于Python的強(qiáng)?功能和豐富的第三?庫,使得能夠處理各種辦公任務(wù),本文給大家介紹了Python對(duì)PDF文檔和PPT文檔的操作,需要的朋友可以參考下

前言

Python辦公?動(dòng)化是利?Python編程語?來創(chuàng)建腳本和程序，以簡(jiǎn)化、加速和?動(dòng)化?常辦公任務(wù)和?作流程的過程。它基于Python的強(qiáng)?功能和豐富的第三?庫，使得能夠處理各種辦公任務(wù)，如?檔處理、數(shù)據(jù)分析、電?郵件管理、?絡(luò)通信等等。

一、用Python自動(dòng)化PDF文檔生成

要使?Python?動(dòng)化PDF?檔的?成，可以使?第三?庫來創(chuàng)建、編輯和操作PDF?件。?個(gè)常?的庫是ReportLab，它允許以編程?式創(chuàng)建PDF?檔，并在其中添加?本、圖像、表格等內(nèi)容。
其中，Canvas類是ReportLab庫中的一個(gè)重要類，用于創(chuàng)建和操作PDF文檔。它提供了一系列方法和屬性，可以在PDF文檔中添加文本、圖形、圖像等內(nèi)容。

Canvas類的構(gòu)造函數(shù)如下所示：

def __init__(self, filename, pagesize=(595.27,841.89), bottomup=1, pageCompression=0, encoding=rl_config.defaultEncoding, verbosity=0, encrypt=None)

參數(shù)說明：

filename：生成的PDF文件的名稱。
pagesize：頁面尺寸，默認(rèn)為A4紙的尺寸。
bottomup：頁面坐標(biāo)系的方向，默認(rèn)為1，表示坐標(biāo)原點(diǎn)在左下角。
pageCompression：頁面壓縮級(jí)別，默認(rèn)為0，表示不壓縮。
encoding：文檔編碼，默認(rèn)為rl_config.defaultEncoding。
verbosity：輸出信息的詳細(xì)程度，默認(rèn)為0，表示不輸出。
encrypt：加密選項(xiàng)，默認(rèn)為None，表示不加密。

Canvas類的常用方法包括：

drawString(x, y, text)：在指定坐標(biāo)位置繪制文本。
drawImage(image, x, y, width=None, height=None)：在指定坐標(biāo)位置繪制圖像。
drawRect(x, y, width, height)：繪制矩形。
drawLine(x1, y1, x2, y2)：繪制直線。
setFont(fontname, fontsize, leading=None)：設(shè)置字體和字號(hào)。
setFillColor(color)：設(shè)置填充顏色。
setStrokeColor(color)：設(shè)置描邊顏色。
showPage()：保存當(dāng)前頁面并開始新頁面。
save()：保存PDF文檔。

下面?個(gè)基本的?例，演?如何使?ReportLab來?成PDF?檔：

1、安裝ReportLab庫（如果尚未安裝）

pip install reportlab

2、創(chuàng)建?個(gè)簡(jiǎn)單的PDF文檔

from reportlab.lib.pagesizes import letter
# canvas模塊有個(gè)Canvas類，是創(chuàng)建PDF文檔的入口。通過help函數(shù)可以查詢它的用法。
from reportlab.pdfgen import canvas  
# 創(chuàng)建?個(gè)PDF?件
c = canvas.Canvas("example.pdf", pagesize=letter)
# 添加?本到PDF
c.drawString(100, 750, "Hello, World!")
# 添加圖片到pdf
c.drawImage("image.jpg", 200, 200, width=100, height=100)
c.showPage()
# 保存PDF
c.save()

在上述?例中，導(dǎo)?了ReportLab庫，創(chuàng)建了?個(gè)PDF?檔對(duì)象，然后使? drawString ?法在PDF上添加?本。最后，保存了?成的PDF?件。
ReportLab還提供了更復(fù)雜的功能，如創(chuàng)建表格、添加圖形、?定義??布局等?？梢愿鶕?jù)具體的需求進(jìn)?步擴(kuò)展這個(gè)?例，以?成更復(fù)雜的PDF?檔。
除了ReportLab，還有其他?些庫，如PDFKit（基于wkhtmltopdf）、FPDF、PyPDF2等，可以?于PDF?動(dòng)化?成和操作。可以根據(jù)項(xiàng)?的具體需求選擇適合的庫來處理PDF?檔。

以下是一些簡(jiǎn)單示例，需要的小伙伴可以看下：

PDFKit：

import pdfkit

# 將HTML內(nèi)容轉(zhuǎn)換為PDF
pdfkit.from_file('input.html', 'output.pdf')

# 將URL轉(zhuǎn)換為PDF
pdfkit.from_url('http://example.com', 'output.pdf')

# 將字符串轉(zhuǎn)換為PDF
pdfkit.from_string('Hello, world!', 'output.pdf')

FPDF：

from fpdf import FPDF

# 創(chuàng)建PDF對(duì)象
pdf = FPDF()

# 添加頁面
pdf.add_page()

# 設(shè)置字體和字號(hào)
pdf.set_font('Arial', size=12)

# 添加文本
pdf.cell(0, 10, 'Hello, world!', ln=True)

# 保存PDF
pdf.output('output.pdf')

PyPDF2：

from PyPDF2 import PdfFileReader, PdfFileWriter

# 讀取PDF文件
pdf = PdfFileReader('input.pdf')

# 獲取頁面數(shù)量
num_pages = pdf.getNumPages()

# 獲取第一頁內(nèi)容
page1 = pdf.getPage(0)

# 旋轉(zhuǎn)頁面
page1.rotateClockwise(90)

# 創(chuàng)建新的PDF文件
output_pdf = PdfFileWriter()

# 添加頁面
output_pdf.addPage(page1)

# 保存新的PDF文件
with open('output.pdf', 'wb') as f:
    output_pdf.write(f)

二、Python讀取PDF文件內(nèi)容

要在Python中讀取PDF?件的內(nèi)容，可以使?第三?庫來解析和提取?本信息。?種常?的庫是PyPDF2，它允許從PDF?檔中提取?本、??、書簽等信息。
下面是?個(gè)基本?例，演?如何使?PyPDF2來讀取PDF?件內(nèi)容：

1、安裝PyPDF2庫（如果尚未安裝）

pip install reportlab

2、讀取PDF?件內(nèi)容

代碼如下（示例）：

import PyPDF2
# 打開PDF?件
pdf_file = open('example.pdf', 'rb')
# 創(chuàng)建?個(gè)PDF?件閱讀器對(duì)象
pdf_reader = PyPDF2.PdfFileReader(pdf_file)
# 獲取PDF?件的總?數(shù)
total_pages = pdf_reader.numPages
# 讀取每??的?本內(nèi)容
for page_num in range(total_pages):
	page = pdf_reader.getPage(page_num)
	page_text = page.extractText()
	print(f"第 {page_num + 1} ?內(nèi)容：")
	print(page_text)
	print("\n")
# 關(guān)閉PDF?件
pdf_file.close()

在上述?例中，?先打開了?個(gè)PDF?件，然后創(chuàng)建了?個(gè)PdfFileReader對(duì)象來讀取該?件。然后，獲取PDF?件的總?數(shù)，并使? getPage ?法讀取每??的?本內(nèi)容，最后關(guān)閉?件。

請(qǐng)注意，PDF?本提取可能不總是?常精確，特別是對(duì)于包含復(fù)雜排版、圖像或?定義字體的PDF?件。在處理不同類型的PDF?件時(shí)，可能需要根據(jù)具體情況進(jìn)??些后處理來提??本提取的準(zhǔn)確性。

除了PyPDF2，還有其他?些庫，如pdfminer、slate等，也可以?于讀取PDF?件的內(nèi)容。選擇適合需求的庫并根據(jù)需要處理提取到的?本數(shù)據(jù)。

import slate3k as slate

# 打開PDF文件
with open('example.pdf', 'rb') as pdf_file:
    # 創(chuàng)建PDF解析器對(duì)象
    pdf_text = slate.PDF(pdf_file)

# 提取PDF文件的文本內(nèi)容
text = ' '.join(pdf_text)
print("Text in PDF:", text)

三、Python操作PowerPoint演示文稿

要在Python中操作PowerPoint演??稿，可以使?第三?庫 python-pptx 。這個(gè)庫允許創(chuàng)建、編輯和操作PowerPoint演??稿。

先了解下PPT基本結(jié)構(gòu)在python分別是什么含義：

Slide：幻燈片，就是演示文稿中每一頁的頁面。

Shape：方框，在每頁幻燈片內(nèi)插入的方框，可以是形狀，也可以是文本框。

Run：文字塊，一般為較少字符。

Paragraph：段落，通常有序號(hào)?、1.等。

以下是?些常?的操作?例：

1、安裝 python-pptx 庫（如果尚未安裝）

pip install python-pptx

使用windows系統(tǒng)，如果出現(xiàn)無法安裝情況，可以在cmd模式下輸入網(wǎng)址選擇國(guó)內(nèi)清華鏡像。

pip install -i https://pypi.tuna.tsinghua.edu.cn/simple python-pptx

2、創(chuàng)建?個(gè)新的PowerPoint演示文稿

from pptx import Presentation
# 創(chuàng)建?個(gè)新的演??稿對(duì)象
prs = Presentation()
# 添加?張幻燈?
slide = prs.slides.add_slide(prs.slide_layouts[0])
# 添加標(biāo)題和正?
title = slide.shapes.title
title.text = "這是標(biāo)題"
content = slide.shapes.placeholders[1]
content.text = "這是正?"
# 保存演??稿
prs.save("example.pptx")

3、打開現(xiàn)有的PowerPoint演示文稿并編輯

from pptx import Presentation
# 打開現(xiàn)有的演??稿
prs = Presentation("example.pptx")
# 遍歷所有幻燈?
for slide in prs.slides:
	for shape in slide.shapes:
		if shape.has_text_frame:
		text_frame = shape.text_frame
		for paragraph in text_frame.paragraphs:
			for run in paragraph.runs:
				run.text = run.text.upper() # 將?本轉(zhuǎn)換為?寫
# 保存修改后的演??稿
prs.save("modified_example.pptx")

4、插入圖片和形狀

from pptx import Presentation
from pptx.util import Inches
# 打開現(xiàn)有的演??稿
prs = Presentation("example.pptx")
# 添加?張幻燈?
slide = prs.slides.add_slide(prs.slide_layouts[5])
# 添加圖?
left = Inches(1)
top = Inches(1)
width = Inches(4)
height = Inches(3)
pic = slide.shapes.add_picture("image.jpg", left, top, width, height)
# 添加形狀
left = Inches(5)
top = Inches(1)
width = Inches(2)
height = Inches(2)
shape = slide.shapes.add_shape(1, left, top, width, height)
shape.text = "?定義形狀"
# 保存修改后的演??稿
prs.save("modified_example.pptx")

python-pptx 庫提供了豐富的功能，?于創(chuàng)建、編輯和操作PowerPoint演??稿中的?本、圖像、形狀、表格等?？梢愿鶕?jù)具體的需求進(jìn)?步擴(kuò)展這些?例，以滿?的項(xiàng)?要求。

總結(jié)

以上就是Python對(duì)PDF文檔和PPT文檔的操作詳解的詳細(xì)內(nèi)容，更多關(guān)于Python PDF文檔和PPT文檔操作的資料請(qǐng)關(guān)注腳本之家其它相關(guān)文章！

您可能感興趣的文章:

亚洲乱码中文字幕综合,中国熟女仑乱hd,亚洲精品乱拍国产一区二区三区,一本大道卡一卡二卡三乱码全集资源,又粗又黄又硬又爽的免费视频

Python對(duì)PDF文檔和PPT文檔的操作詳解

目錄

前言

一、用Python自動(dòng)化PDF文檔生成

1、安裝ReportLab庫（如果尚未安裝）

2、創(chuàng)建?個(gè)簡(jiǎn)單的PDF文檔

二、Python讀取PDF文件內(nèi)容

1、安裝PyPDF2庫（如果尚未安裝）

2、讀取PDF?件內(nèi)容

三、Python操作PowerPoint演示文稿

1、安裝 python-pptx 庫（如果尚未安裝）

2、創(chuàng)建?個(gè)新的PowerPoint演示文稿

3、打開現(xiàn)有的PowerPoint演示文稿并編輯

4、插入圖片和形狀

總結(jié)

相關(guān)文章

最新評(píng)論

大家感興趣的內(nèi)容

最近更新的內(nèi)容

常用在線小工具

亚洲乱码中文字幕综合,中国熟女仑乱hd,亚洲精品乱拍国产一区二区三区,一本大道卡一卡二卡三乱码全集资源,又粗又黄又硬又爽的免费视频

Python對(duì)PDF文檔和PPT文檔的操作詳解

目錄

前言

一、用Python自動(dòng)化PDF文檔生成

1、安裝ReportLab庫（如果尚未安裝）

2、創(chuàng)建?個(gè)簡(jiǎn)單的PDF文檔

二、Python讀取PDF文件內(nèi)容

1、安裝PyPDF2庫（如果尚未安裝）

2、讀取PDF?件內(nèi)容

三、Python操作PowerPoint演示文稿

1、安裝 python-pptx 庫（如果尚未安裝）

2、創(chuàng)建?個(gè)新的PowerPoint演示文稿

3、打開現(xiàn)有的PowerPoint演示文稿并編輯

4、插入圖片和形狀

總結(jié)

相關(guān)文章

最新評(píng)論

大家感興趣的內(nèi)容

最近更新的內(nèi)容

常用在線小工具

一、用Python自動(dòng)化PDF文檔生成

1、安裝ReportLab庫（如果尚未安裝）

二、Python讀取PDF文件內(nèi)容

1、安裝PyPDF2庫（如果尚未安裝）

2、讀取PDF?件內(nèi)容

三、Python操作PowerPoint演示文稿

1、安裝 python-pptx 庫（如果尚未安裝）

2、創(chuàng)建?個(gè)新的PowerPoint演示文稿

3、打開現(xiàn)有的PowerPoint演示文稿并編輯

4、插入圖片和形狀