快捷導(dǎo)航

Python中操作PDF文件的常用方法

更新時間：2025年02月24日 10:37:24 作者：王子良.

在 Python 中操作 PDF 文件的常用方法是使用專門的第三方庫,這些庫可以幫助你完成常見的操作,如讀取 PDF 內(nèi)容、提取文本、合并和拆分 PDF 文件、修改文件等,常用的庫包括 PyPDF2、pdfminer、reportlab 等,下面是一些常見任務(wù)的示例,需要的朋友可以參考下

1. 安裝所需庫

首先，需要安裝必要的庫。你可以使用以下命令來安裝這些庫：

pip install PyPDF2
pip install pdfminer.six
pip install reportlab

2. 使用 PyPDF2 操作 PDF 文件

PyPDF2 是一個非常流行的庫，支持對 PDF 文件進行合并、拆分、加密、解密、旋轉(zhuǎn)等操作。

2.1 合并多個 PDF 文件

import PyPDF2
 
# 創(chuàng)建一個 PDF 合并器對象
pdf_merger = PyPDF2.PdfMerger()
 
# 需要合并的 PDF 文件列表
pdf_files = ['file1.pdf', 'file2.pdf', 'file3.pdf']
 
# 合并 PDF 文件
for pdf in pdf_files:
    pdf_merger.append(pdf)
 
# 輸出合并后的 PDF 文件
pdf_merger.write('merged_output.pdf')
pdf_merger.close()
 
print("PDF 文件合并完成！")

2.2 拆分 PDF 文件

import PyPDF2
 
# 打開 PDF 文件
with open('sample.pdf', 'rb') as file:
    reader = PyPDF2.PdfReader(file)
 
    # 獲取 PDF 文件的頁數(shù)
    total_pages = len(reader.pages)
 
    # 創(chuàng)建一個 PDF 寫入器對象
    writer = PyPDF2.PdfWriter()
 
    # 拆分為每一頁一個 PDF 文件
    for page_num in range(total_pages):
        writer.add_page(reader.pages[page_num])
 
        # 寫入到新的 PDF 文件
        with open(f'page_{page_num + 1}.pdf', 'wb') as output_file:
            writer.write(output_file)
 
    print("PDF 文件拆分完成！")

2.3 提取 PDF 文件的文本

import PyPDF2
 
# 打開 PDF 文件
with open('sample.pdf', 'rb') as file:
    reader = PyPDF2.PdfReader(file)
    text = ""
    
    # 提取所有頁的文本
    for page_num in range(len(reader.pages)):
        page = reader.pages[page_num]
        text += page.extract_text()
 
print("PDF 文件內(nèi)容：")
print(text)

3. 使用 pdfminer 提取 PDF 文本

pdfminer.six 是一個專注于從 PDF 中提取文本的庫，比 PyPDF2 更適合復(fù)雜的文本提取操作。它支持從 PDF 中提取文本和元數(shù)據(jù)。

3.1 提取 PDF 文件中的文本

from pdfminer.high_level import extract_text
 
# 提取 PDF 文件中的文本
text = extract_text('sample.pdf')
 
print("提取的文本內(nèi)容：")
print(text)

4. 使用 reportlab 創(chuàng)建 PDF 文件

reportlab 是一個非常強大的庫，主要用于生成 PDF 文件。它提供了豐富的 API 來設(shè)計和生成 PDF。

4.1 創(chuàng)建一個簡單的 PDF 文件

from reportlab.lib.pagesizes import letter
from reportlab.pdfgen import canvas
 
# 創(chuàng)建一個 PDF 文件并繪制文本
def create_pdf(output_filename):
    c = canvas.Canvas(output_filename, pagesize=letter)
    c.drawString(100, 750, "Hello, this is a simple PDF created with ReportLab!")
    c.save()
 
# 調(diào)用函數(shù)生成 PDF 文件
create_pdf("output.pdf")
print("PDF 文件創(chuàng)建完成！")

4.2 在 PDF 中添加圖像

from reportlab.lib.pagesizes import letter
from reportlab.pdfgen import canvas
 
def create_pdf_with_image(output_filename):
    c = canvas.Canvas(output_filename, pagesize=letter)
    c.drawString(100, 750, "Here is an image below:")
    
    # 添加圖像
    c.drawImage("image.jpg", 100, 500, width=200, height=150)  # 圖像位置和大小
    
    c.save()
 
create_pdf_with_image("pdf_with_image.pdf")
print("PDF 文件（帶圖像）創(chuàng)建完成！")

5. 使用 PyMuPDF (fitz) 提取文本

PyMuPDF 是一個處理 PDF、XPS、EPUB 等文件格式的庫，功能非常強大且效率較高。你可以使用它來提取文本、圖像和其他內(nèi)容。

5.1 提取 PDF 文件的文本

import fitz  # PyMuPDF
 
# 打開 PDF 文件
doc = fitz.open('sample.pdf')
 
# 提取所有頁面的文本
text = ""
for page_num in range(len(doc)):
    page = doc.load_page(page_num)
    text += page.get_text()
 
print("PDF 文件的內(nèi)容：")
print(text)

6. 對 PDF 文件進行加密和解密

6.1 使用 PyPDF2 對 PDF 進行加密

import PyPDF2
 
# 打開 PDF 文件
with open('sample.pdf', 'rb') as file:
    reader = PyPDF2.PdfReader(file)
    writer = PyPDF2.PdfWriter()
    
    # 將 PDF 中的所有頁面添加到 writer 對象中
    for page in reader.pages:
        writer.add_page(page)
    
    # 設(shè)置密碼
    password = "your_password"
    writer.encrypt(password)
    
    # 寫入加密后的文件
    with open('encrypted_sample.pdf', 'wb') as encrypted_file:
        writer.write(encrypted_file)
 
print("PDF 文件加密完成！")

6.2 使用 PyPDF2 對 PDF 進行解密

import PyPDF2
 
# 打開加密的 PDF 文件
with open('encrypted_sample.pdf', 'rb') as file:
    reader = PyPDF2.PdfReader(file)
    
    # 解密 PDF 文件
    password = "your_password"
    if reader.is_encrypted:
        reader.decrypt(password)
    
    # 創(chuàng)建一個 PDF 寫入器對象
    writer = PyPDF2.PdfWriter()
    
    # 將解密后的頁面添加到寫入器中
    for page in reader.pages:
        writer.add_page(page)
    
    # 輸出解密后的 PDF 文件
    with open('decrypted_sample.pdf', 'wb') as decrypted_file:
        writer.write(decrypted_file)
 
print("PDF 文件解密完成！")