欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

使用Python進(jìn)行PDF文檔處理的常見操作

 更新時(shí)間:2024年09月08日 10:30:16   作者:杰哥在此  
使用 Python 進(jìn)行 PDF 文檔處理可以通過多種庫來實(shí)現(xiàn),包括 PyPDF2、pdfplumber、reportlab、pdfminer 等,這些庫可以處理不同的 PDF 任務(wù),以下是幾種常見操作及對應(yīng)的庫和代碼示例,感興趣的小伙伴跟著小編一起來看看吧

引言

使用 Python 進(jìn)行 PDF 文檔處理可以通過多種庫來實(shí)現(xiàn),包括 PyPDF2、pdfplumber、reportlab、pdfminer 等。這些庫可以處理不同的 PDF 任務(wù),例如 提取文本、拆分合并 PDF、修改 PDF、生成 PDF 等。以下是幾種常見操作及對應(yīng)的庫和代碼示例。

1. 安裝常用庫

首先,安裝常用的 PDF 處理庫:

pip install PyPDF2 pdfplumber reportlab

2. 提取 PDF 文本

PyPDF2 和 pdfplumber 都可以用于提取 PDF 文本。PyPDF2 更輕量,但有時(shí)處理復(fù)雜的 PDF 格式效果較差,而 pdfplumber 更加適合處理表格等復(fù)雜結(jié)構(gòu)的 PDF。

使用 PyPDF2 提取文本

import PyPDF2

# 打開 PDF 文件
with open('sample.pdf', 'rb') as file:
    reader = PyPDF2.PdfReader(file)
    
    # 提取每一頁的文本
    for page_num in range(len(reader.pages)):
        page = reader.pages[page_num]
        text = page.extract_text()
        print(f"第 {page_num + 1} 頁的文本:\n{text}")

使用 pdfplumber 提取文本

pdfplumber 更適合處理結(jié)構(gòu)化數(shù)據(jù),尤其是表格。

import pdfplumber

# 打開 PDF 文件
with pdfplumber.open('sample.pdf') as pdf:
    for page_num in range(len(pdf.pages)):
        page = pdf.pages[page_num]
        text = page.extract_text()
        print(f"第 {page_num + 1} 頁的文本:\n{text}")

3. 合并與拆分 PDF 文件

使用 PyPDF2 合并 PDF 文件

可以將多個(gè) PDF 文件合并為一個(gè)文件。

import PyPDF2

pdf_files = ['file1.pdf', 'file2.pdf', 'file3.pdf']
merger = PyPDF2.PdfMerger()

for pdf in pdf_files:
    merger.append(pdf)

# 保存合并后的 PDF 文件
with open('merged_output.pdf', 'wb') as output_file:
    merger.write(output_file)

使用 PyPDF2 拆分 PDF 文件

將 PDF 文件拆分為單獨(dú)的頁面。

import PyPDF2

# 打開 PDF 文件
with open('sample.pdf', 'rb') as file:
    reader = PyPDF2.PdfReader(file)
    
    # 按頁拆分并保存
    for page_num in range(len(reader.pages)):
        writer = PyPDF2.PdfWriter()
        writer.add_page(reader.pages[page_num])
        
        with open(f'split_page_{page_num + 1}.pdf', 'wb') as output_file:
            writer.write(output_file)

4. 創(chuàng)建和修改 PDF

使用 ReportLab 創(chuàng)建 PDF 文件

reportlab 是一個(gè)功能強(qiáng)大的庫,可以用來生成新的 PDF 文件,支持插入文本、圖片、圖形等。

from reportlab.lib.pagesizes import letter
from reportlab.pdfgen import canvas

# 創(chuàng)建 PDF 文件
c = canvas.Canvas("output.pdf", pagesize=letter)
c.drawString(100, 750, "Hello, this is a PDF created with ReportLab!")

# 創(chuàng)建矩形
c.rect(100, 700, 400, 100)

# 保存 PDF
c.showPage()
c.save()

使用 ReportLab 插入圖片

你可以使用 reportlab 插入圖片到 PDF 中。

from reportlab.lib.pagesizes import letter
from reportlab.pdfgen import canvas

c = canvas.Canvas("output_with_image.pdf", pagesize=letter)
c.drawString(100, 750, "This is a PDF with an image:")

# 插入圖片
c.drawImage("image.png", 100, 600, width=200, height=150)

c.showPage()
c.save()

5. 提取 PDF 表格

pdfplumber 提供了提取 PDF 中表格的功能,非常適合處理含有表格的文檔。

import pdfplumber

# 打開 PDF 文件
with pdfplumber.open('table_sample.pdf') as pdf:
    first_page = pdf.pages[0]
    
    # 提取表格數(shù)據(jù)
    tables = first_page.extract_table()
    
    # 打印提取到的表格數(shù)據(jù)
    for row in tables:
        print(row)

6. PDF 文檔加密與解密

使用 PyPDF2 加密 PDF 文件

你可以加密 PDF 文件,防止未經(jīng)授權(quán)的訪問。

import PyPDF2

# 打開 PDF 文件
with open('sample.pdf', 'rb') as file:
    reader = PyPDF2.PdfReader(file)
    writer = PyPDF2.PdfWriter()

    for page_num in range(len(reader.pages)):
        writer.add_page(reader.pages[page_num])

    # 設(shè)置密碼
    writer.encrypt(user_password='user123', owner_password='owner123')

    with open('encrypted_output.pdf', 'wb') as output_file:
        writer.write(output_file)

使用 PyPDF2 解密 PDF 文件

如果 PDF 文件已加密,解密并提取文本的方法如下:

import PyPDF2

# 打開加密的 PDF 文件
with open('encrypted_output.pdf', 'rb') as file:
    reader = PyPDF2.PdfReader(file)
    
    # 提供密碼
    reader.decrypt('user123')
    
    # 提取文本
    for page_num in range(len(reader.pages)):
        page = reader.pages[page_num]
        print(page.extract_text())

7. PDF 頁面旋轉(zhuǎn)

你可以旋轉(zhuǎn) PDF 的某些頁面,以下是旋轉(zhuǎn)頁面的示例:

import PyPDF2

# 打開 PDF 文件
with open('sample.pdf', 'rb') as file:
    reader = PyPDF2.PdfReader(file)
    writer = PyPDF2.PdfWriter()
    
    # 旋轉(zhuǎn)每頁 90 度
    for page in reader.pages:
        page.rotate_clockwise(90)
        writer.add_page(page)
    
    # 保存旋轉(zhuǎn)后的 PDF 文件
    with open('rotated_output.pdf', 'wb') as output_file:
        writer.write(output_file)

總結(jié)

Python 提供了多個(gè)強(qiáng)大的庫來處理 PDF 文檔。根據(jù)具體需求,選擇適合的庫來完成任務(wù):

  • PyPDF2:適合基本的 PDF 操作,如合并、拆分、加密、旋轉(zhuǎn)等。
  • pdfplumber:適合復(fù)雜的文本和表格提取。
  • reportlab:用于生成和修改 PDF 文件,支持文本、圖像和圖形的繪制。

通過這些工具,你可以輕松地處理 PDF 文檔的各種操作,從文本提取到生成和修改文檔。

到此這篇關(guān)于使用Python進(jìn)行PDF文檔處理的常見操作的文章就介紹到這了,更多相關(guān)Python PDF文檔處理內(nèi)容請搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!

相關(guān)文章

  • pytorch dataloader 取batch_size時(shí)候出現(xiàn)bug的解決方式

    pytorch dataloader 取batch_size時(shí)候出現(xiàn)bug的解決方式

    今天小編就為大家分享一篇pytorch dataloader 取batch_size時(shí)候出現(xiàn)bug的解決方式,具有很好的參考價(jià)值,希望對大家有所幫助。一起跟隨小編過來看看吧
    2020-02-02
  • python神經(jīng)網(wǎng)絡(luò)Pytorch中Tensorboard函數(shù)使用

    python神經(jīng)網(wǎng)絡(luò)Pytorch中Tensorboard函數(shù)使用

    這篇文章主要為大家介紹了python神經(jīng)網(wǎng)絡(luò)Pytorch中Tensorboard常用函數(shù)的使用示例,有需要的朋友可以借鑒參考下,希望能夠有所幫助,祝大家多多進(jìn)步,早日升職加薪
    2022-05-05
  • python求兩個(gè)時(shí)間的時(shí)間差(實(shí)例代碼)

    python求兩個(gè)時(shí)間的時(shí)間差(實(shí)例代碼)

    我們在用python進(jìn)行分析的時(shí)候,可能會(huì)碰到計(jì)算兩個(gè)日期的時(shí)間差。下面為大家介紹一下如何計(jì)算兩個(gè)時(shí)間的時(shí)間差,需要的朋友可以參考下
    2022-11-11
  • Python基礎(chǔ)之輸入,輸出與高階賦值詳解

    Python基礎(chǔ)之輸入,輸出與高階賦值詳解

    這篇文章主要為大家介紹了Python基礎(chǔ)之輸入,輸出與高階賦值,具有一定的參考價(jià)值,感興趣的小伙伴們可以參考一下,希望能夠給你帶來幫助
    2021-11-11
  • 基于Python編寫一個(gè)根據(jù)姓名測性別的小程序

    基于Python編寫一個(gè)根據(jù)姓名測性別的小程序

    這篇文章主要為大家介紹了如何利用Python編寫一款根據(jù)中文名能猜測性別的一款界面化的小程序,文中的示例代碼講解詳細(xì),感興趣的小伙伴可以了解一下
    2022-03-03
  • Python的多態(tài)性實(shí)例分析

    Python的多態(tài)性實(shí)例分析

    這篇文章主要介紹了Python的多態(tài)性,以實(shí)例形式深入淺出的分析了Python在面向?qū)ο缶幊讨卸鄳B(tài)性的原理與實(shí)現(xiàn)方法,需要的朋友可以參考下
    2015-07-07
  • 懶人必備Python代碼之自動(dòng)發(fā)送郵件

    懶人必備Python代碼之自動(dòng)發(fā)送郵件

    在傳統(tǒng)的工作中,發(fā)送會(huì)議紀(jì)要是一個(gè)比較繁瑣的任務(wù),需要手動(dòng)輸入郵件內(nèi)容、收件人、抄送人等信息,每次發(fā)送都需要重復(fù)操作,不僅費(fèi)時(shí)費(fèi)力,而且容易出現(xiàn)疏漏和錯(cuò)誤。本文就來用Python代碼實(shí)現(xiàn)這一功能吧
    2023-05-05
  • 使用Python更換外網(wǎng)IP的方法

    使用Python更換外網(wǎng)IP的方法

    這篇文章主要介紹了使用Python更換外網(wǎng)IP的方法,,小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,也給大家做個(gè)參考。一起跟隨小編過來看看吧
    2018-07-07
  • Python 中將值附加到集合的操作方法

    Python 中將值附加到集合的操作方法

    這篇文章主要介紹了Python 中將值附加到集合的操作方法,通過使用 add() 方法或 update() 方法,你可以向 Python 中的集合中添加元素,在添加元素時(shí),需要注意不允許重復(fù)元素和集合是無序的,本文通過示例代碼給大家介紹的非常詳細(xì),需要的朋友可以參考下
    2023-05-05
  • Python 靜態(tài)導(dǎo)入與動(dòng)態(tài)導(dǎo)入的實(shí)現(xiàn)示例

    Python 靜態(tài)導(dǎo)入與動(dòng)態(tài)導(dǎo)入的實(shí)現(xiàn)示例

    Python靜態(tài)導(dǎo)入和動(dòng)態(tài)導(dǎo)入是指導(dǎo)入模塊或模塊內(nèi)部函數(shù)的兩種方式,本文主要介紹了Python 靜態(tài)導(dǎo)入與動(dòng)態(tài)導(dǎo)入的實(shí)現(xiàn)示例,具有一定的參考價(jià)值,感興趣的可以了解一下
    2024-05-05

最新評(píng)論