快捷導(dǎo)航

Python實現(xiàn)讀取PDF中的文本,圖片與文檔屬性

更新時間：2025年06月08日 08:21:32 作者：Eiceblue

PDF格式因其版式固定、內(nèi)容穩(wěn)定而被廣泛使用,本文將介紹如何用Python實現(xiàn)PDF文本讀取,圖片提取以及文檔屬性讀取?三大核心操作,適用于信息抽取,電子檔案處理等場景,有需要的可以了解下

在日常的數(shù)據(jù)采集、文檔歸檔與信息挖掘過程中，PDF格式因其版式固定、內(nèi)容穩(wěn)定而被廣泛使用。Python 開發(fā)者若希望實現(xiàn) PDF 內(nèi)容的自動化提取，選擇一個易用且功能完善的庫至關(guān)重要。本文將介紹如何用Python實現(xiàn) PDF文本讀取、圖片提取以及文檔屬性讀取三大核心操作，適用于信息抽取、電子檔案處理等場景。

本文使用免費的 Free Spire.PDF for Python，pip安裝：pip install spire.pdf.free

Python讀取PDF文本

在PDF中提取可識別的文字內(nèi)容，是信息處理的基礎(chǔ)需求。Spire.PDF 提供了 PdfTextExtractor 類，可逐頁提取文本，并通過參數(shù)控制提取方式。

操作說明：

創(chuàng)建 PdfDocument 實例并加載PDF；
遍歷每一頁，構(gòu)建 PdfTextExtractor；
設(shè)置提取選項，如是否簡化布局；
累加獲取到的文本內(nèi)容。

代碼示例：

from spire.pdf import PdfDocument, PdfTextExtractor, PdfTextExtractOptions

# 創(chuàng)建 PdfDocument 實例并加載文檔
pdf = PdfDocument()
pdf.LoadFromFile("sample.pdf")

all_text = ""
# 遍歷所有頁面
for pageIndex in range(pdf.Pages.Count):
    page = pdf.Pages.get_Item(pageIndex)
    # 創(chuàng)建文本提取器
    text_extractor = PdfTextExtractor(page)
    # 設(shè)置提取選項
    options = PdfTextExtractOptions()
    options.IsExtractAllText = True
    options.IsSimpleExtraction = True
    # 提取文本并累加
    all_text += text_extractor.ExtractText(options)

# 輸出全部文本內(nèi)容
print(all_text)

PDF文檔：

讀取的PDF文本：

Python讀取PDF圖片

PDF中的圖片可能包含插圖、圖標、水印等重要信息。Spire.PDF 提供了 PdfImageHelper 工具類，可提取頁面中嵌入的圖像并保存為文件。

操作說明：

加載PDF文檔并獲取頁面；
使用 PdfImageHelper.GetImagesInfo() 獲取圖片信息；
遍歷并保存提取的圖片對象。

代碼示例：

from spire.pdf import PdfDocument, PdfImageHelper

# 加載PDF文件
pdf = PdfDocument()
pdf.LoadFromFile("sample.pdf")

# 獲取第一頁
page = pdf.Pages.get_Item(0)

# 創(chuàng)建圖片助手
image_helper = PdfImageHelper()
# 獲取頁面中的圖片信息
images_info = image_helper.GetImagesInfo(page)

# 保存圖片為本地文件
for i in range(len(images_info)):
    images_info[i].Image.Save("output/Images/image" + str(i) + ".png")

讀取的PDF圖片：

Python讀取PDF文檔屬性

除了內(nèi)容本身，PDF還可能包含元數(shù)據(jù)（如標題、作者、關(guān)鍵詞等），便于進行文檔分類與檢索。Spire.PDF 支持直接讀取這些信息。

操作說明：

加載PDF文件；
通過 DocumentInformation 屬性訪問文檔元數(shù)據(jù)；
打印或記錄相關(guān)屬性值。

代碼示例：

from spire.pdf import PdfDocument

# 加載PDF文件
pdf = PdfDocument()
pdf.LoadFromFile("sample.pdf")

# 獲取文檔屬性信息
properties = pdf.DocumentInformation
print("標題： " + properties.Title)
print("作者： " + properties.Author)
print("主題： " + properties.Subject)
print("關(guān)鍵詞： " + properties.Keywords)

讀取的PDF文檔屬性：