Python實(shí)現(xiàn)精準(zhǔn)提取?PDF中的文本,表格與圖片
在實(shí)際的系統(tǒng)開發(fā)中,處理 PDF 文件不僅限于讀取整頁(yè)文本,還有提取文檔中的表格數(shù)據(jù)、圖片或特定區(qū)域的內(nèi)容。這些任務(wù)看似簡(jiǎn)單,實(shí)則對(duì)精度與處理能力提出了更高要求。本文將以 Python 語(yǔ)言為例,結(jié)合 Spire.PDF 控件,帶你實(shí)戰(zhàn)演練如何精準(zhǔn)提取 PDF 中的表格、圖片以及指定區(qū)域的文本內(nèi)容,助力你高效完成數(shù)據(jù)分析、內(nèi)容重用等任務(wù)。
安裝 Python 庫(kù)
本文將使用 Spire.PDF for Python 來(lái)演示怎樣完成 PDF 文檔中的元素提取。作為一個(gè)獨(dú)立的第三方組件,Spire.PDF 不依賴微軟 Office,還可以兼容大部分國(guó)產(chǎn)系統(tǒng),是你的 PDF 自動(dòng)化好幫手。
通過 pip 命令安裝它:
pip install Spire.PDF
或使用:
pip install spire.pdf.free
安裝免費(fèi)版,免費(fèi)版存在一些篇幅限制,但對(duì)于處理小型任務(wù)來(lái)說足夠了。
提取 PDF 文本內(nèi)容:獲取整頁(yè)文本與指定區(qū)域內(nèi)容
通常情況下,提取 PDF 文檔文本的需求主要有兩種:
- 一種是提取整頁(yè)或整份文檔中的全部文本,如合同全文提取、批量歸檔場(chǎng)景。
- 另一種是提取特定區(qū)域內(nèi)的文本,如從表單、票據(jù)中提取某一欄位內(nèi)容。
在本章節(jié),我們將使用 Spire.PDF 來(lái)分別完成這兩個(gè)任務(wù)。
獲取頁(yè)面上的所有文本內(nèi)容
文本是 PDF 文檔中最常見的內(nèi)容形式。無(wú)論是提取整份合同內(nèi)容,還是其他需要批量處理的文檔,掌握 PDF 文本提取技巧都至關(guān)重要。本節(jié)將向你展示如何快速通過 Python 從 PDF 文檔中提取頁(yè)面上的所有文本內(nèi)容。
完整代碼示例 - 獲取第一頁(yè)所有文本:
from spire.pdf import *
from spire.pdf.common import *
# 創(chuàng)建 PdfDocument 對(duì)象
pdf = PdfDocument()
# 加載 PDF 文檔
pdf.LoadFromFile("/AI繪畫的利與弊.pdf")
# 獲取 PDF 第一頁(yè),遍歷文檔所有頁(yè)便可提取文檔所有文本內(nèi)容
page = pdf.Pages.get_Item(0)
# 創(chuàng)建 PdfTextExtractor 對(duì)象
textExtractor = PdfTextExtractor(page)
# 創(chuàng)建 PdfTextExtractOptions 對(duì)象
extractOptions = PdfTextExtractOptions()
# 從頁(yè)面中提取文本
text = textExtractor.ExtractText(extractOptions)
# 寫入到 txt 文件中
extractedText = open("/提取第一頁(yè)文本.txt", "w", encoding = "utf-8")
extractedText.write(text)
# 釋放對(duì)象
extractedText.close()
pdf.Close()效果預(yù)覽:

(Python 提取 PDF 頁(yè)面上的文本)
主要步驟解析:
- 創(chuàng)建新的 PdfDocument 對(duì)象,然后加載 PDF 文檔。
- 獲取文檔的第一頁(yè)或遍歷所有頁(yè)面以便提取整個(gè) PDF 文檔的文本。
- 創(chuàng)建 PdfTextExtractor 和 PdfTextExtractOptions 對(duì)象,用以提取文本。
- 通過 PdfTextExtractor.ExtractText() 方法從所選頁(yè)面中提取文本。
獲取 PDF 特定區(qū)域的文本
有時(shí)候,我們不需要整頁(yè)的內(nèi)容,只想提取 PDF 里某個(gè)特定位置的文字,比如發(fā)票上的金額、表格里的某一欄,或者文件角落的簽名。只需要用 Spire.PDF 設(shè)置一下坐標(biāo),就能輕松搞定區(qū)域文本提取。
完整代碼示例 - 獲取第一頁(yè)一個(gè)矩形區(qū)域內(nèi)的文本:
from spire.pdf import *
from spire.pdf.common import *
# 創(chuàng)建PdfDocument 對(duì)象
pdf = PdfDocument()
# 加載PDF文檔
pdf.LoadFromFile("E:/Administrator/Python1/input/AI繪畫的利與弊-圖片版.pdf")
# 獲取PDF第一頁(yè),遍歷文檔所有頁(yè)便可提取文檔所有文本內(nèi)容
page = pdf.Pages.get_Item(0)
#創(chuàng)建PdfTextExtractor 對(duì)象
textExtractor = PdfTextExtractor(page)
#創(chuàng)建PdfTextExtractOptions 對(duì)象
extractOptions = PdfTextExtractOptions()
# 設(shè)置從矩形區(qū)域提取文本的選項(xiàng)
extractOptions.ExtractArea = RectangleF(80.0, 120.0, 450.0, 120.0)
#從頁(yè)面中提取文本
text = textExtractor.ExtractText(extractOptions)
# 寫入到 txt 文件中
extractedText = open("E:/Administrator/Python1/output/提取特定區(qū)域文本.txt", "w", encoding = "utf-8")
extractedText.write(text)
# 釋放對(duì)象
extractedText.close()
pdf.Close()效果預(yù)覽:

(Python 提取 PDF 中特定區(qū)域的文本)
主要步驟解析:
- 創(chuàng)建新的 PdfDocument 對(duì)象,然后加載一個(gè) PDF 文檔。
- 獲取文檔的第一頁(yè)。
- 創(chuàng)建 PdfTextExtractor 和 PdfTextExtractOptions 對(duì)象,用以提取文本。
- 使用 PdfTextExtractOptions.ExtractArea 屬性設(shè)置頁(yè)面區(qū)域范圍。
- 通過 PdfTextExtractor.ExtractText() 方法從所指定的頁(yè)面區(qū)域中提取文本。
注意事項(xiàng):extractOptions.ExtractArea = RectangleF(80.0, 120.0, 450.0, 120.0) 中的四個(gè)參數(shù)依次代表矩形區(qū)域的 X 坐標(biāo)、Y 坐標(biāo)、寬度 和 高度。通過調(diào)整這些數(shù)值,你可以靈活控制需要提取文本的區(qū)域位置和大小,確保僅獲取你想要的內(nèi)容。
提取 PDF 中的表格并導(dǎo)出為 CSV
在 PDF 文檔中,表格通常以非結(jié)構(gòu)化的形式存在,直接提取和復(fù)用并不容易,尤其是遇到無(wú)邊框、合并單元格或跨頁(yè)表格的時(shí)候。本節(jié)我們將介紹如何使用 Spire.PDF 和 Spire.XLS 準(zhǔn)確識(shí)別 PDF 中的表格內(nèi)容,并將其導(dǎo)出為結(jié)構(gòu)化格式,如 Excel 或 CSV,幫助你實(shí)現(xiàn)高效的數(shù)據(jù)處理與復(fù)用。
完整代碼示例 - 提取 PDF 表格并保存為 CSV:
from spire.pdf import *
from spire.pdf.common import *
from spire.xls import *
# 創(chuàng)建 PdfDocument 對(duì)象
doc = PdfDocument()
# 加載 PDF 文檔
doc.LoadFromFile("/Population.pdf")
# 創(chuàng)建 Workbook 對(duì)象
workbook = Workbook()
# 清除默認(rèn)工作表
workbook.Worksheets.Clear()
# 創(chuàng)建 PdfTableExtractor 對(duì)象
extractor = PdfTableExtractor(doc)
sheetNumber = 1
# 遍歷PDF文件中的頁(yè)面
for pageIndex in range(doc.Pages.Count):
# 從當(dāng)前頁(yè)面提取表格
tableList = extractor.ExtractTable(pageIndex)
# 遍歷表格
if tableList is not None and len(tableList) > 0:
for table in tableList:
# 為當(dāng)前表格添加一個(gè)工作表
sheet = workbook.Worksheets.Add(f"Sheet{sheetNumber}")
# 獲取表格的行數(shù)和列數(shù)
row = table.GetRowCount()
column = table.GetColumnCount()
# 遍歷表格的行和列
for i in range(row):
for j in range(column):
# 獲取當(dāng)前單元格中的文本
text = table.GetText(i, j)
# 將文本寫入工作表的指定單元格
sheet.Range[i + 1, j + 1].Value = text
sheetNumber += 1
# 將工作簿保存為 Excel 文件
workbook.SaveToFile("/提取表格.csv", FileFormat.CSV)
workbook.Dispose()
doc.Close()效果預(yù)覽:

(Python 提取 PDF 中的表格并保存為 CSV)
主要步驟解析:
- 創(chuàng)建 PdfDocument 實(shí)例并加載 PDF 文檔。
- 創(chuàng)建 Workbook 實(shí)例。
- 遍歷 PDF 中的所有頁(yè)面。
- 使用 PdfTableExtractor.ExtractTable() 方法提取頁(yè)面中的表格。
- 遍歷提取的表格,并使用 Workbook.Worksheets.Add() 方法向工作簿中添加工作表。
- 使用 PdfTable.GetText() 方法獲取 PDF 表格單元格中的文本。
- 利用 Worksheet.Range[].Value 屬性將文本寫入工作表的特定單元格。
- 使用 Workbook.SaveToFile() 方法將結(jié)果工作簿保存為 CSV 文件。
注意事項(xiàng):要將表格保存為 CSV 或 Excel 文件,需要用到 Spire.XLS。你可以通過:pip install spire.xls 將其安裝到設(shè)備上。
快速提取 PDF 文檔中的圖片
在 PDF 文檔中,除了文本和表格,圖片也是常見的內(nèi)容形式,尤其是在宣傳材料、報(bào)告或掃描文檔中更為常見。這些圖片可能是位圖,也可能是矢量圖,提取方式各不相同。本節(jié)將帶你了解如何使用 Spire.PDF 快速識(shí)別并提取頁(yè)面中的嵌入圖片,并將其保存為常用格式(如 PNG、JPEG),方便后續(xù)的歸檔、分析或內(nèi)容重用。
完整代碼示例 - 提取 PDF 文檔中的所有圖片:
from spire.pdf.common import *
from spire.pdf import *
# 創(chuàng)建 PdfDocument 對(duì)象
doc = PdfDocument()
# 加載 PDF 文檔
doc.LoadFromFile("/AI繪畫的利與弊.pdf")
# 創(chuàng)建 PdfImageHelper 對(duì)象
image_helper = PdfImageHelper()
image_count = 1
# 遍歷文檔中的頁(yè)面
for i in range(doc.Pages.Count):
# 獲取當(dāng)前頁(yè)面中的圖片信息
images_info = image_helper.GetImagesInfo(doc.Pages[i])
# 獲取圖片并將其保存為圖片文件
for j in range(len(images_info)):
image_info = images_info[j]
output_file = f"/New folder/image{image_count}.png"
image_info.Image.Save(output_file)
image_count += 1
doc.Close()效果預(yù)覽:

(Python 提取 PDF 中的所有圖片)
主要步驟解析:
- 創(chuàng)建 PdfDocument 實(shí)例并加載一個(gè) PDF 文檔。
- 創(chuàng)建 PdfImageHelper 對(duì)象。
- 遍歷所有頁(yè)面。
- 通過 PdfImageHelper.GetImagesInfo(page: PdfPageBase) 方法獲取頁(yè)面中的圖片信息。
- 遍歷獲取結(jié)果,使用 PdfImageInfo.Image.Save() 方法將每張圖片保存為圖片文件。
總結(jié)
今天的文章中,我們展示了如何在 Python 中精準(zhǔn)提取 PDF 文檔中的文本、表格和圖片。無(wú)論是批量處理合同、公文,還是提取數(shù)據(jù)用于系統(tǒng)集成,Spire 控件都能為開發(fā)者提供穩(wěn)定、高效的支持。隨著文檔數(shù)字化和自動(dòng)化處理需求不斷增長(zhǎng),掌握這類工具的使用將為日常開發(fā)工作帶來(lái)顯著效率提升。
到此這篇關(guān)于Python實(shí)現(xiàn)精準(zhǔn)提取 PDF中的文本,表格與圖片的文章就介紹到這了,更多相關(guān)Python提取 PDF內(nèi)容請(qǐng)搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!
相關(guān)文章
在Python中利用Pandas庫(kù)處理大數(shù)據(jù)的簡(jiǎn)單介紹
這篇文章簡(jiǎn)單介紹了在Python中利用Pandas處理大數(shù)據(jù)的過程,Pandas庫(kù)的使用能夠很好地展現(xiàn)數(shù)據(jù)結(jié)構(gòu),是近來(lái)Python項(xiàng)目中經(jīng)常被使用使用的熱門技術(shù),需要的朋友可以參考下2015-04-04
python爬蟲實(shí)現(xiàn)POST request payload形式的請(qǐng)求
這篇文章主要介紹了python爬蟲實(shí)現(xiàn)POST request payload形式的請(qǐng)求,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過來(lái)看看吧2020-04-04
利用Python探測(cè)附近WIFI密碼的詳細(xì)代碼
這篇文章主要介紹了利用Python探測(cè)附近WIFI密碼,基于python腳本實(shí)現(xiàn)wifi密碼的暴力破解從而實(shí)現(xiàn)免費(fèi)蹭網(wǎng),本文通過實(shí)例代碼給大家介紹的非常詳細(xì),需要的朋友參考下吧2022-01-01
使用Python腳本在Linux下實(shí)現(xiàn)部分Bash Shell的教程
這篇文章主要介紹了使用Python腳本在Linux下實(shí)現(xiàn)部分Bash Shell的教程,包括一些簡(jiǎn)單的輸入輸出和郵件功能,需要的朋友可以參考下2015-04-04
基于Python開發(fā)一個(gè)Instant Messaging(IM)聊天工具
在現(xiàn)代社會(huì)中,即時(shí)通訊工具已經(jīng)成為人們?nèi)粘贤ǖ闹匾ぞ?本文將詳細(xì)介紹如何開發(fā)一個(gè)簡(jiǎn)單的IM聊天工具,感興趣的小伙伴可以跟隨小編一起學(xué)習(xí)一下2024-12-12
python調(diào)用ffmpeg命令行工具便捷操作視頻示例實(shí)現(xiàn)過程
現(xiàn)在短視頻很流行,有很多視頻編輯軟件,功能豐富,而我們需要的只是裁剪功能,而且需要用編程的方式調(diào)用,那么最合適的莫過于ffmpeg了2021-11-11
python中68個(gè)內(nèi)置函數(shù)的總結(jié)與介紹
這篇文章主要介紹了python中68個(gè)內(nèi)置函數(shù)的總結(jié)與介紹,需要的朋友可以參考下2020-02-02

